跳至主要內容

多模態證據系統:視覺語言模型(VLM)、圖像基礎化(Figure Grounding)與跨模態檢索(Cross-Modal Retrieval)

Huang Tzu Lin
Founder
預估 20 分鐘 更新於 2026年5月10日

閱讀順序

Document & Multimodal Intelligence

章節2/3
你在這裡67%
  1. 01
  2. 02
  3. 03
Annotated evidence panel linking hotel photo, floor-plan crop, caption, nearby paragraph, and measurement snippet.

純文字系統一旦證據不再主要是文字,就會失效;在無障礙旅行規劃中,照片、平面圖、路線地圖、圖說和量測數據往往會共同決定答案。

這聽起來像廢話,但在實務上仍然是常見的架構錯誤。一個 AI 助理可能檢索到正確的文件、引述了正確的段落,卻還是漏掉了真正重要的證據——因為那個主張存在於一張飯店照片、一張建築平面圖、一個路線地圖標註,或一張跟無障礙稽核影像綁在一起的表格中。在旅行規劃和無障礙驗證中,結論往往取決於視覺證據、周圍散文和結構化量測數據怎麼搭配在一起。系統一旦把影像當成裝飾性附件、或把它們縮減成薄弱的 OCR 文字,證據鏈就斷了。

所以多模態證據系統不只是附帶影像上傳功能的文字系統,而是為了在保留溯源的前提下跨模態對齊證據而建構的系統。本文的重點不在炫目的影像對話演示,而在實際的系統問題:怎麼連結圖片、圖說、鄰近討論、表格和量測數據,讓基礎化的答案仍然可以被審查。

這裡也適合把主張的範圍收窄一下。我們要說的不是現在的 VLM 可以單獨從影像驗證無障礙合規性。我們要說的是:當圖片結構、周圍文字、中繼資料、檢索和審查邊界都保持明確時,VLM 可以成為更嚴格的證據對齊系統中一個有用的元件。

貫穿全文的範例跟本系列其他文章一樣:一個為無障礙旅行規劃設計的 OptiVerse Travel Copilot。在這個場景中,多模態不是可選項。旅行社會用到飯店手冊、無障礙規格表、建築平面圖、帶高程剖面的路線地圖,以及目的地稽核照片。關於無障礙淋浴間合規性、門寬淨空間或輪椅路線可行性的問題,答案可能取決於照片中看得到什麼,以及視覺證據跟同一物業的書面無障礙規格是否吻合。

多模態落地的關鍵,是把視覺證據、周邊文字與中繼資料維持在同一條證據鏈上。
圖解多模態落地的關鍵,是把視覺證據、周邊文字與中繼資料維持在同一條證據鏈上。

為什麼視覺證據改變了架構

前面幾篇的主要挑戰,是從文件中取得可靠的文字和結構化資料、檢索正確的證據、讓合成維持有基礎的狀態。這些仍然重要。不過一旦圖片和影像成為一級證據,架構就必須在三個方面做出調整。

第一,檢索不能再假設文件最好的表示方式只有文字。視覺豐富的頁面可能在版面、平面圖結構、標註、量測標籤或影像內容中承載重要含義。第二,基礎化現在需要跨模態對齊(cross-modal alignment)——系統得知道哪張影像對應哪個圖說、哪個鄰近段落在解釋這張影像,以及哪個物業中繼資料或無障礙規格對應所描繪的證據。第三,合成必須變得更嚴格而非更寬鬆。模型可能產生流暢的視覺描述,但正式環境中的證據系統仍然要回答更窄的問題:什麼證據支持這個主張,什麼仍然不確定?

對技術決策者來說,這裡有一個很實用的區分:重點不在於模型能不能把一張影像描述得令人信服,而在於系統能不能維持一條從視覺產物到主張的可辯護證據鏈。

在系統層面上,VLM 是什麼

視覺語言模型(VLM)是一種連接視覺輸入和語言的模型,讓系統能解讀或生成關於影像和視覺豐富文件的語言。對本系列來說,重要的不是某個模型家族的品牌,而是 VLM 為系統提供了一種能力:把影像和文字映射到共享或對齊的表示空間,同時對視覺內容和語言做推理。

這個能力支援兩個不同但相關的任務:

  1. 以語言理解或描述視覺輸入

  2. 為檢索、排序和基礎化比對文字和影像

這兩個任務經常被混為一談,但不應如此。一個能為影像產生看似合理圖說的模型,不代表就能可靠地做無障礙證據比對。一個能根據文字查詢檢索到相關照片的系統,也不代表就能從那張照片得出正確的合規結論。

對實際架構而言,把各層分清楚會很有幫助:

  • 文件智慧 擷取文件結構:頁面、圖片、圖說、表格、章節和版面關係。

  • VLM 能力 幫助解讀影像內容,並以能與語言對齊的方式編碼視覺頁面或影像區域。

  • 檢索與排序 連接文字查詢、影像查詢、頁面影像和結構化中繼資料。

  • 基礎化合成 產生有界限的答案,引用哪張影像、圖說、段落和量測數據支持結論。

這樣分層可以避免系統塌縮成「模型看到整份文件」這種含混的概念。在正式環境中,每一層有不同的失敗模式和不同的評估要求。

從文件解析到圖像基礎化

第八篇把文件智慧(document intelligence)當成一級系統問題,因為單靠 OCR 不夠。到了這裡,這一點變得更加重要。多模態系統要能對圖片推理,首先得還原圍繞圖片的文件關係。

圖像基礎化(figure grounding)從結構開始:

  • 圖片在頁面上的位置

  • 哪個圖說屬於它

  • 圖片是否有多個面板

  • 哪些鄰近段落討論了它

  • 是否有關聯的表格或量測摘要

  • 什麼中繼資料標識了相關的物業、預訂或文件章節

少了這些結構,系統就很容易犯下多模態領域最老的錯誤:非常有自信地描述錯誤的東西。

在無障礙旅行工作流程中,這個錯誤特別容易發生。一家飯店的文件可能包含橫跨好幾頁的照片,每張顯示的房型、角度和無障礙特徵都略有不同。系統一旦把照片跟錯誤的圖說配對,或把另一個房型類別的鄰近段落當成解釋性上下文,下游答案聽起來可能還是很連貫,但實質上已經錯了。

換句話說,圖像基礎化不是單一的模型功能,而是一個橫跨影像區域、圖說文字、鄰近討論、文件版面和物業中繼資料的證據對齊任務。

圖像基礎化需要的不僅是圖說

圖說很重要,但光靠圖說通常是不夠的。

在技術文件中,圖說通常是壓縮過的摘要,往往省略了周圍散文視為理所當然的假設。一個圖說可能寫著照片顯示「帶有扶手的無障礙浴室」,但要正確解讀所需的細節分散在別的地方:門寬量測、房型指定、ADA 合規層級、平面圖標註,以及一段討論為何這個配置符合某個無障礙標準但不符合另一個的段落。

這就是為什麼基礎化的多模態系統應該反覆對齊四個元素:

  • 影像:可見的證據本身,包括區域、房間佈局、設備、標籤和量測標註

  • 圖說:附加到圖片上的明確文字描述

  • 上下文:鄰近段落、章節標題和正文中的引用

  • 中繼資料:物業 ID、房型類別、無障礙評級和關聯的規格書

這個模式比任何單一模型選擇都重要。

來看一個核心的無障礙旅行問題:

照片集 ACC-09 中的飯店照片是否確實顯示了與合約 KYO-H12 無障礙規格表相符的無障礙淋浴間,且該照片是否與同一房型的建築平面圖量測數據一致?

沒有純文字系統能好好回答這個問題——除非相關的視覺證據已經被完美地轉成文字,而這種情況很少見。「無障礙淋浴間」這個判斷取決於肉眼可見的浴室佈局。「與無障礙規格表相符」取決於能不能把飯店提供的照片跟規格文件、描述和合規標準連結起來。「與建築平面圖量測數據一致」取決於能不能把視覺證據跟結構化的物業記錄結合。

即使是很強的 VLM,也不該只從影像內容就回答這個問題。正確的系統路徑更窄、更有紀律:

  1. 從已解析的文件包中恢復規格表的圖片區域、圖說和鄰近的解釋性段落

  2. 定位飯店提供的照片及其物業中繼資料

  3. 檢索同一房型的相關平面圖量測數據和無障礙評級

  4. 在正確的尺寸和合規中繼資料下,比較已發布的無障礙描述與實際照片

  5. 產生有界限的結論——什麼一致、什麼不一致,以及證據在哪裡含混

關鍵在於保留視覺證據跟其餘驗證記錄之間的連結,而不是讓模型「看得更仔細」。

多模態檢索的真正含義

多模態檢索的意思是系統可以跨不同模態檢索證據,不限於單一模態。本文中最實用的形式是跨模態檢索(cross-modal retrieval):文字查詢可以檢索到影像、圖片或視覺豐富的文件頁面,反過來影像或頁面也可以幫忙檢索相關文字或範例。

這是一個有意義的架構轉變。

在純文字的檢索堆疊裡,系統通常把文字區塊做嵌入,替文字查詢回傳最近匹配。答案主要以散文表達時,這很有效。但當決定性證據是由影像結構、平面圖設計、路線地圖佈局,或從未被完好解析的頁面外觀所承載時,效果就差了。

跨模態檢索為系統提供了不止一條通往證據的路徑:

  • 文字查詢可以檢索頁面影像,因為該頁面在視覺上包含相關平面圖或照片

  • 文字查詢可以檢索飯店無障礙照片,其視覺內容與所要求的合規特徵一致

  • 圖片或影像可以檢索相關段落、圖說或內部物業記錄

  • 頁面影像即使在 OCR 文字稀疏或嘈雜時仍可獲得較高排名

對工程師來說,關鍵的設計要點是:多模態檢索並非直接取代文字檢索。在多數正式環境的系統中,兩者是互補的。文字檢索對規格章節、合規討論、預訂備註和量測表格仍然重要。但當視覺證據承載了部分含義,光靠文字檢索就是不完整的索引。

把這個檢索層放進基礎化的答案生成步驟時,你可以把整體模式理解為多模態 RAG:檢索增強生成,但檢索的證據包括影像、圖片、頁面渲染、圖說和結構化記錄,不只是文字區塊。

範例實作:一條 OptiVerse Travel 證據鏈

假設一位旅行規劃師問 Copilot:飯店提供的一張無障礙房間照片,是否確實支持該物業無障礙規格中描述的無障礙淋浴間合規性。

系統不該直接跳到答案生成,而是應該先建立一條證據鏈。

它從規格表開始。文件流程已經辨識出無障礙規格章節、其中的圖表,以及引用它們的段落。檢索層現在可以把這份規格當成一個具有多重關聯表示的物件:裁剪的圖片影像、頁面影像、圖說文字、章節上下文和合約中繼資料。

接著轉向飯店證據。照片集 ACC-09 不只是一組影像,它應該連結到物業 ID、房型、無障礙等級、預訂參考號 JPN-2026-0417,以及來自 KYO-H12 的合約中繼資料。系統如果無法建立這個連結,就不該貿然去做合規比較。

再來是結構化證據。建築平面圖量測數據、門寬和無障礙評級表格不一定會直接證明視覺主張,但它們會約束解讀空間。照片顯示看起來合規的無障礙淋浴間,平面圖量測數據卻表明轉彎半徑不足?這就削弱了「房間確實符合指定無障礙標準」的結論。

此時系統可以執行多模態檢索和排序:

  • 檢索討論無障礙淋浴間和無障礙浴室要求的規格文件和頁面

  • 檢索來自相同或相鄰房型的飯店照片

  • 檢索與這些影像綁定的圖說、備註和量測摘要

  • 同時使用文字相似度和視覺文件相關性重新排序候選結果

只有到了這一步,合成層才應該回答使用者。一個謹慎的回答可能這樣說:ACC-09 中的浴室佈局在主要特徵方面跟規格的無障礙淋浴間要求在視覺上一致,但轉彎半徑、扶手位置或門檻高度的差異,使系統無法在未經現場驗證的情況下聲稱完全合規。這是一個有用的回答——有基礎、有條件,而且跟可檢查的證據綁在一起。

本文不討論的內容

這不是視覺模型或影像生成的通用介紹,也跟影像對話演示或創意影像理解無關。焦點更窄:多模態證據怎麼融入一個受治理的驗證系統——在這個系統裡,溯源、對齊和審查邊界都很重要。第八篇涵蓋了本文所建立的文件智慧基礎。第十篇會展示多模態證據如何成為完整總結架構中的一層。

常見的誤解

第一個誤解:模型能描述一張影像,就等於驗證了關於那張影像的主張。其實不然——描述不等於驗證。一段關於「無障礙淋浴間,後牆配有扶手」的流暢摘要,仍然可能忽略轉彎半徑、門檻高度,或者所比較的規格其實是針對另一個房型類別寫的。

第二個誤解:圖說包含了檢索所需的全部含義。實際上並非如此。圖說只是證據鏈的一部分,對於規劃師會在照片中直接檢查的內容、或規格文件所澄清的內容,圖說的描述往往不夠充分。

第三個誤解:跨模態檢索就是 OCR 加 embedding。在視覺豐富的文件中,頁面影像本身可以保留文字擷取所丟失的證據:平面圖結構、房間佈局關係、標註、嵌入在圖表裡的量測數據,或表格和照片構成整體論述的方式。

第四個誤解:視覺上看起來像就是合規等價的有力證據。並非如此。兩張飯店浴室照片可能看起來很像,卻代表不同的房型、無障礙等級或裝修階段。檢索應該建議候選項目,而不是直接下結論。

失敗模式與限制

多模態系統增加了能力,但也帶來新的失敗方式。

一個失敗模式是圖片和圖說配對錯誤:解析或版面步驟把錯誤的圖說或鄰近段落附加到照片上,答案就繼承了這個錯誤。另一個是遺漏或忽略了尺寸資訊——缺少量測數據的合規比較,可能會誇大實際上不可比較的特徵之間的相似性。

第三個失敗模式是中繼資料漂移。飯店照片可能跟錯誤的物業 ID、房型或預訂參考號關聯在一起,把一個技術上精密的檢索結果變成溯源錯誤。第四個是視覺幻覺或過度簡化——VLM 可能很有自信地摘要平面圖特徵、房間配置或照片細節,但這些內容實際上是薄弱的、含混的或根本不存在的。

還有一個更微妙的系統失敗:缺乏依據就做合規推論。模型檢索到一張視覺上相似的規格圖表,然後從相似性直接跳到完全合規的結論。這在無障礙規劃中尤其危險——外觀看起來像,不代表空間真的符合定義的無障礙標準。

這就是為什麼有界限的主張很重要。一個多模態驗證系統應該要能這樣表達:

  • 飯店照片在有限的屬性集合下與規格圖表在視覺上相似

  • 圖說和鄰近描述支持一種可能的解讀

  • 量測表格與該解讀一致或不一致

  • 證據不足以在未經現場審查的情況下確認合規

這種風格的回答比過度自信的「是」更強,因為它保持了證據鏈的完整性。

實務設計指引

如果你正在建構或評估這類系統,有四個設計選擇比模型的宣傳更重要。

第一,把圖片和頁面當成可檢索的物件,而不只是文字區塊的附件。一張圖片應該有關聯的影像、圖說、頁面、上下文和中繼資料引用。第二,在整個流程中保留模態連結,別讓匯入過程把影像扁平化成孤立的替代文字式摘要就了事。

第三,結合檢索路徑。在多數驗證系統中,文字檢索、頁面影像檢索和中繼資料過濾應該一起工作。正確答案往往取決於交集,不是靠任何單一索引。第四,在最終回應中讓溯源看得到。審查無障礙主張的使用者應該能檢查答案依賴的是哪張照片、圖說、段落、表格和物業記錄。

這也改變了評估方式。不該只根據答案流暢度來評估系統,而應該測試它是否檢索到正確的圖片、圖說配對是否正確、是否遵守中繼資料邊界,以及在視覺信號含混時會不會選擇拒答。這些是系統品質問題,不只是模型品質問題。

什麼仍然需要人工審查

多模態基礎化改善了證據處理,但無法取代專家判斷。

旅行規劃師仍然需要審查那些解讀取決於細微空間佈局、有爭議的合規標準、不明確的量測數據或不完整中繼資料的案例。無障礙專家可能也需要看看檢索到的照片是真的可以比較,還是只是視覺上長得像而已。換句話說,多模態擴展了系統能呈現的內容,但在錯誤解讀後果嚴重的時候,審查的需求不會消失。

這跟本系列更廣泛的主題一致:真正強大的系統不是最能隱藏不確定性的系統,而是把不確定性導向明確邊界、溯源和核准機制的系統。

本篇在系列中的位置

第八篇指出文件智慧(document intelligence)不只是 OCR。本文延伸了這個邏輯:多模態也不只是影像理解。它是把視覺證據跟文字、結構和中繼資料對齊所需要的系統工作,讓主張保持有基礎。

這直接引向總結架構。在最後一篇文章中,各個組件會匯聚在一起:文件解析、文字檢索、多模態檢索、工具使用、核准閘門(approval gate),以及正式環境旅行 Copilot 中的稽核能力。架構問題不再是「模型能讀這張照片嗎?」而是「我們怎麼建構一個驗證系統,讓它能運用多模態證據,卻不失去對溯源、可靠性和審查的控制?」


來源附註

本文參考以下主要與實務來源:

  • Radford, A., Kim, J. W., Hallacy, C., et al. "Learning Transferable Visual Models From Natural Language Supervision." 共享圖文表徵學習與跨模態檢索基礎的參考。arxiv.org/abs/2103.00020

  • Li, J., Li, D., Savarese, S., and Hoi, S. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." 連接視覺編碼器與語言模型的實用 VLM 架構參考。arxiv.org/abs/2301.12597

  • Faysse, M., Sibille, H., Wu, T., et al. "ColPali: Efficient Document Retrieval with Vision Language Models." 超越 OCR-only pipeline 的視覺豐富文件檢索參考。arxiv.org/abs/2407.01449

  • Yu, S., Tang, Z., Zhang, Z., et al. "VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents." 多模態文件檢索與生成框架參考。arxiv.org/abs/2410.10594

分享此文章

X LinkedIn

Huang Tzu Lin

With over five years in autonomous robotics, there's a strong passion for incorporating cutting-edge technologies and innovative approaches. Dedicated to transforming the latest research and insights into practical applications, this journey pushes the limits of possibility.

訂閱最新資訊

將最新技術洞察直接送到您的信箱。