隨著視覺、聽覺、語言等單模態人工智能技術的突破,讓計算機擁有更接近人類理解多模態信息的能力受 到研究者們的廣泛關注。另一方麵,隨著圖文社交、短視頻、視頻會議、直播和虛擬數字人等應用的湧現,對多模態 信息處理技術提出了更高要求,同時也給多模態研究提供了海量的數據和豐富的應用場景。該文首先介紹了近期 自然語言處理領域關注度較高的多模態應用,並從單模態的特征表示、多模態的特征融合階段、融合模型的網絡結 構、未對齊模態和模態缺失下的多模態融合等角度綜述了主流的多模態融合方法,同時也綜合分析了視覺-語言跨 模態預訓練模型的最新進展

http://jcip.cipsc.org.cn/CN/abstract/abstract3314.shtmt

1. 引言

人工智能研究經過70多年的探索,在視覺、語 音與聲學、語言理解與生成等單模態① 人工智能領 域已取得了巨大的突破。特別是視覺領域的目標檢 測與人臉識別技術、語音領域的語音識別與語音合 成技術、自然語言處理領域的機器翻譯與人機對話 技術在限定場景下已經實現了規模化的應用。然 而,人類對周圍環境的感知、對信息的獲取和對知識 的學習與表 達 都 是 多 模 態 (Multimodal)的。近 些 年,如何讓計算機擁有更接近人類的理解和處理多 模態信息的能力,進而實現高魯棒性的推理決策成 為熱點問題,受到人工智能研究者的廣泛關注。另 一方麵,隨著圖文社交(Facebook、Twitter、微信、微 博等)、短視頻(YouTube、抖音、快手)、音頻(Club-音、京東、淘寶等)和數字人(2D、3D、卡通、寫實、超 寫實等)等應用的湧現,對多模態信息處理技術在用 戶理解、內容理解和場景理解上提出了更高的要求, 同時也給多模態技術提供了海量的數據和豐富的應 用場景。 多模態信息處理技術打破計算機視覺、語音與 聲學、自然語言處理等學科間的壁壘,是典型的多學 科交叉技術。多模態技術從20世紀70年代開始發 展,Morency等人[1]將多模態技術的發展劃分為四 個階段,即 1970-1980 年 的 行 為 時 代 (Behavioral Era)、1980-2000 年 的 計 算 時 代 (Computational Era)、2000-2010 年的交互時代(InteractionEra) 和2010年起的深度學習時代(DeepLearningEra)。 多模態核心技術又分為:多模態表示(Representation),多模態融合(Fusion)、多模態轉換(Translation)、多 模 態 對 齊 (Alignment)和 模 態 協 同 學 習 (Co-learning)類。

近些年,研究者從不同的視角對多模態信息處 理技術做了很好的總結回顧。Zhang等人[2]圍繞圖 像描述、視覺-語言生成、視覺問答和視覺推理四個 應用,從計算機視覺的角度總結了多模態表示學習 和多模態融合的最新進展。Summaira等人[3]的綜 述覆蓋了更多的多模態應用,並根據應用組織了每 一個多模態應用的技術進展和局限性。

本文從自然語言處理的視角出發,介紹多模態 信息處理技術的最新進展,組織結構如下:第1節 介紹 NLP領域關注度較高的多模態應用和相關的 數據集。多模態融合是多模態信息處理的核心問 題。第2節從單模態信息的表示方法、多模態信息 的融合階段、融合模型的網絡結構、未對齊模態和模 態缺失情況下的多模態融合等角度介紹主流的多模 態融合方法。第3節介紹多模態預訓練技術,並從 模型的網絡結構、模型的輸入、預訓練目標、預訓練 語料和下遊任務等維度對比最新提出的多模態預訓 練模型。第4節介紹多模態技術在工業界的應用。 最後一節是總結和對未來工作的展望。

2. 多模態應用

我們分析了最近兩年在自然語言處理領域國際 學術會議上(ACL、EMNLP、NAACL)發表的多模 態信息處理的論文,並從應用的角度對論文進行了 分類。關注度較高的多模態應用如圖1所示。本節將對這些應用展開介紹。除此之外,多模態應用還 包括視聽語音識別(Audio-VisualSpeechRecognition)、多 模 態 語 言 分 析 (Multimodal Language Analysis)和視覺輔助的句法分析[4]等。文獻[4]還 獲得 NAACL2021的最佳長文獎。

1.1 多模態情感識別

情感是人類區別於機器的一個重要維度,而人 的情感往往又是通過語音、語言、手勢、動作表情等 多個模態表達的。在交互場景下,多模態情感識別 研究如何從人的表情和動作手勢、語音音調、語言等 多模態信息中理解用戶細顆粒度的情感表達,進而 指導人機交互策略。其主要研究內容有:①基於 多模態信息互補性和異步性的動態融合;②高噪 聲環境下對於模態模糊或模態缺失問題的魯棒性 融合;③客服和營銷等自然交互情境下的情感識 別等。 多模態情感識別的常用數據集有IEMOCAP [5]、 CMU-MOSI [6]、CMU-MOSEI [7]、CH-SIMS [8] 和 IVD [9]等。 數 據 集 的 多 維 度 比 較 如 表 1 所 示。 IEMOCAP數據集收錄了10位演員的表演數據,包 含視頻、語音、麵部運動捕捉和文本模態,並標注了 高興、悲 傷、恐 懼 和 驚 訝 等 共 9 類 情 感。CMUMOSI數據集收錄了89位講述者的2199條視頻 片段,每段視頻標注了7類情感。CMU-MOSEI數 據集是 CMU-MOSI的擴展版,收錄了 1000 多名 YouTube主播的 3228 條視頻,包括 23453 個句 子,每個句子標注了7分類的情感濃度(高度負麵、 負麵、弱負麵、中性、弱正麵、正麵、高度正麵)和6分 類的情 緒 (高 興、悲 傷、生 氣、恐 懼、厭 惡、驚 訝)。 CH-SIMS數據集是一個中文多模態情感分析數據 集,該數據集為2281個視頻片段標注了細顆粒度的情感標簽。IVD 是從中文語音助手的真實用戶 對話日誌中抽取的語音情感數據集,包括500000 條無標注的語音數據和2946條帶6分類情感標注 的語音數據。

隨著圖文和短視頻等新興社交媒體的迅速發 展,人們在社交平台上的表達方式也變得更加豐富。 社交場景下的多模態情感識別主要研究基於圖文表 達的情感傾向[10]和方麵級的細顆粒度情感[11]等。

1.2 視覺-語言生成

視覺(圖像或視頻)到語言的生成和語言到視覺 (圖像或視頻)的生成打破了計算機視覺和自然語言 處理兩個領域的邊界,成為多模態交叉學科中最熱 門的 研 究 課 題。2021 年 初,OpenAI推 出 的 基 於 GPT-3的語言到視覺的生成模型 DALL-E① 可以根 據自然語言的描述生成逼真的圖像,產生了較大的反 響。本節主要介紹視覺到語言生成的相關應用。

1.2.1 圖像描述

圖像描述(ImageCaptioning)是對給定的一幅 自然圖像生成一句自然語言描述的任務。2015年 以前,圖像描述的主流方法是基於模板的方法。其 基本思想是檢測圖像中的物體、動作,並將這些詞作 為主語、動詞和賓語等填寫到預定義的模板中。從 2015年開始,基於視覺編碼器(CNN 等)和語言解 碼器(RNN/LSTM 等)的序列到序列(Sequence-toSequence,Seq2Seq)框架廣泛應用於這一任務。通 過從 視 覺 圖 像 中 解 析 出 屬 性 (Attribute)、關 係 (Relation)和結構(Hierarchy)等高層語義信息,並 將這些語義信息融入視覺編碼和語言解碼中,提高 了圖像描述的生成效果。 圖像描述任務的常用數據集有 MSCOCO [12]、 Conceptual Captions [13]、 Flickr30K [14]、 Visual Genome [15]和SBUCaptions [16]。MSCOCO 數據集 是微軟發布的可用於目標檢測(ObjectDetection)、 人體姿勢識別(DensePose)、關鍵點檢測(Keypoint Detection)、實例分割(StuffSegmentation)、全景分 割 (PanopticSegmentation)、圖 片 標 注 (Category Labelling)和圖 像 描 述 (ImageCaptioning)的 數 據集。該數據集有91類物體(人、貓和卡車等),共計 32.8 萬 幅 圖 像,每 幅 圖 像 包 含 5 個 英 文 描 述。 ConceptualCaptions數據集收錄了330萬幅“圖像, 描述”對,是目前最大的多模態數據集,其中的圖像 有自然圖像、產品圖像、專業照片、卡通和繪圖等類 型,描 述 取 自 HTML 中 的 Alt-text屬 性 字 段 值。 Flickr30K 收錄了來自 Flickr的共計31783幅日常 活動、事件和場景的圖像,每幅圖像通過眾包方式標 注了5個圖像描述。VisualGenome是基於10.8萬 幅圖像的 大 規 模 多 模 態 數 據 集,該 數 據 集 標 注 了 380萬個對象、280萬個屬性、230萬個關係、170萬個 “圖像、問題、答案”三元組和540萬個區域描述。圖 像中的對象、屬性、關係、區域描述和視覺問答中的名 詞與短語還被歸一化到相應的 WordNet同義詞集

1.2.2 視頻描述

視頻描述(VideoCaptioning)是對給定的一段 視頻(通常是幾十秒的短視頻)生成一句準確、細致 描述的任務。視頻除了圖像信息外,還包括時序和 聲音等信息。視頻描述可提取的特征更多,技術挑 戰也更大。 視頻描述任務的常用數據集有 MSR-VTT [17]、 ActivityNet-Captions [18]、YouCook2 [19] 和 ACTIONS [20] 等。MSR-VTT數據集由1萬個網絡視頻剪輯、20萬 “視頻,描述”對組成。MSR-VTT數據集涵蓋了音樂、 遊戲、體育、教育等20多個類別的視覺內容,每個視頻 剪輯時長10~20秒,人工為每個視頻剪輯標注了20個 描述句子。YouCook2數據集是一個烹飪教學視頻數 據集,包括89個食譜的2000個未經剪輯的教學視頻(最長10分鍾,平均5分鍾)。ACTIONS是首個無需 人工標注、從數以億計的網頁內容中自動提煉“視頻, 描述”對的視頻描述數據集,總共包含了163183個 GIF視頻。

1.2.3 視覺敘事

視覺敘事(VisualStorytelling)要求模 型 對 於 給定的圖像序列,在深度理解圖像序列的基礎上生 成連貫的敘事故事。相比於圖像描述和視頻描述, 視覺敘事更具挑戰性。在視覺理解上,視覺敘事的 輸入是有時序關聯的圖像序列,需要模型具備根據 曆史視覺事件推測當前的視覺事件的能力。在語言 生成上,對比圖像描述和視頻描述中的客觀文字描 述,視覺敘事的輸出由更多評價性、會話性和抽象性 語言組成。SIND [21]是一個視覺敘事數據集,該數 據集收集了81743幅圖片,以及排列成符合文字描 述和故事情節的20211個序列。

1.3 視覺問答和多模態對話

1.3.1 視覺問答

視覺問答(VisualQuestionAnswering,VQA)[22-27] 是2015年新提出的任務,簡單來說就是圖像問答。 給定一幅圖像和一個關於該圖像的開放式自然語言問題,要求模型準確回答該問題。視覺問答是一個典 型的多模態問題,需要模型具備物體定位、屬性檢測、 事件分類、場景理解和推理及數學計算等能力。根據 圖 片 類 型 的 不 同,VQA 又 分 為 自 然 圖 像 理 解 VQA [22-23]、合成圖像推理 VQA [24]和自然圖像推理 VQA [25]。表2列舉了這3種 VQA的示例。 VQA常用數據集有 VQAv1/v2 [22-23]、CLEVR [24] 和 GQA [25]。VQAv1/v2是自然圖像理解 VQA 數 據集,VQAv2 解 決 了 VQAv1 中 明 顯 的 語 言 先 驗 (LanguagePriors)問題。CLEVR [24]是合成圖像推 理問答數據集。CLEVER 中的圖像由簡單的幾何 形狀的物體組成,旨在測試模型對組合式語言的理 解能力和對視覺場景的推理能力。CLEVR 數據集 中的圖像是程序合成的,其場景的複雜度與自然場 景相去甚遠。對此,Hudson等人[25]發布了基於自 然圖像的組合式問題視覺問答數據集 GQA,該數據 集包括關於11.3萬幅圖像的超過2000萬的問題。 每幅圖像都標注了一個場景圖(SceneGraph),表示 圖像中的對象、屬性和關係。每個問題都對應一個 功能性程序(FunctionalProgram),列出了獲得 答 案所需執行的一係列推理步驟。每個答案都有與之 對應的驗證信息,指向圖片中的相關區域。

1.3.2 視覺對話

視覺對話(VisualDialog)[28-32]是給定一幅圖像 (或視頻等視覺內容)和一個上下文相關的問題,要 求模型根據圖片(或視頻)內容回答該問題。與視覺 問答相比,視覺對話還要解決對話中特有的挑戰,如 共指(Co-references)和省略(Ellipsis)等。視覺對話 也被認為是視覺圖靈測試。視覺對話常用數據集有 VisDial [28]、IGC [29]、GuessWhat [30]、Image-Chat [31] 和 AVSD [32]。VisDial中的問題和答案都是形式自由的。GuessWhat是通過一係列“是/否”問題發現 圖像中的物體。IGC是一個閑聊型的視覺對話數據 集,但閑聊的話題受限於給定的圖像。Image-Chat 也是一個閑聊型視覺對話數據集。與IGC 不同的 是,Image-Chat數據集還限定了對話參與者 A 和 B 的風格特征。AVSD 定義了一個視聽場景的多輪 對話任務,要求機器在理解問題、對話曆史和視頻中 的場景等語義信息的基礎上回答用戶問題。 視覺對話中的用戶問題隻與單個圖像(視頻)相關,且用戶問題和模型回答都是文字的。

1.3.3 多模態對話

多模態對話(MultimodalDialog)關注更接近人 類自然對話的多模態人機對話技術的研究。它與上 一節介紹的視覺對話的主要差異有:①多模態對話 給定的輸入圖像可能是多幅的;② 隨著對話的推 進,圖像是不斷更新的;③用戶問題和模型的回答 可以是文本的、圖像的或者圖文結合的;④模型可 能需要查詢外部領域知識庫才能回答用戶的問題 (如購物者希望看到更多與特定商品相似的商品,或 者要求提供滿足某些特征的商品,或者查詢特定商 品的屬性等);⑤模型可能需要通過反問等對話策 略澄清用戶需求。零售和旅遊等限定領域的多模態 對話最近受到了越來越多的關注。常用的麵向購物場景的多模態對話數據集有 MMD [33]、SIMMC [34]和JDDC [35]。MMD 是在服飾 專家的指導下通過模擬扮演(Wizard-of-Oz,WoZ)的 方式收集的時尚購物場景的數據集。SIMMC2.0是 時尚和家 具 購 物 場 景 的 數 據 集。其 中,時 尚 和 家 具雜亂的購物場景是通過逼真的 VR 場景生成器 (VRSceneGenerator)生成的。與 MMD 和 SIMMC 不同,JDDC2.0是從電商平台客服和消費者之間的 真實對話數據中采樣的(圖2)。JDDC2.0包括多模 態對話24.6萬,其中,圖片50.7萬張,平均對話 輪 數14輪。此 外,JDDC2.0還 提 供 了30205個商品的759種商品屬性關係,共計21.9萬的<商品ID、 屬性、屬性值>三元組。 視覺對話和多模態對話常用數據集的詳細對比 如表3所示。

1.4 多模態摘要

多模態摘要是基於對多模態輸入(文本、語音、圖 像和視頻等)的理解,歸納並生成單模態或者多模態 的概括性總結(摘要)的任務。根據具體任務類型,多 模態摘要又可細分為視頻會議摘要[36]、教學視頻摘 要[37]、多模態新聞摘要[38-42]和多模態商品摘要[43]。 視頻會議摘要方麵,Li等人[36]提出了一個從音 視頻會議 輸 入 中 提 取 會 議 文 本 摘 要 的 方 法,並 在 AMI數據 集 上 驗 證 了 方 法 的 有 效 性。AMI數 據集[44]包含 137 場視頻會議。每場會 議 持 續 30 分 鍾,包含4名參與者和約300字的文本摘要。 教學視頻摘要方麵,Palaskar等人[37]提出一種 融合視覺信息和文本信息(用戶生成的和語音識別 係統輸出的)的生成式文本摘要方法,同時在開放域 教學視頻數據集 How2 [45]上驗證了方法的有效性。 多模態新聞摘要方麵,Li等人[38]提出一種從異 步的多模態(文本、圖像、音頻和視頻)輸入中抽取文 本摘要的方法,並發布了中文和英文數據集 MMS。 Li等人[39]提出一種為“文本,圖像”對生成多模態摘 要的模型,同時發布了英文數據集 MMSS。Zhu等 人[41]提出了一種從異步的多模態(文本和多張圖 像)輸入中生成多模態(一段短文和一張圖片)摘要 的方法,同時發布了英文數據集 MSMO。 多模態商品摘要方麵,Li等人[43]提出了一種從 異構的多模態輸入(文本、圖像、商品屬性表)中生成 商品摘要的方法,同時發布了數據集 CEPSUM①。 CEPSUM 數據集由140萬“商品文本介紹,商品圖 片,文本摘要”三元組組成,涉及3個商品大類。

1.5 多模態對齊

多模態對齊研究多個模態不同顆粒度元素間的 對齊關係,具體又分為顯式對齊和隱式對齊。視覺語言跨模態的顯式對齊任務研究圖像和句子[46-47]、 圖像和詞[48]、圖像中的目標和句子中的短語[49-50]間 的對齊關係。多模態對齊方法可直接應用於多模態 檢索等應用,也可作為圖像描述、VQA、多模態預訓 練的訓練語料,尤其是在缺乏大規模多模態人工標 注語料的場景。 圖像和句子(或文檔內其他文本單元)間的顯式 對齊通常是不存在的。對此,Hessel等人[46]提出了 一種將同一網頁內的圖像和句子對齊的無監督方 法。該方法在7個難度不同的數據集上獲得了不錯 的性能。Suhr等 人[47]定 義 了 一 個 視 覺 推 理 任 務 NLVR2,對於給定的兩幅圖像和一段自然語言的描 述,要求模型判斷它們是否存在語義上的對齊關係。 文本預訓練語言模型已經取得了巨大的成功, 但該方法僅使用文本上下文信息作為監督信號,導 致詞的 上 下 文 表 示 學 習 嚴 重 依 賴 詞 的 共 現 關 係 (Co-occurrence),缺乏外部物 理 世 界 的 背 景 知 識。 為了給預訓練語言模型提供視覺監督信號,Tan等 人[48]提出了 Vokenization技術(圖3),其通過給文 本中的每一個詞打上一幅圖像的標簽,實現在大規 模文本語料上自動構建多模態對齊語料庫。在大規模圖像-詞彙對齊的多模態語料庫上訓練的預訓練 語言模型可增強其對自然語言的理解能力。實驗證 明,該 模 型 在 多 個 純 文 本 的 任 務 上 (如 GLUE、 SQuAD和SWAG 等)均獲得了顯著的性能提高。

圖像中的目標和文本中的短語對齊也被稱為圖 像短語定位(PhraseGrounding),可用於提高圖像 描述、VQA、視 覺 導 航 等 視 覺-語 言 下 遊 任 務 的 性 能。Plummer等人[49]發布了一個大規模的短語定 位數 據 集 Flickr30kEntities,如 圖 4 所 示。Wang 等人[50]提出了一種基於細粒度視覺和文本表示的 多模態對齊框架,在 Flickr30kEntities數據集上顯 著提高了短語定位的性能。

視頻定位(VideoGrounding)[51]是多模態對齊中另 一項 重 要 且 具 有 挑 戰 性 的 任 務。給 定 一 個 查 詢 (Query),它要求模型從視頻中定位出與查詢語言對應 的一個目標視頻片段。該技術可應用於視頻理解、視 頻檢索和人機交互等場景。常用數據集有 CharadesSTA [52]、ActivityNet-Captions [53]和 TACoS [54]。CharadesSTA 數據集是基於 Charades數據集[55]構建的,包括 6672個視頻和16128個“查詢,視頻片段”對。ActivityNet-Captions數據集包含兩萬個視頻和10萬個“查 詢,視頻片段”對,其覆蓋的視頻類型更多樣。TACoS 數據集包含127個烹飪視頻和18818個“查詢,視頻 片段”。

1.6 多模態翻譯

多模態翻譯是將多模態輸入(文本、圖像或視頻 等)中的源語言文本轉換為目標語言文本的過程。 多模態翻譯的目標是在視覺等多模態信息的輔助 下,消除語言的歧義,提高傳統文本機器翻譯係統的 性能。 Elliott等人[56]於2015年首次提出多模態翻譯 任務。隨後,在2016年舉辦的第一屆機器翻譯會議 上成功組織了第一屆多模態機器翻譯比賽,並於接 下來的兩年連續舉辦了兩屆比賽,引發了研究者們 對多模態機器翻譯的關注熱潮。目前的工作主要集 中在 Multi30k數據集[57]上。該數據集是英語圖像 描述數據集 Flickr30k [14]的多語言擴展,每幅圖像 配有一個英語描述和一個德語描述,任務定義為給 定圖像和英語描述,生成德語描述。 模型方麵,Huang等人[58]首先從圖像中提取視 覺全局表示(參見2.1.1節的介紹)和視覺目標表示 (參見2.1.3節的介紹),提取的視覺表示被視為源 語言中特殊的單詞與文本拚接,再融入編碼器-解碼 器神經網絡翻譯模型中的編碼器中。在 Calixto等 人[59]提出的模型中,視覺特征被視為源語言中特殊 的單 詞,或 者 融 入 編 碼 器 中,或 者 融 入 解 碼 器 中。 Calixto等人的模型顯著提 高 了 模 型 的 翻 譯 效 果。 文獻[58-59]中的模型依賴大量的多模態翻譯對齊 語料 (源 語 言、圖 像、目 標 語 言)。對 此,Elliott等 人[60]將多模態機器翻譯分解為兩個子任務:文本 翻譯 和 基 於 視 覺 的 文 本 表 示 (Visually Grounded Representations)。該模型不依賴昂貴的(源語言、 圖像、目標語言)對齊語料。模型可以分別在文本翻 譯語料(源語言,目標語言)和圖像描述(圖像,源語 言)語料上訓練。受文獻[60]的啟發,Zhou等人[61]提 出 了 一 種 機 器 翻 譯 任 務 和 視 覺-文 本 共 享 空 間 (Vision-TextSharedSpace)表示學習任務相結合 的多 任 務 多 模 態 機 器 翻 譯 框 架 (VAG-NMT)。 VAG-NMT 首先把文獻[60]中的基於視覺的文本 表示(即從文本表示重建圖像)修改為視覺-文本共 享空間表示學習。其次,VAG-NMT 還提出了一種 視覺文本注意機製,可以捕獲與圖像語義強相關的 源語言中單詞。多模態機器翻譯中的視覺信息隻在 非常特殊的情況下(如文本上下文不足以消除歧義 詞的歧義)對翻譯模型有幫助。對此,Ive等人[62]提 出了一 種 翻 譯-優 化 (Translate-and-refine)的 兩 段 式翻譯方法。該方法先翻譯源語言中的文本,再使 用視覺目標表示對第一階段的翻譯文本進行調整。 大多數的多模態機器翻譯模型沒有考慮不同模態的 相對重要性,但同等對待文本和視覺信息可能會引 入一 些 不 必 要 的 噪 聲。Yao 等 人[63]基 於 Transformer,提出了一種多模態自注意機製,探索了如何 消除視覺特征中的噪音信號。一方麵,單層多模態 注意力模型難以有效提取視覺上下文信息,另一方 麵,多層多模態注意力模型容易導致過擬合,尤其是 對訓練數據少的多模態翻譯。對此,Lin等人[64]提 出一種基於動態上下文指導的膠囊網絡(Dynamic Context-guidedCapsuleNetwork,DCCN)提取和利 用兩種不同顆粒度(視覺全局表示和視覺區域表示) 的視覺信息。也有研究者對多模態翻譯的可解釋性 進行了探索。Wu等人[65]的研究表明,視覺特征對 多模態翻譯的幫助來自於正則化,視覺特征的合理 選取對模型性能至關重要。

1.7 多模態信息抽取

命名實體識別(NER)是指識別自由文本中的 具體特定意義的實體(如人名、地名和組織機構名 等)。命名實體識別雖然取得了較大的成功,但對於 社交媒體中大量的用戶生成內容(User-Generated Content,UGC),僅根據文本模態的信息來定位和 分類其中的實體仍然存在一些挑戰。多模態命名實 體識別(MNER)通過引入視覺、語音等其他模態作 為文本模態的補充,識別社交媒體中高噪聲短文本 中的實體,最近幾年受到了比較多的關注。 模型方麵,Moon等人[66]首次提出了融合圖像 和文本模態信息的通用多模態注意力模型。文獻 [66]還發布了 SnapCaptions數據集,該數據集由1 萬張“圖像,短文本標題”對構成,並標注了短文本標 題中 的 四 類 命 名 實 體 (實 體 類 型:PER、LOC、ORG、MISC)。一方麵,文獻[66]中的方法提取的 是圖像的視覺全局表示,這可能把圖像中的噪聲信 息也引入到模型中。另一方麵,視覺和文本模態的 特征融合較簡單。對此,Zhang等人[67]提出了一種 自適應 的 協 同 注 意 力 網 絡 (AdaptiveCo-attention Network,ACN)。ACN 首先提取圖像的視覺區域 表示(參見2.1.2節的介紹),再通過文本到視覺和 視覺到文本的協同注意力剔除圖像中的噪聲信息, 以提高 MNER的性能。文獻[67]在內部數據集上 驗證了該方法的有效性。基於類似的出發點,Lu等 人[68]提出了一種注意力機製與門控機製相結合的 模型提取視覺圖像中與文本最相關的區域的特征。 該模型可忽略不相關的視覺信息。文獻[68]基於注 意力機製獲取了單詞感知(word-aware)的視覺表 示,卻忽略了圖像感知(image-aware)的單詞表示。 對此,Yu等人[69]首次將 Transformer應用於多模 態 NER任務中,並提出了實體片段檢測輔助任務, 進一步消除視覺偏差,提升了模型效果。 Sui等人[70]提出了融合語音和文本信息的多模 態 NER,並在自建的中文數據集 CNERTA 上驗證 了方法的有效性。 多模態信息抽取領域中另一個受到較多關注的 研究方向是多模態商品屬性抽取。多模態商品屬性 抽取是指從給定商品文本描述和商品圖片中抽取商 品的屬性信息,例如商品的“顏色”“材料”等屬性值。 為了推動多模態商品屬性抽取的研究,IV 等人[71] 發布了 首 個 大 規 模 多 模 態 屬 性 提 取 英 文 數 據 集 MAE。MAE包含400萬圖片和760萬“屬性-屬性 值”對。文獻[71]提出的多模態屬性抽取模型需要 對每一個屬性識別其對應的屬性值,且無法濾除視 覺噪聲。為了提高模型的效率,Zhu等人[72]將屬性 預測和屬性值抽取建模為一個層疊化的多任務學習 過程,實現了多個屬性及其對應屬性值的一次性識 別,且視覺全局表示和視覺區域表示通過門控機製 和文本信息融合,可有效過濾視覺噪聲。Zhu等人 還發布了一個包含9萬“屬性-屬性值”對的多模態 商品屬性抽取中文數據集 MEPAVE。

2 多模態融合

多模態融合將多個單模態表征整合成為一個多 模態信息表征,它是多模態信息處理的核心問題。多 模態融合的示例如圖5所示,其中,Ni{i=1,…K} 表示單模態表示學習模型的模型深度,M 表示K 個多模態表示的融合模型深度。多模態融合的研究方 向有:基於多模態互補性的全模態融合問題、模態 模糊或者模態缺失下的魯棒性融合問題、非對齊的 多模態融合問題等。目前,大部分工作是關於模態 對齊且無模態缺失情況下的多模態融合算法研究, 這也是多模態融合中最基礎的挑戰。本節根據單模 態的特征表示、多模態融合的階段、多模態融合的模 型結構等對多模態融合方法進行分類介紹。

2.1 根據單模態表示進行分類

單模態的特征表示是多模態融合的基石。這一 類方法重點研究如何在多模態融合之前提取更好的 單模態特征表示。以視覺-語言-音頻多模態應用為 例,如何從視覺內容中解析出高層語義信息以增強 視覺特征表達是這一類方法的主要研究內容。例 如,從視覺內容中識別目標(Object)、屬性(Attribute)、動作(Action)、關係(Relation)、場景圖(Scene Graph)[73-75]和樹形語義結構(Hierarchy)[76]等,進 而 實 現 對 視 覺 內 容 的 全 局 (Global)、區 域 (Regional)、目標(Object)和關係(Relation)等顆粒 度的視覺語義建模。語言表示通常使用詞的獨熱編 碼表示、詞 的 上 下 文 表 示 (ContextualRepresentation)[77-78]、句子表示[79-80]、句法依存關係(Syntactic Dependency)表示[81]、場景圖表示[82]等。音頻表示 可使用 基 於 COVAREP [83]提 取 底 層 聲 學 特 征 表 示[85]、基於預訓練模型 wav2vec [84]提取低維特征向 量表示[85]等。本節側重介紹多模態融合中的視覺 特征表示方法。

2.2 根據融合階段進行分類

根據多模態融合的階段,多模態融合方法可分 為早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早 期融合的特點是單模態表示學習簡單,而多模態融 合部分的模型深度大,融合策略複雜。例如,詞的獨 熱編碼 表 示 和 視 覺 區 域 表 示 直 接 參 與 多 模 態 融 合[93]。晚期融合的特點是單模態表示學習模型複 雜,多模態融合一般采用拚接、按位乘/求平均等簡 單策略[92]。由於晚期融合抑製了模態之間的交互, 目前大部分基於深度學習的模型均使用早期或者中 期融合。在第3節介紹的多模態預訓練模型中,基 於單流架構(Single-Stream)的預訓練模型把融合操 作 放 在 早 期 階 段,如 VideoBERT [94]、UnicoderVL [95]、Oscar [96]、VL-BERT [97]和 M3P [98]等。基於 雙流架構(Two-Stream)的預訓練模型則把融合操 作 放 置 在 深 層 模 型 的 中 期 階 段 的 多 個 層 中,如 ERNIE-ViL [82]、LXMERT [91]、ActBERT [99]和 ViLBERT [100]等。

2.3 根據融合方式進行分類

多模態融合模型的設計是多模態融合的關鍵研 究點。我們將多模態融合模型分為簡單融合、門控 融合(Gating)、注意力融合(Attention)、Transformer 融合、圖模型融合(GraphFusion)和 雙 線 性 注 意 力 (BilinearAttention)融合共六類方法。常見簡單融合 方法包括編碼器、解碼器的初始化(參見1.6 節和 2.1.1節)、拚接、按位乘/求和/求平均等操作。本節 主要介紹其餘的五類較複雜的融合方法。

3 多模態預訓練

通過預訓練語言模型從海量無標注數據中學習 通用知識,再在下遊任務上用少量的標注數據進行 微調,已經成為自然語言處理領域成熟的新範式。 從2019年開始,預訓練語言模型(BERT [101]、GPT3 [102]、BART [117]和 T5 [118]等)相繼被擴展到多語言 和多模態等場景。 相對於文本預訓練語言模型,多模態預訓練模 型可以更好地對細顆粒度的多模態語義單元(詞或 者目標)間的相關性進行建模。例如,基於語言上下 文,被掩碼的詞“ontopof”可以被預測為符合語法 規則的詞“under”或“into”等。但這與關聯的圖片 場景“貓在車頂”不符。通過多模態預訓練,模型從 圖像中捕獲“汽車”“貓”之間的空間關係,從而可以準 確地預測出掩碼詞是“ontopof”[82]。大部分的多模 態預訓練模型是在視覺-語言對齊數據上進行的。例 如,使用圖像和文本對齊數據集(MSCOCO [12]、ConceptualCaptions [13]、VisualGenome [15] 和 SBU Captions [16]等)訓練的跨模態預訓練模型 LXMERT [91]、 Oscar [96]、VL-BERT [97]和ViLBERT [100],M3P [98]。使 用視頻和文本對齊數據集訓練的 VideoBERT [94]和 ActBERT [99]等[119-120]。Liu等人[85]最近還發布了視 覺、文本、語音三模態預訓練模型 OPT。 本文表5中從網絡結構、模型輸入、預訓練目標、 預訓練語料和下遊任務等維度對比了最新的視覺-語 言跨模態預訓練模型 ERNIE-VIL [82]、LXMERT [91]、 LightningDOT [92]、E2E-VLP [93]、Unicoder-VL [95]、 Oscar [96]、VL-BERT [97]、M3P [98]、ViLBERT [100]、 TDEN [121]、UNIMO [122]。

表 5 中 的 表 示 “圖像,語言”對,I表示一幅圖像,w=w1,…,wT 表 示長度為T 的文本表示。g=g1,…,gG 是圖像區 域表示,q=q1,…,qK 和v=v1,…,vK 分別表示圖 像中的目標的文本表示和目標的視覺表示。g 和 v的提 取 可 參 考 2.1 節 的 介 紹。 此 外,[SEP]、 [IMG]、[CLS]等 特 殊 標 記 用 來 分 割 不 同 模 態。 MLM(MaskedLanguage Model)是根據未掩碼的 詞 和 圖 像 區 域 預 測 掩 碼 單 詞。 MOC(Masked ObjectClassification)根據未掩碼的圖像區域和文 本預 測 掩 碼 區 域 的 目 標 類 別。 MOR (Masked ObjectRegression)根據未掩碼的圖像區域和文本 預 測 掩 碼 區 域 的 特 征 表 示。 MSG (Masked SentenceGeneration)根據輸入圖像逐字生成句子。 VQA 根據輸入的圖像和該圖像相關問題預測該問 題的答案。CMCL 是跨模態對比學習任務。VLM 是預測圖像-文本對是否語義一致。

從表5中的11個圖像-語言跨模態預訓練模型 的對比,我們發現的跨模態預訓練模型的特點如下: ①單流模型和雙流模型均被廣泛采用。雖然雙流模 型可以適應每種模態的不同處理需求,但目前尚無 完整的實驗證明雙流模型優於單流模型。②多模態 預訓練模型從應用於多模態理解任務或多模態生成 任務發展到可兼顧多模態理解和生成兩大任務的統 一模型。③相對動輒上百 G 甚至 T 級別的單模態 數據,多模態對齊數據的規模有限。最新的多模態 預訓練模型可以利用互聯網上的大規模非對齊的文 本數據、圖像數據、以及文本-圖像對齊數據學習更 通用的文本和視覺 表 示,以 提 高 模 型 在 視 覺 和 語 言的理解和生成能力,如 M3P和 UNIMO。④多 模態預訓 練 模 型 從 僅 應 用 於 多 模 態 下 遊 任 務 發 展到可同 時 應 用 於 單 模 態 下 遊 任 務 和 多 模 態 下 遊任務。 上述的多模態預訓練模型需要在大量圖像文本 的對齊語料上進行訓練。然而,此類數據的收集成 本昂貴,很難擴大規模。受無監督機器翻譯[123-124] 的啟發,Li等人[125]提出了一種不依賴圖像-文本對 齊語料的預訓練 U-VisualBERT,該預訓練模型的 輸入是一批文本數據,或一批圖像數據,並通過圖像 中物體標簽作為錨點(AnchorPoints)對齊兩種模態。U-VisualBERT 在四個多模態任務上取得與使 用多模態對齊數據訓練的預訓練模型接近的性能。 該方向可能會是接下來的一個研究熱點。

4 結束語

多模態信息處理是一個典型的多學科交叉領 域。最近幾年,多模態信息處理受到自然語言處理、 計算機視覺和語音與聲學領域研究者的廣泛關注。 本文從自然語言處理的視角出發,首先介紹了目前 熱點的多模態應用,接著介紹了多模態的三個重要 研究方向及其主流方法:即視覺的單模態表示(視 覺全局表示、視覺區域表示、視覺目標表示和視覺場 景圖表示)、多模態融合(簡單融合、門控融合、注意 力融合、Transformer融合、圖模型融合和雙線性注 意力融合)和通用的多模態預訓練。最後,本文對多 模態技術在產業界的應用進行了簡要的描述。

多模態信息處理還有很多亟待進一步研究的課題。我們認為,以下五個方向將是多模態信息處理 技術領域未來重要的研究內容:①非對齊語料上的 多模態信息處理。目前,大多數下遊的多模態任務 和多模態預訓練模態都依賴多模態對齊語料。相對 動輒上百 G 甚至 T 級別的單模態語料,多模態對齊 語料的規模還是很有限。探索如何在海量非對齊多 模態語料上訓練多模態模型具有非常實用的價值, 也是多模態領域需要重點關注的課題之一。此方向 已經有了初步的探索。例如,利用多模態對齊技術 將 海 量 的 單 模 態 語 料 與 其 他 模 態 進 行 自 動 對 齊[48,122]。②麵向單模態和多模態的理解和生成任 務的統一模型。當前的主流模型或麵向單模態理解 (或生成)或麵向多模態理解(或生成)的模型,構建 一個既適用於單模態理解與生成任務,又適用於多 模態理解與生成任務的統一模型是未來非常重要的 研究方向。多模態模型在文本任務上的性能未來可 能會超過單模態模型[48,122]。③高噪聲環境下的多 模態魯棒性融合。真實場景常常有較強的背景噪 聲,部分模態的數據通常是模糊或缺失的。因此,探 索如何在高噪聲情況下獲得信息缺失的有效表征, 提高模型預測魯棒性和準確性是多模態領域重要的 研究課題之一。文獻[116]提出一種基於缺失模態的想 象 網 絡 (Missing ModalityImagination Network,MMIN)對該方向進行了初步的探索。④ 多 模態與知識的融合。2.1節介紹的從視覺內容中提 取視覺粗粒度特征表示和基於視覺場景圖的細顆粒 度特征表示,其目的都是增強視覺特征表示。我們 認為,如何提取更精細粒度的視覺特征表示是多模 態領域重要的基礎研究方向之一。引入知識圖譜作 為圖像實體信息的補充,從而進行知識增強的視覺 特征表示是該方向一種探索思路[126-127]。⑤複雜交 互情境下的多模態應用。第1節介紹了多模態信息 處理技術的多個應用場景。我們認為,數字人、元宇 宙(Metaverse)是多模態信息處理技術最佳的應用 場景之一,探索複雜交互情境下的多模態信息處理 是多模態領域未來最重要的研究方向之一。

"> 「多模態信息處理」前沿綜述:應用、融合和預訓練 ,京東人工智能研究院 - 專知VIP

隨著視覺、聽覺、語言等單模態人工智能技術的突破,讓計算機擁有更接近人類理解多模態信息的能力受 到研究者們的廣泛關注。另一方麵,隨著圖文社交、短視頻、視頻會議、直播和虛擬數字人等應用的湧現,對多模態 信息處理技術提出了更高要求,同時也給多模態研究提供了海量的數據和豐富的應用場景。該文首先介紹了近期 自然語言處理領域關注度較高的多模態應用,並從單模態的特征表示、多模態的特征融合階段、融合模型的網絡結 構、未對齊模態和模態缺失下的多模態融合等角度綜述了主流的多模態融合方法,同時也綜合分析了視覺-語言跨 模態預訓練模型的最新進展

http://jcip.cipsc.org.cn/CN/abstract/abstract3314.shtmt

1. 引言

人工智能研究經過70多年的探索,在視覺、語 音與聲學、語言理解與生成等單模態① 人工智能領 域已取得了巨大的突破。特別是視覺領域的目標檢 測與人臉識別技術、語音領域的語音識別與語音合 成技術、自然語言處理領域的機器翻譯與人機對話 技術在限定場景下已經實現了規模化的應用。然 而,人類對周圍環境的感知、對信息的獲取和對知識 的學習與表 達 都 是 多 模 態 (Multimodal)的。近 些 年,如何讓計算機擁有更接近人類的理解和處理多 模態信息的能力,進而實現高魯棒性的推理決策成 為熱點問題,受到人工智能研究者的廣泛關注。另 一方麵,隨著圖文社交(Facebook、Twitter、微信、微 博等)、短視頻(YouTube、抖音、快手)、音頻(Club-音、京東、淘寶等)和數字人(2D、3D、卡通、寫實、超 寫實等)等應用的湧現,對多模態信息處理技術在用 戶理解、內容理解和場景理解上提出了更高的要求, 同時也給多模態技術提供了海量的數據和豐富的應 用場景。 多模態信息處理技術打破計算機視覺、語音與 聲學、自然語言處理等學科間的壁壘,是典型的多學 科交叉技術。多模態技術從20世紀70年代開始發 展,Morency等人[1]將多模態技術的發展劃分為四 個階段,即 1970-1980 年 的 行 為 時 代 (Behavioral Era)、1980-2000 年 的 計 算 時 代 (Computational Era)、2000-2010 年的交互時代(InteractionEra) 和2010年起的深度學習時代(DeepLearningEra)。 多模態核心技術又分為:多模態表示(Representation),多模態融合(Fusion)、多模態轉換(Translation)、多 模 態 對 齊 (Alignment)和 模 態 協 同 學 習 (Co-learning)類。

近些年,研究者從不同的視角對多模態信息處 理技術做了很好的總結回顧。Zhang等人[2]圍繞圖 像描述、視覺-語言生成、視覺問答和視覺推理四個 應用,從計算機視覺的角度總結了多模態表示學習 和多模態融合的最新進展。Summaira等人[3]的綜 述覆蓋了更多的多模態應用,並根據應用組織了每 一個多模態應用的技術進展和局限性。

本文從自然語言處理的視角出發,介紹多模態 信息處理技術的最新進展,組織結構如下:第1節 介紹 NLP領域關注度較高的多模態應用和相關的 數據集。多模態融合是多模態信息處理的核心問 題。第2節從單模態信息的表示方法、多模態信息 的融合階段、融合模型的網絡結構、未對齊模態和模 態缺失情況下的多模態融合等角度介紹主流的多模 態融合方法。第3節介紹多模態預訓練技術,並從 模型的網絡結構、模型的輸入、預訓練目標、預訓練 語料和下遊任務等維度對比最新提出的多模態預訓 練模型。第4節介紹多模態技術在工業界的應用。 最後一節是總結和對未來工作的展望。

2. 多模態應用

我們分析了最近兩年在自然語言處理領域國際 學術會議上(ACL、EMNLP、NAACL)發表的多模 態信息處理的論文,並從應用的角度對論文進行了 分類。關注度較高的多模態應用如圖1所示。本節將對這些應用展開介紹。除此之外,多模態應用還 包括視聽語音識別(Audio-VisualSpeechRecognition)、多 模 態 語 言 分 析 (Multimodal Language Analysis)和視覺輔助的句法分析[4]等。文獻[4]還 獲得 NAACL2021的最佳長文獎。

1.1 多模態情感識別

情感是人類區別於機器的一個重要維度,而人 的情感往往又是通過語音、語言、手勢、動作表情等 多個模態表達的。在交互場景下,多模態情感識別 研究如何從人的表情和動作手勢、語音音調、語言等 多模態信息中理解用戶細顆粒度的情感表達,進而 指導人機交互策略。其主要研究內容有:①基於 多模態信息互補性和異步性的動態融合;②高噪 聲環境下對於模態模糊或模態缺失問題的魯棒性 融合;③客服和營銷等自然交互情境下的情感識 別等。 多模態情感識別的常用數據集有IEMOCAP [5]、 CMU-MOSI [6]、CMU-MOSEI [7]、CH-SIMS [8] 和 IVD [9]等。 數 據 集 的 多 維 度 比 較 如 表 1 所 示。 IEMOCAP數據集收錄了10位演員的表演數據,包 含視頻、語音、麵部運動捕捉和文本模態,並標注了 高興、悲 傷、恐 懼 和 驚 訝 等 共 9 類 情 感。CMUMOSI數據集收錄了89位講述者的2199條視頻 片段,每段視頻標注了7類情感。CMU-MOSEI數 據集是 CMU-MOSI的擴展版,收錄了 1000 多名 YouTube主播的 3228 條視頻,包括 23453 個句 子,每個句子標注了7分類的情感濃度(高度負麵、 負麵、弱負麵、中性、弱正麵、正麵、高度正麵)和6分 類的情 緒 (高 興、悲 傷、生 氣、恐 懼、厭 惡、驚 訝)。 CH-SIMS數據集是一個中文多模態情感分析數據 集,該數據集為2281個視頻片段標注了細顆粒度的情感標簽。IVD 是從中文語音助手的真實用戶 對話日誌中抽取的語音情感數據集,包括500000 條無標注的語音數據和2946條帶6分類情感標注 的語音數據。

隨著圖文和短視頻等新興社交媒體的迅速發 展,人們在社交平台上的表達方式也變得更加豐富。 社交場景下的多模態情感識別主要研究基於圖文表 達的情感傾向[10]和方麵級的細顆粒度情感[11]等。

1.2 視覺-語言生成

視覺(圖像或視頻)到語言的生成和語言到視覺 (圖像或視頻)的生成打破了計算機視覺和自然語言 處理兩個領域的邊界,成為多模態交叉學科中最熱 門的 研 究 課 題。2021 年 初,OpenAI推 出 的 基 於 GPT-3的語言到視覺的生成模型 DALL-E① 可以根 據自然語言的描述生成逼真的圖像,產生了較大的反 響。本節主要介紹視覺到語言生成的相關應用。

1.2.1 圖像描述

圖像描述(ImageCaptioning)是對給定的一幅 自然圖像生成一句自然語言描述的任務。2015年 以前,圖像描述的主流方法是基於模板的方法。其 基本思想是檢測圖像中的物體、動作,並將這些詞作 為主語、動詞和賓語等填寫到預定義的模板中。從 2015年開始,基於視覺編碼器(CNN 等)和語言解 碼器(RNN/LSTM 等)的序列到序列(Sequence-toSequence,Seq2Seq)框架廣泛應用於這一任務。通 過從 視 覺 圖 像 中 解 析 出 屬 性 (Attribute)、關 係 (Relation)和結構(Hierarchy)等高層語義信息,並 將這些語義信息融入視覺編碼和語言解碼中,提高 了圖像描述的生成效果。 圖像描述任務的常用數據集有 MSCOCO [12]、 Conceptual Captions [13]、 Flickr30K [14]、 Visual Genome [15]和SBUCaptions [16]。MSCOCO 數據集 是微軟發布的可用於目標檢測(ObjectDetection)、 人體姿勢識別(DensePose)、關鍵點檢測(Keypoint Detection)、實例分割(StuffSegmentation)、全景分 割 (PanopticSegmentation)、圖 片 標 注 (Category Labelling)和圖 像 描 述 (ImageCaptioning)的 數 據集。該數據集有91類物體(人、貓和卡車等),共計 32.8 萬 幅 圖 像,每 幅 圖 像 包 含 5 個 英 文 描 述。 ConceptualCaptions數據集收錄了330萬幅“圖像, 描述”對,是目前最大的多模態數據集,其中的圖像 有自然圖像、產品圖像、專業照片、卡通和繪圖等類 型,描 述 取 自 HTML 中 的 Alt-text屬 性 字 段 值。 Flickr30K 收錄了來自 Flickr的共計31783幅日常 活動、事件和場景的圖像,每幅圖像通過眾包方式標 注了5個圖像描述。VisualGenome是基於10.8萬 幅圖像的 大 規 模 多 模 態 數 據 集,該 數 據 集 標 注 了 380萬個對象、280萬個屬性、230萬個關係、170萬個 “圖像、問題、答案”三元組和540萬個區域描述。圖 像中的對象、屬性、關係、區域描述和視覺問答中的名 詞與短語還被歸一化到相應的 WordNet同義詞集

1.2.2 視頻描述

視頻描述(VideoCaptioning)是對給定的一段 視頻(通常是幾十秒的短視頻)生成一句準確、細致 描述的任務。視頻除了圖像信息外,還包括時序和 聲音等信息。視頻描述可提取的特征更多,技術挑 戰也更大。 視頻描述任務的常用數據集有 MSR-VTT [17]、 ActivityNet-Captions [18]、YouCook2 [19] 和 ACTIONS [20] 等。MSR-VTT數據集由1萬個網絡視頻剪輯、20萬 “視頻,描述”對組成。MSR-VTT數據集涵蓋了音樂、 遊戲、體育、教育等20多個類別的視覺內容,每個視頻 剪輯時長10~20秒,人工為每個視頻剪輯標注了20個 描述句子。YouCook2數據集是一個烹飪教學視頻數 據集,包括89個食譜的2000個未經剪輯的教學視頻(最長10分鍾,平均5分鍾)。ACTIONS是首個無需 人工標注、從數以億計的網頁內容中自動提煉“視頻, 描述”對的視頻描述數據集,總共包含了163183個 GIF視頻。

1.2.3 視覺敘事

視覺敘事(VisualStorytelling)要求模 型 對 於 給定的圖像序列,在深度理解圖像序列的基礎上生 成連貫的敘事故事。相比於圖像描述和視頻描述, 視覺敘事更具挑戰性。在視覺理解上,視覺敘事的 輸入是有時序關聯的圖像序列,需要模型具備根據 曆史視覺事件推測當前的視覺事件的能力。在語言 生成上,對比圖像描述和視頻描述中的客觀文字描 述,視覺敘事的輸出由更多評價性、會話性和抽象性 語言組成。SIND [21]是一個視覺敘事數據集,該數 據集收集了81743幅圖片,以及排列成符合文字描 述和故事情節的20211個序列。

1.3 視覺問答和多模態對話

1.3.1 視覺問答

視覺問答(VisualQuestionAnswering,VQA)[22-27] 是2015年新提出的任務,簡單來說就是圖像問答。 給定一幅圖像和一個關於該圖像的開放式自然語言問題,要求模型準確回答該問題。視覺問答是一個典 型的多模態問題,需要模型具備物體定位、屬性檢測、 事件分類、場景理解和推理及數學計算等能力。根據 圖 片 類 型 的 不 同,VQA 又 分 為 自 然 圖 像 理 解 VQA [22-23]、合成圖像推理 VQA [24]和自然圖像推理 VQA [25]。表2列舉了這3種 VQA的示例。 VQA常用數據集有 VQAv1/v2 [22-23]、CLEVR [24] 和 GQA [25]。VQAv1/v2是自然圖像理解 VQA 數 據集,VQAv2 解 決 了 VQAv1 中 明 顯 的 語 言 先 驗 (LanguagePriors)問題。CLEVR [24]是合成圖像推 理問答數據集。CLEVER 中的圖像由簡單的幾何 形狀的物體組成,旨在測試模型對組合式語言的理 解能力和對視覺場景的推理能力。CLEVR 數據集 中的圖像是程序合成的,其場景的複雜度與自然場 景相去甚遠。對此,Hudson等人[25]發布了基於自 然圖像的組合式問題視覺問答數據集 GQA,該數據 集包括關於11.3萬幅圖像的超過2000萬的問題。 每幅圖像都標注了一個場景圖(SceneGraph),表示 圖像中的對象、屬性和關係。每個問題都對應一個 功能性程序(FunctionalProgram),列出了獲得 答 案所需執行的一係列推理步驟。每個答案都有與之 對應的驗證信息,指向圖片中的相關區域。

1.3.2 視覺對話

視覺對話(VisualDialog)[28-32]是給定一幅圖像 (或視頻等視覺內容)和一個上下文相關的問題,要 求模型根據圖片(或視頻)內容回答該問題。與視覺 問答相比,視覺對話還要解決對話中特有的挑戰,如 共指(Co-references)和省略(Ellipsis)等。視覺對話 也被認為是視覺圖靈測試。視覺對話常用數據集有 VisDial [28]、IGC [29]、GuessWhat [30]、Image-Chat [31] 和 AVSD [32]。VisDial中的問題和答案都是形式自由的。GuessWhat是通過一係列“是/否”問題發現 圖像中的物體。IGC是一個閑聊型的視覺對話數據 集,但閑聊的話題受限於給定的圖像。Image-Chat 也是一個閑聊型視覺對話數據集。與IGC 不同的 是,Image-Chat數據集還限定了對話參與者 A 和 B 的風格特征。AVSD 定義了一個視聽場景的多輪 對話任務,要求機器在理解問題、對話曆史和視頻中 的場景等語義信息的基礎上回答用戶問題。 視覺對話中的用戶問題隻與單個圖像(視頻)相關,且用戶問題和模型回答都是文字的。

1.3.3 多模態對話

多模態對話(MultimodalDialog)關注更接近人 類自然對話的多模態人機對話技術的研究。它與上 一節介紹的視覺對話的主要差異有:①多模態對話 給定的輸入圖像可能是多幅的;② 隨著對話的推 進,圖像是不斷更新的;③用戶問題和模型的回答 可以是文本的、圖像的或者圖文結合的;④模型可 能需要查詢外部領域知識庫才能回答用戶的問題 (如購物者希望看到更多與特定商品相似的商品,或 者要求提供滿足某些特征的商品,或者查詢特定商 品的屬性等);⑤模型可能需要通過反問等對話策 略澄清用戶需求。零售和旅遊等限定領域的多模態 對話最近受到了越來越多的關注。常用的麵向購物場景的多模態對話數據集有 MMD [33]、SIMMC [34]和JDDC [35]。MMD 是在服飾 專家的指導下通過模擬扮演(Wizard-of-Oz,WoZ)的 方式收集的時尚購物場景的數據集。SIMMC2.0是 時尚和家 具 購 物 場 景 的 數 據 集。其 中,時 尚 和 家 具雜亂的購物場景是通過逼真的 VR 場景生成器 (VRSceneGenerator)生成的。與 MMD 和 SIMMC 不同,JDDC2.0是從電商平台客服和消費者之間的 真實對話數據中采樣的(圖2)。JDDC2.0包括多模 態對話24.6萬,其中,圖片50.7萬張,平均對話 輪 數14輪。此 外,JDDC2.0還 提 供 了30205個商品的759種商品屬性關係,共計21.9萬的<商品ID、 屬性、屬性值>三元組。 視覺對話和多模態對話常用數據集的詳細對比 如表3所示。

1.4 多模態摘要

多模態摘要是基於對多模態輸入(文本、語音、圖 像和視頻等)的理解,歸納並生成單模態或者多模態 的概括性總結(摘要)的任務。根據具體任務類型,多 模態摘要又可細分為視頻會議摘要[36]、教學視頻摘 要[37]、多模態新聞摘要[38-42]和多模態商品摘要[43]。 視頻會議摘要方麵,Li等人[36]提出了一個從音 視頻會議 輸 入 中 提 取 會 議 文 本 摘 要 的 方 法,並 在 AMI數據 集 上 驗 證 了 方 法 的 有 效 性。AMI數 據集[44]包含 137 場視頻會議。每場會 議 持 續 30 分 鍾,包含4名參與者和約300字的文本摘要。 教學視頻摘要方麵,Palaskar等人[37]提出一種 融合視覺信息和文本信息(用戶生成的和語音識別 係統輸出的)的生成式文本摘要方法,同時在開放域 教學視頻數據集 How2 [45]上驗證了方法的有效性。 多模態新聞摘要方麵,Li等人[38]提出一種從異 步的多模態(文本、圖像、音頻和視頻)輸入中抽取文 本摘要的方法,並發布了中文和英文數據集 MMS。 Li等人[39]提出一種為“文本,圖像”對生成多模態摘 要的模型,同時發布了英文數據集 MMSS。Zhu等 人[41]提出了一種從異步的多模態(文本和多張圖 像)輸入中生成多模態(一段短文和一張圖片)摘要 的方法,同時發布了英文數據集 MSMO。 多模態商品摘要方麵,Li等人[43]提出了一種從 異構的多模態輸入(文本、圖像、商品屬性表)中生成 商品摘要的方法,同時發布了數據集 CEPSUM①。 CEPSUM 數據集由140萬“商品文本介紹,商品圖 片,文本摘要”三元組組成,涉及3個商品大類。

1.5 多模態對齊

多模態對齊研究多個模態不同顆粒度元素間的 對齊關係,具體又分為顯式對齊和隱式對齊。視覺語言跨模態的顯式對齊任務研究圖像和句子[46-47]、 圖像和詞[48]、圖像中的目標和句子中的短語[49-50]間 的對齊關係。多模態對齊方法可直接應用於多模態 檢索等應用,也可作為圖像描述、VQA、多模態預訓 練的訓練語料,尤其是在缺乏大規模多模態人工標 注語料的場景。 圖像和句子(或文檔內其他文本單元)間的顯式 對齊通常是不存在的。對此,Hessel等人[46]提出了 一種將同一網頁內的圖像和句子對齊的無監督方 法。該方法在7個難度不同的數據集上獲得了不錯 的性能。Suhr等 人[47]定 義 了 一 個 視 覺 推 理 任 務 NLVR2,對於給定的兩幅圖像和一段自然語言的描 述,要求模型判斷它們是否存在語義上的對齊關係。 文本預訓練語言模型已經取得了巨大的成功, 但該方法僅使用文本上下文信息作為監督信號,導 致詞的 上 下 文 表 示 學 習 嚴 重 依 賴 詞 的 共 現 關 係 (Co-occurrence),缺乏外部物 理 世 界 的 背 景 知 識。 為了給預訓練語言模型提供視覺監督信號,Tan等 人[48]提出了 Vokenization技術(圖3),其通過給文 本中的每一個詞打上一幅圖像的標簽,實現在大規 模文本語料上自動構建多模態對齊語料庫。在大規模圖像-詞彙對齊的多模態語料庫上訓練的預訓練 語言模型可增強其對自然語言的理解能力。實驗證 明,該 模 型 在 多 個 純 文 本 的 任 務 上 (如 GLUE、 SQuAD和SWAG 等)均獲得了顯著的性能提高。

圖像中的目標和文本中的短語對齊也被稱為圖 像短語定位(PhraseGrounding),可用於提高圖像 描述、VQA、視 覺 導 航 等 視 覺-語 言 下 遊 任 務 的 性 能。Plummer等人[49]發布了一個大規模的短語定 位數 據 集 Flickr30kEntities,如 圖 4 所 示。Wang 等人[50]提出了一種基於細粒度視覺和文本表示的 多模態對齊框架,在 Flickr30kEntities數據集上顯 著提高了短語定位的性能。

視頻定位(VideoGrounding)[51]是多模態對齊中另 一項 重 要 且 具 有 挑 戰 性 的 任 務。給 定 一 個 查 詢 (Query),它要求模型從視頻中定位出與查詢語言對應 的一個目標視頻片段。該技術可應用於視頻理解、視 頻檢索和人機交互等場景。常用數據集有 CharadesSTA [52]、ActivityNet-Captions [53]和 TACoS [54]。CharadesSTA 數據集是基於 Charades數據集[55]構建的,包括 6672個視頻和16128個“查詢,視頻片段”對。ActivityNet-Captions數據集包含兩萬個視頻和10萬個“查 詢,視頻片段”對,其覆蓋的視頻類型更多樣。TACoS 數據集包含127個烹飪視頻和18818個“查詢,視頻 片段”。

1.6 多模態翻譯

多模態翻譯是將多模態輸入(文本、圖像或視頻 等)中的源語言文本轉換為目標語言文本的過程。 多模態翻譯的目標是在視覺等多模態信息的輔助 下,消除語言的歧義,提高傳統文本機器翻譯係統的 性能。 Elliott等人[56]於2015年首次提出多模態翻譯 任務。隨後,在2016年舉辦的第一屆機器翻譯會議 上成功組織了第一屆多模態機器翻譯比賽,並於接 下來的兩年連續舉辦了兩屆比賽,引發了研究者們 對多模態機器翻譯的關注熱潮。目前的工作主要集 中在 Multi30k數據集[57]上。該數據集是英語圖像 描述數據集 Flickr30k [14]的多語言擴展,每幅圖像 配有一個英語描述和一個德語描述,任務定義為給 定圖像和英語描述,生成德語描述。 模型方麵,Huang等人[58]首先從圖像中提取視 覺全局表示(參見2.1.1節的介紹)和視覺目標表示 (參見2.1.3節的介紹),提取的視覺表示被視為源 語言中特殊的單詞與文本拚接,再融入編碼器-解碼 器神經網絡翻譯模型中的編碼器中。在 Calixto等 人[59]提出的模型中,視覺特征被視為源語言中特殊 的單 詞,或 者 融 入 編 碼 器 中,或 者 融 入 解 碼 器 中。 Calixto等人的模型顯著提 高 了 模 型 的 翻 譯 效 果。 文獻[58-59]中的模型依賴大量的多模態翻譯對齊 語料 (源 語 言、圖 像、目 標 語 言)。對 此,Elliott等 人[60]將多模態機器翻譯分解為兩個子任務:文本 翻譯 和 基 於 視 覺 的 文 本 表 示 (Visually Grounded Representations)。該模型不依賴昂貴的(源語言、 圖像、目標語言)對齊語料。模型可以分別在文本翻 譯語料(源語言,目標語言)和圖像描述(圖像,源語 言)語料上訓練。受文獻[60]的啟發,Zhou等人[61]提 出 了 一 種 機 器 翻 譯 任 務 和 視 覺-文 本 共 享 空 間 (Vision-TextSharedSpace)表示學習任務相結合 的多 任 務 多 模 態 機 器 翻 譯 框 架 (VAG-NMT)。 VAG-NMT 首先把文獻[60]中的基於視覺的文本 表示(即從文本表示重建圖像)修改為視覺-文本共 享空間表示學習。其次,VAG-NMT 還提出了一種 視覺文本注意機製,可以捕獲與圖像語義強相關的 源語言中單詞。多模態機器翻譯中的視覺信息隻在 非常特殊的情況下(如文本上下文不足以消除歧義 詞的歧義)對翻譯模型有幫助。對此,Ive等人[62]提 出了一 種 翻 譯-優 化 (Translate-and-refine)的 兩 段 式翻譯方法。該方法先翻譯源語言中的文本,再使 用視覺目標表示對第一階段的翻譯文本進行調整。 大多數的多模態機器翻譯模型沒有考慮不同模態的 相對重要性,但同等對待文本和視覺信息可能會引 入一 些 不 必 要 的 噪 聲。Yao 等 人[63]基 於 Transformer,提出了一種多模態自注意機製,探索了如何 消除視覺特征中的噪音信號。一方麵,單層多模態 注意力模型難以有效提取視覺上下文信息,另一方 麵,多層多模態注意力模型容易導致過擬合,尤其是 對訓練數據少的多模態翻譯。對此,Lin等人[64]提 出一種基於動態上下文指導的膠囊網絡(Dynamic Context-guidedCapsuleNetwork,DCCN)提取和利 用兩種不同顆粒度(視覺全局表示和視覺區域表示) 的視覺信息。也有研究者對多模態翻譯的可解釋性 進行了探索。Wu等人[65]的研究表明,視覺特征對 多模態翻譯的幫助來自於正則化,視覺特征的合理 選取對模型性能至關重要。

1.7 多模態信息抽取

命名實體識別(NER)是指識別自由文本中的 具體特定意義的實體(如人名、地名和組織機構名 等)。命名實體識別雖然取得了較大的成功,但對於 社交媒體中大量的用戶生成內容(User-Generated Content,UGC),僅根據文本模態的信息來定位和 分類其中的實體仍然存在一些挑戰。多模態命名實 體識別(MNER)通過引入視覺、語音等其他模態作 為文本模態的補充,識別社交媒體中高噪聲短文本 中的實體,最近幾年受到了比較多的關注。 模型方麵,Moon等人[66]首次提出了融合圖像 和文本模態信息的通用多模態注意力模型。文獻 [66]還發布了 SnapCaptions數據集,該數據集由1 萬張“圖像,短文本標題”對構成,並標注了短文本標 題中 的 四 類 命 名 實 體 (實 體 類 型:PER、LOC、ORG、MISC)。一方麵,文獻[66]中的方法提取的 是圖像的視覺全局表示,這可能把圖像中的噪聲信 息也引入到模型中。另一方麵,視覺和文本模態的 特征融合較簡單。對此,Zhang等人[67]提出了一種 自適應 的 協 同 注 意 力 網 絡 (AdaptiveCo-attention Network,ACN)。ACN 首先提取圖像的視覺區域 表示(參見2.1.2節的介紹),再通過文本到視覺和 視覺到文本的協同注意力剔除圖像中的噪聲信息, 以提高 MNER的性能。文獻[67]在內部數據集上 驗證了該方法的有效性。基於類似的出發點,Lu等 人[68]提出了一種注意力機製與門控機製相結合的 模型提取視覺圖像中與文本最相關的區域的特征。 該模型可忽略不相關的視覺信息。文獻[68]基於注 意力機製獲取了單詞感知(word-aware)的視覺表 示,卻忽略了圖像感知(image-aware)的單詞表示。 對此,Yu等人[69]首次將 Transformer應用於多模 態 NER任務中,並提出了實體片段檢測輔助任務, 進一步消除視覺偏差,提升了模型效果。 Sui等人[70]提出了融合語音和文本信息的多模 態 NER,並在自建的中文數據集 CNERTA 上驗證 了方法的有效性。 多模態信息抽取領域中另一個受到較多關注的 研究方向是多模態商品屬性抽取。多模態商品屬性 抽取是指從給定商品文本描述和商品圖片中抽取商 品的屬性信息,例如商品的“顏色”“材料”等屬性值。 為了推動多模態商品屬性抽取的研究,IV 等人[71] 發布了 首 個 大 規 模 多 模 態 屬 性 提 取 英 文 數 據 集 MAE。MAE包含400萬圖片和760萬“屬性-屬性 值”對。文獻[71]提出的多模態屬性抽取模型需要 對每一個屬性識別其對應的屬性值,且無法濾除視 覺噪聲。為了提高模型的效率,Zhu等人[72]將屬性 預測和屬性值抽取建模為一個層疊化的多任務學習 過程,實現了多個屬性及其對應屬性值的一次性識 別,且視覺全局表示和視覺區域表示通過門控機製 和文本信息融合,可有效過濾視覺噪聲。Zhu等人 還發布了一個包含9萬“屬性-屬性值”對的多模態 商品屬性抽取中文數據集 MEPAVE。

2 多模態融合

多模態融合將多個單模態表征整合成為一個多 模態信息表征,它是多模態信息處理的核心問題。多 模態融合的示例如圖5所示,其中,Ni{i=1,…K} 表示單模態表示學習模型的模型深度,M 表示K 個多模態表示的融合模型深度。多模態融合的研究方 向有:基於多模態互補性的全模態融合問題、模態 模糊或者模態缺失下的魯棒性融合問題、非對齊的 多模態融合問題等。目前,大部分工作是關於模態 對齊且無模態缺失情況下的多模態融合算法研究, 這也是多模態融合中最基礎的挑戰。本節根據單模 態的特征表示、多模態融合的階段、多模態融合的模 型結構等對多模態融合方法進行分類介紹。

2.1 根據單模態表示進行分類

單模態的特征表示是多模態融合的基石。這一 類方法重點研究如何在多模態融合之前提取更好的 單模態特征表示。以視覺-語言-音頻多模態應用為 例,如何從視覺內容中解析出高層語義信息以增強 視覺特征表達是這一類方法的主要研究內容。例 如,從視覺內容中識別目標(Object)、屬性(Attribute)、動作(Action)、關係(Relation)、場景圖(Scene Graph)[73-75]和樹形語義結構(Hierarchy)[76]等,進 而 實 現 對 視 覺 內 容 的 全 局 (Global)、區 域 (Regional)、目標(Object)和關係(Relation)等顆粒 度的視覺語義建模。語言表示通常使用詞的獨熱編 碼表示、詞 的 上 下 文 表 示 (ContextualRepresentation)[77-78]、句子表示[79-80]、句法依存關係(Syntactic Dependency)表示[81]、場景圖表示[82]等。音頻表示 可使用 基 於 COVAREP [83]提 取 底 層 聲 學 特 征 表 示[85]、基於預訓練模型 wav2vec [84]提取低維特征向 量表示[85]等。本節側重介紹多模態融合中的視覺 特征表示方法。

2.2 根據融合階段進行分類

根據多模態融合的階段,多模態融合方法可分 為早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早 期融合的特點是單模態表示學習簡單,而多模態融 合部分的模型深度大,融合策略複雜。例如,詞的獨 熱編碼 表 示 和 視 覺 區 域 表 示 直 接 參 與 多 模 態 融 合[93]。晚期融合的特點是單模態表示學習模型複 雜,多模態融合一般采用拚接、按位乘/求平均等簡 單策略[92]。由於晚期融合抑製了模態之間的交互, 目前大部分基於深度學習的模型均使用早期或者中 期融合。在第3節介紹的多模態預訓練模型中,基 於單流架構(Single-Stream)的預訓練模型把融合操 作 放 在 早 期 階 段,如 VideoBERT [94]、UnicoderVL [95]、Oscar [96]、VL-BERT [97]和 M3P [98]等。基於 雙流架構(Two-Stream)的預訓練模型則把融合操 作 放 置 在 深 層 模 型 的 中 期 階 段 的 多 個 層 中,如 ERNIE-ViL [82]、LXMERT [91]、ActBERT [99]和 ViLBERT [100]等。

2.3 根據融合方式進行分類

多模態融合模型的設計是多模態融合的關鍵研 究點。我們將多模態融合模型分為簡單融合、門控 融合(Gating)、注意力融合(Attention)、Transformer 融合、圖模型融合(GraphFusion)和 雙 線 性 注 意 力 (BilinearAttention)融合共六類方法。常見簡單融合 方法包括編碼器、解碼器的初始化(參見1.6 節和 2.1.1節)、拚接、按位乘/求和/求平均等操作。本節 主要介紹其餘的五類較複雜的融合方法。

3 多模態預訓練

通過預訓練語言模型從海量無標注數據中學習 通用知識,再在下遊任務上用少量的標注數據進行 微調,已經成為自然語言處理領域成熟的新範式。 從2019年開始,預訓練語言模型(BERT [101]、GPT3 [102]、BART [117]和 T5 [118]等)相繼被擴展到多語言 和多模態等場景。 相對於文本預訓練語言模型,多模態預訓練模 型可以更好地對細顆粒度的多模態語義單元(詞或 者目標)間的相關性進行建模。例如,基於語言上下 文,被掩碼的詞“ontopof”可以被預測為符合語法 規則的詞“under”或“into”等。但這與關聯的圖片 場景“貓在車頂”不符。通過多模態預訓練,模型從 圖像中捕獲“汽車”“貓”之間的空間關係,從而可以準 確地預測出掩碼詞是“ontopof”[82]。大部分的多模 態預訓練模型是在視覺-語言對齊數據上進行的。例 如,使用圖像和文本對齊數據集(MSCOCO [12]、ConceptualCaptions [13]、VisualGenome [15] 和 SBU Captions [16]等)訓練的跨模態預訓練模型 LXMERT [91]、 Oscar [96]、VL-BERT [97]和ViLBERT [100],M3P [98]。使 用視頻和文本對齊數據集訓練的 VideoBERT [94]和 ActBERT [99]等[119-120]。Liu等人[85]最近還發布了視 覺、文本、語音三模態預訓練模型 OPT。 本文表5中從網絡結構、模型輸入、預訓練目標、 預訓練語料和下遊任務等維度對比了最新的視覺-語 言跨模態預訓練模型 ERNIE-VIL [82]、LXMERT [91]、 LightningDOT [92]、E2E-VLP [93]、Unicoder-VL [95]、 Oscar [96]、VL-BERT [97]、M3P [98]、ViLBERT [100]、 TDEN [121]、UNIMO [122]。

表 5 中 的 表 示 “圖像,語言”對,I表示一幅圖像,w=w1,…,wT 表 示長度為T 的文本表示。g=g1,…,gG 是圖像區 域表示,q=q1,…,qK 和v=v1,…,vK 分別表示圖 像中的目標的文本表示和目標的視覺表示。g 和 v的提 取 可 參 考 2.1 節 的 介 紹。 此 外,[SEP]、 [IMG]、[CLS]等 特 殊 標 記 用 來 分 割 不 同 模 態。 MLM(MaskedLanguage Model)是根據未掩碼的 詞 和 圖 像 區 域 預 測 掩 碼 單 詞。 MOC(Masked ObjectClassification)根據未掩碼的圖像區域和文 本預 測 掩 碼 區 域 的 目 標 類 別。 MOR (Masked ObjectRegression)根據未掩碼的圖像區域和文本 預 測 掩 碼 區 域 的 特 征 表 示。 MSG (Masked SentenceGeneration)根據輸入圖像逐字生成句子。 VQA 根據輸入的圖像和該圖像相關問題預測該問 題的答案。CMCL 是跨模態對比學習任務。VLM 是預測圖像-文本對是否語義一致。

從表5中的11個圖像-語言跨模態預訓練模型 的對比,我們發現的跨模態預訓練模型的特點如下: ①單流模型和雙流模型均被廣泛采用。雖然雙流模 型可以適應每種模態的不同處理需求,但目前尚無 完整的實驗證明雙流模型優於單流模型。②多模態 預訓練模型從應用於多模態理解任務或多模態生成 任務發展到可兼顧多模態理解和生成兩大任務的統 一模型。③相對動輒上百 G 甚至 T 級別的單模態 數據,多模態對齊數據的規模有限。最新的多模態 預訓練模型可以利用互聯網上的大規模非對齊的文 本數據、圖像數據、以及文本-圖像對齊數據學習更 通用的文本和視覺 表 示,以 提 高 模 型 在 視 覺 和 語 言的理解和生成能力,如 M3P和 UNIMO。④多 模態預訓 練 模 型 從 僅 應 用 於 多 模 態 下 遊 任 務 發 展到可同 時 應 用 於 單 模 態 下 遊 任 務 和 多 模 態 下 遊任務。 上述的多模態預訓練模型需要在大量圖像文本 的對齊語料上進行訓練。然而,此類數據的收集成 本昂貴,很難擴大規模。受無監督機器翻譯[123-124] 的啟發,Li等人[125]提出了一種不依賴圖像-文本對 齊語料的預訓練 U-VisualBERT,該預訓練模型的 輸入是一批文本數據,或一批圖像數據,並通過圖像 中物體標簽作為錨點(AnchorPoints)對齊兩種模態。U-VisualBERT 在四個多模態任務上取得與使 用多模態對齊數據訓練的預訓練模型接近的性能。 該方向可能會是接下來的一個研究熱點。

4 結束語

多模態信息處理是一個典型的多學科交叉領 域。最近幾年,多模態信息處理受到自然語言處理、 計算機視覺和語音與聲學領域研究者的廣泛關注。 本文從自然語言處理的視角出發,首先介紹了目前 熱點的多模態應用,接著介紹了多模態的三個重要 研究方向及其主流方法:即視覺的單模態表示(視 覺全局表示、視覺區域表示、視覺目標表示和視覺場 景圖表示)、多模態融合(簡單融合、門控融合、注意 力融合、Transformer融合、圖模型融合和雙線性注 意力融合)和通用的多模態預訓練。最後,本文對多 模態技術在產業界的應用進行了簡要的描述。

多模態信息處理還有很多亟待進一步研究的課題。我們認為,以下五個方向將是多模態信息處理 技術領域未來重要的研究內容:①非對齊語料上的 多模態信息處理。目前,大多數下遊的多模態任務 和多模態預訓練模態都依賴多模態對齊語料。相對 動輒上百 G 甚至 T 級別的單模態語料,多模態對齊 語料的規模還是很有限。探索如何在海量非對齊多 模態語料上訓練多模態模型具有非常實用的價值, 也是多模態領域需要重點關注的課題之一。此方向 已經有了初步的探索。例如,利用多模態對齊技術 將 海 量 的 單 模 態 語 料 與 其 他 模 態 進 行 自 動 對 齊[48,122]。②麵向單模態和多模態的理解和生成任 務的統一模型。當前的主流模型或麵向單模態理解 (或生成)或麵向多模態理解(或生成)的模型,構建 一個既適用於單模態理解與生成任務,又適用於多 模態理解與生成任務的統一模型是未來非常重要的 研究方向。多模態模型在文本任務上的性能未來可 能會超過單模態模型[48,122]。③高噪聲環境下的多 模態魯棒性融合。真實場景常常有較強的背景噪 聲,部分模態的數據通常是模糊或缺失的。因此,探 索如何在高噪聲情況下獲得信息缺失的有效表征, 提高模型預測魯棒性和準確性是多模態領域重要的 研究課題之一。文獻[116]提出一種基於缺失模態的想 象 網 絡 (Missing ModalityImagination Network,MMIN)對該方向進行了初步的探索。④ 多 模態與知識的融合。2.1節介紹的從視覺內容中提 取視覺粗粒度特征表示和基於視覺場景圖的細顆粒 度特征表示,其目的都是增強視覺特征表示。我們 認為,如何提取更精細粒度的視覺特征表示是多模 態領域重要的基礎研究方向之一。引入知識圖譜作 為圖像實體信息的補充,從而進行知識增強的視覺 特征表示是該方向一種探索思路[126-127]。⑤複雜交 互情境下的多模態應用。第1節介紹了多模態信息 處理技術的多個應用場景。我們認為,數字人、元宇 宙(Metaverse)是多模態信息處理技術最佳的應用 場景之一,探索複雜交互情境下的多模態信息處理 是多模態領域未來最重要的研究方向之一。

成為VIP會員查看完整內容
36
79

相關內容

視覺語言多模態預訓練綜述
專知會員服務
31+閱讀 · 7月11日
南洋理工最新《視頻自然語言定位》2022綜述
專知會員服務
20+閱讀 · 1月29日
圖神經網絡前沿進展與應用
專知會員服務
73+閱讀 · 1月24日
專知會員服務
48+閱讀 · 2021年8月20日
專知會員服務
38+閱讀 · 2021年8月13日
專知會員服務
42+閱讀 · 2021年5月21日
知識圖譜在智能製造領域的研究現狀及其應用前景綜述
專知會員服務
106+閱讀 · 2021年2月25日
多模態模型發展趨勢總結
機器學習與推薦算法
3+閱讀 · 4月14日
首個視覺-語言預訓練綜述來了!
夕小瑤的賣萌屋
1+閱讀 · 3月29日
任務型對話係統預訓練最新研究進展
PaperWeekly
0+閱讀 · 1月14日
一文讀懂智能對話係統
數據派THU
16+閱讀 · 2018年1月27日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
1+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
4+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
1+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
Arxiv
0+閱讀 · 8月8日
Arxiv
14+閱讀 · 2021年9月21日
Arxiv
34+閱讀 · 2021年9月11日
Arxiv
12+閱讀 · 2020年12月28日
Arxiv
84+閱讀 · 2020年2月28日
Arxiv
14+閱讀 · 2019年6月25日
Arxiv
135+閱讀 · 2017年8月1日
VIP會員
相關VIP內容
視覺語言多模態預訓練綜述
專知會員服務
31+閱讀 · 7月11日
南洋理工最新《視頻自然語言定位》2022綜述
專知會員服務
20+閱讀 · 1月29日
圖神經網絡前沿進展與應用
專知會員服務
73+閱讀 · 1月24日
專知會員服務
48+閱讀 · 2021年8月20日
專知會員服務
38+閱讀 · 2021年8月13日
專知會員服務
42+閱讀 · 2021年5月21日
知識圖譜在智能製造領域的研究現狀及其應用前景綜述
專知會員服務
106+閱讀 · 2021年2月25日
相關基金
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
1+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
4+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
1+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
微信掃碼谘詢專知VIP會員
Top