多模態機器學習是一個充滿活力的多學科研究領域,通過設計計算機agent來實現人工智能的一些原始目標,這些計算機agent能夠通過集成和建模多種通信模態(包括語言、聲學和視覺信息)來展示智能能力,如理解、推理和規劃。隨著視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕、視覺問題回答和語言引導強化學習,該研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和通常發現的模態之間的偶然性。

本教程建立在卡內基梅隆大學教授的多模態機器學習年度課程的基礎上,是CVPR、ACL和ICMI會議上多模態學習以前教程的一個完全修訂版本。本教程基於多模態機器學習中存在的核心技術挑戰的修訂分類,圍繞這六個核心挑戰: 表示、對齊、推理、遷移、生成和量化。最近的技術成果將通過這種多模態核心挑戰的分類法來展示,使研究人員能夠理解方法和新模型之間的相似性和差異性。本教程還旨在對多模態機器學習的未來研究方向提供一個視角。

https://cmu-multicomp-lab.github.io/mmml-tutorial/cvpr2022/

講者:

目錄內容:

1. 介紹

2. 表示

3. 對齊

4. 推理

5. 生成

6. 遷移

7. 量化

輸出質量:泛化、魯棒性、複雜性。 內部機製:可解釋性,理解跨模型交互。 模態權衡: 數據集偏差、社會偏差、理論收益、優化挑戰。

"> 【CVPR2022】CMU《多模態機器學習》教程,200+頁闡述表示、對齊、推理、遷移、生成與量化六大挑戰的多模態學習係統知識 - 專知VIP

CVPR 2022 線下會議將於 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。各位學者帶來了一係列教程。來自卡內基梅隆大學研究學者講述了《多模態機器學習》教程,200+頁ppt值得關注。

多模態機器學習是一個充滿活力的多學科研究領域,通過設計計算機agent來實現人工智能的一些原始目標,這些計算機agent能夠通過集成和建模多種通信模態(包括語言、聲學和視覺信息)來展示智能能力,如理解、推理和規劃。隨著視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕、視覺問題回答和語言引導強化學習,該研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和通常發現的模態之間的偶然性。

本教程建立在卡內基梅隆大學教授的多模態機器學習年度課程的基礎上,是CVPR、ACL和ICMI會議上多模態學習以前教程的一個完全修訂版本。本教程基於多模態機器學習中存在的核心技術挑戰的修訂分類,圍繞這六個核心挑戰: 表示、對齊、推理、遷移、生成和量化。最近的技術成果將通過這種多模態核心挑戰的分類法來展示,使研究人員能夠理解方法和新模型之間的相似性和差異性。本教程還旨在對多模態機器學習的未來研究方向提供一個視角。

https://cmu-multicomp-lab.github.io/mmml-tutorial/cvpr2022/

講者:

目錄內容:

1. 介紹

  • 什麼是多模態?定義,異質性的維度和跨模態的相互作用。
  • 曆史觀與多模態研究任務。
  • 核心技術挑戰: 表示、對齊、轉移、推理、生成和量化。
  • 單模態語言、視覺和聽覺表征。

2. 表示

  • 表示融合: 融合策略,多模態自編碼器。
  • 表示協調: 對比學習,向量空間模型,典型相關分析。
  • 表象裂變: 因式分解、成分分析、解纏。

3. 對齊

  • 粒度: 分割、聚類、單元定義。
  • 對應: 潛在對齊方法,注意力模型,多模態transformers。
  • 依存類型: 圖神經網絡,多實例學習。

4. 推理

  • 結構: 層次結構、圖形結構、時序結構和交互結構、結構發現。
  • 概念: 密集和神經象征。
  • 構成: 因果關係和邏輯關係。
  • 知識: 外部知識基礎,常識推理。

5. 生成

  • 總結、翻譯、創作。
  • 模型評估和倫理問題。

6. 遷移

  • 模態轉移: 損失,幻覺,跨模態轉移。
  • 基礎模型:預訓練模型和適應。
  • 模型歸納:協同訓練,跨模式學習。

7. 量化

輸出質量:泛化、魯棒性、複雜性。 內部機製:可解釋性,理解跨模型交互。 模態權衡: 數據集偏差、社會偏差、理論收益、優化挑戰。

成為VIP會員查看完整內容
47
142

相關內容

我們對世界的體驗是多模態的——我們看到物體,聽到聲音,感覺到紋理,聞到氣味,嚐到味道。模態是指某件事情發生或經曆的方式,一個研究問題如果包含多個模態,就被稱為多模態。為了讓人工智能在理解我們周圍的世界方麵取得進展,它需要能夠一起解釋這種多模態信號。多模態機器學習旨在建立能夠處理和關聯來自多種模式的信息的模型。這是一個日益重要和具有非凡潛力的充滿活力的多學科領域。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等
【Paul Liang】多模態深度學習,Multimodal Deep Learning
專知會員服務
134+閱讀 · 4月12日
【UAI2021教程】貝葉斯最優學習,65頁ppt
專知會員服務
52+閱讀 · 2021年8月7日
專知會員服務
59+閱讀 · 2021年7月23日
【硬核課】CMU《多模態機器學習》2020課程,附課件與視頻
專知會員服務
118+閱讀 · 2020年9月3日
人工智能頂刊TPAMI2019最新《多模態機器學習綜述》
人工智能學家
26+閱讀 · 2019年1月19日
這可能是「多模態機器學習」最通俗易懂的介紹
計算機視覺life
104+閱讀 · 2018年12月20日
國家自然科學基金
1+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
國家自然科學基金
0+閱讀 · 2008年12月31日
Arxiv
12+閱讀 · 1月20日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+閱讀 · 2020年12月21日
Arxiv
26+閱讀 · 2019年3月13日
VIP會員
相關基金
國家自然科學基金
1+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
國家自然科學基金
0+閱讀 · 2008年12月31日
微信掃碼谘詢專知VIP會員
Top