CVPR 2022 線下會議將於 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。各位學者帶來了一係列教程。來自卡內基梅隆大學研究學者講述了《多模態機器學習》教程,200+頁ppt值得關注。
多模態機器學習是一個充滿活力的多學科研究領域,通過設計計算機agent來實現人工智能的一些原始目標,這些計算機agent能夠通過集成和建模多種通信模態(包括語言、聲學和視覺信息)來展示智能能力,如理解、推理和規劃。隨著視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕、視覺問題回答和語言引導強化學習,該研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和通常發現的模態之間的偶然性。
本教程建立在卡內基梅隆大學教授的多模態機器學習年度課程的基礎上,是CVPR、ACL和ICMI會議上多模態學習以前教程的一個完全修訂版本。本教程基於多模態機器學習中存在的核心技術挑戰的修訂分類,圍繞這六個核心挑戰: 表示、對齊、推理、遷移、生成和量化。最近的技術成果將通過這種多模態核心挑戰的分類法來展示,使研究人員能夠理解方法和新模型之間的相似性和差異性。本教程還旨在對多模態機器學習的未來研究方向提供一個視角。
https://cmu-multicomp-lab.github.io/mmml-tutorial/cvpr2022/
講者:
目錄內容:
1. 介紹
2. 表示
3. 對齊
4. 推理
5. 生成
6. 遷移
7. 量化
輸出質量:泛化、魯棒性、複雜性。 內部機製:可解釋性,理解跨模型交互。 模態權衡: 數據集偏差、社會偏差、理論收益、優化挑戰。