我們對世界的體驗是多模態的——我們看到物體,聽到聲音,感覺到紋理,聞到氣味,嚐到味道。模態是指某件事情發生或經曆的方式,一個研究問題如果包含多個模態,就被稱為多模態。為了讓人工智能在理解我們周圍的世界方麵取得進展,它需要能夠一起解釋這種多模態信號。多模態機器學習旨在建立能夠處理和關聯來自多種模式的信息的模型。這是一個日益重要和具有非凡潛力的充滿活力的多學科領域。

知識薈萃

多模態機器學習(Multimodal Machine Learning)專知薈萃

綜述

模型算法

表示學習

多模態融合

多模態對齊

多模態翻譯

Missing or Imperfect Modalities

知識圖譜和知識庫

可解釋學習

生成式學習

半監督學習

自監督學習

語言模型

Adversarial Attacks

小樣本學習

應用

語言和視覺問答

Language Grounding in Vision

Language Grouding in Navigation

多模態機器翻譯

Multi-agent Communication

常識推理

多模態強化學習

多模態對話

語言和音頻

音頻和視頻

多媒體描述

Video Generation from Text

Affect Recognition and Multimodal Language

醫療

Robotics

WorkShops

Tutorials

視頻教程

微信掃碼谘詢專知VIP會員