我們對世界的體驗是多模態的——我們看到物體,聽到聲音,感覺到紋理,聞到氣味,嚐到味道。模態是指某件事情發生或經曆的方式,一個研究問題如果包含多個模態,就被稱為多模態。為了讓人工智能在理解我們周圍的世界方麵取得進展,它需要能夠一起解釋這種多模態信號。多模態機器學習旨在建立能夠處理和關聯來自多種模式的信息的模型。這是一個日益重要和具有非凡潛力的充滿活力的多學科領域。

知識薈萃

多模態機器學習(Multimodal Machine Learning)專知薈萃

綜述

模型算法

表示學習

多模態融合

多模態對齊

多模態翻譯

Missing or Imperfect Modalities

知識圖譜和知識庫

可解釋學習

生成式學習

半監督學習

自監督學習

語言模型

Adversarial Attacks

小樣本學習

應用

語言和視覺問答

Language Grounding in Vision

Language Grouding in Navigation

多模態機器翻譯

Multi-agent Communication

常識推理

多模態強化學習

多模態對話

語言和音頻

音頻和視頻

多媒體描述

Video Generation from Text

Affect Recognition and Multimodal Language

醫療

Robotics

WorkShops

Tutorials

視頻教程

VIP內容

多模態機器學習(MMML)是一個充滿活力的多學科研究領域,通過整合和建模多種交流模態(包括語言、聲音和視覺信息)來實現人工智能的一些原始目標。隨著對視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕,這個研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模式之間經常發現的偶然性。本課程將教授與MMML相關的基本數學概念,包括多模態對齊與融合、異質表示學習和多流時間建模。我們還將回顧最近描述最先進的MMML概率模型和計算算法的論文,並討論當前和即將麵臨的挑戰。

本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習,(2)平移與映射,(3)模態對齊,(4)多模態融合和(5)協同學習。這些包括但不限於,多模態自動編碼器,深度典型相關分析,多核學習,注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用,包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。

課程目錄:

  • 課程導論
  • 多模態應用與數據集
  • 基本概念:神經網絡
  • 網絡優化
  • 視覺單模態表示學習
  • 語言單模態表示學習
  • 多模態表示學習
  • 多模態對齊
  • 結構化表示
  • 概率圖模型
  • 判別性圖模型
  • 神經生成模型
  • 強化學習
  • 多模態強化學習
  • 融合與協同學習
  • 多語言表示學習
成為VIP會員查看完整內容
1
48
3

最新論文

The applications of short-termuser generated video(UGV),such as snapchat, youtube short-term videos, booms recently,raising lots of multimodal machine learning tasks. Amongthem, learning the correspondence between audio and vi-sual information from videos is a challenging one. Mostprevious work of theaudio-visual correspondence(AVC)learning only investigated on constrained videos or simplesettings, which may not fit the application of UGV. In thispaper, we proposed new principles for AVC and introduced anew framework to set sight on the themes of videos to facili-tate AVC learning. We also released the KWAI-AD-AudViscorpus which contained 85432 short advertisement videos(around 913 hours) made by users. We evaluated our pro-posed approach on this corpus and it was able to outperformthe baseline by 23.15% absolute differenc

0
0
0
下載
預覽
Top