VIP內容

3月2日,阿裏巴巴與清華大學聯合發布業界最大的中文多模態預訓練AI模型M6,該模型參數規模超千億,同時具備文本、圖像的理解和生成能力,圖像設計效率超越人類,可應用於產品設計、信息檢索、機器人對話、文學創作等領域。

預訓練語言模型是讓AI具備認知能力的關鍵技術,它突破了傳統深度學習方法的瓶頸,是一種新型AI訓練思路,即首先自動學習大量語言文字和圖像數據,記憶和理解人類豐富的先驗知識,再進一步學習專業領域信息,從而讓AI同時掌握常識和專業知識。目前,穀歌、微軟和 Facebook等企業已投入該技術的研發。

此次發布的M6模型參數規模達到1000億,是多模態預訓練領域史上最大的模型,其理解和生成能力超越傳統AI。以圖像生成為例,模型可設計包括服飾、鞋類、家具、首飾、書籍等在內的30多個物品類別的圖像,最短一分鍾即可完成作品的創作,效率超越普通設計師。

M6的突破源自多項底層技術創新。阿裏巴巴研究團隊基於自研Whale分布式框架,將參數規模擴展到千億的同時,利用大規模數據並行和模型並行,訓練速度提升10倍以上,僅需1-2天即可完成上億數據的預訓練。此外,M6模型首次將多模態預訓練模型應用到基於文本的圖像生成任務,結合向量量化生成對抗網絡學習文本與圖像編碼共同建模的任務,能夠生成清晰度高且細節豐富的圖像。

阿裏巴巴達摩院智能計算實驗室資深算法專家楊紅霞表示:“多模態預訓練是下一代人工智能的基礎,M6模型實現了訓練效率和生成精度等多項突破,是當前眾多中文多模態下遊任務最優模型。”

作為國內最早投入認知智能研究的科技公司之一,阿裏巴巴已有30多項認知智能領域研究成果被國際頂級會議收錄;研究團隊還將研發更高規模的萬億參數多模態預訓練模型,進一步突破算力及預訓練模型的極限,最終實現通用領域的高質量泛內容生成。

論文內容

M6: A Chinese Multimodal Pretrainer

Authors: Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, Hongxia Yang

摘要:

在這項工作中,我們構建了最大的中文多模態預訓練數據集,包含超過1.9TB的圖像和292GB的文本,涵蓋了廣泛的領域。

我們提出了一種跨模態預訓練方法,稱為M6,Multi-Modality to MultiModality Multitask Mega-transformer,對單模態和多模態數據進行統一的預訓練。

我們將模型規模擴大到100億和1000億參數,並建立了最大的中文預訓練模型。我們將該模型應用於一係列下遊應用,並與強基線進行了比較,展示了其出色的性能。

在此基礎上,我們專門設計了下遊的文本引導圖像生成任務,結果表明,經過微調的M6可以生成高分辨率、細節豐富的高質量圖像。

https://arxiv.org/pdf/2103.00823.pdf

引言

預訓練已經成為自然語言處理(natural language processing, NLP)研究的一個熱點[1,2,7,15,17,18,25,29,35,42,47]。最近的GPT-3具有超過175B的參數,這表明利用大數據訓練的大模型具有非常大的容量,在下遊任務中,特別是在零樣本的情況下,它的性能超過了最先進的水平。同時,預訓練在自然語言處理中的迅速發展也促進了跨模態預訓練的發展。許多研究[4,10,16,20,22,23,26,27,36,49]為各種跨模態下遊任務創造了最新的性能。

遺憾的是,最近的研究大多集中在英語數據的預訓練上。目前既缺乏大規模的中文數據集,也缺乏基於中文數據的大規模預訓練模型。因此,在本研究中,我們開發了一個由1.9TB以上的圖像和292GB文本組成的大規模數據集M6-語料庫。據我們所知,這是中國最大的多模態和自然語言預訓練數據集。從網頁上收集的數據集由不同類型的數據組成,涵蓋了大量的領域,包括百科全書、問答、論壇討論、產品描述等。同時,我們設計了複雜的清洗程序,以確保數據的高質量。

此外,為了充分利用海量高質量數據,我們建立一個能夠處理多種模態數據的超大模型,以適應不同類型的下遊任務。因此,我們提出了一種名為M6的新型模型,即MultiModality-to-MultiModality Multitask Mega-transformer。該模型以transformer為基礎,並對其進行了多任務的預訓練。預訓練使模型具有單模態和多模態的理解和生成能力。基於M6的架構,我們構建了M6-10B和M6-100B,分別放大到100億和1000億參數。更具體地說,M6-100B是根據中文數據預先訓練的最近最大的模型。我們將該模型應用於產品描述生成、視覺問答、社區問答、中文詩歌生成等一係列下遊應用,實驗結果表明,M6優於一係列強基線。

這項工作的另一個貢獻是,我們首先將預訓練與文本-圖像生成結合起來。繼Ramesh等人的[30]之後,我們利用了一個兩階段的框架來生成圖像。具體來說,我們使用經過訓練的矢量量化生成對抗網絡用離散圖像編碼來表示圖像,然後使用經過訓練的M6來學習文本和編碼之間的關係。這樣的學習可以連接這兩種形式,可以實現可控的文本-圖像生成。綜上所述,M6的貢獻如下:

  • 我們收集並構建了業界最大的中文多模態預訓練數據,包括300GB文本和2TB圖像。

  • 我們提出用M6進行中文的多模態預訓練,我們將模型規模擴大到100億和1000億參數。M6-10B和M6-100B都是最近最大的多模態預訓練模型。

  • M6是通用的,在VQA中超過11.8%,在圖像-文本匹配中超過10.3%。此外,M6能夠生成高質量的圖像。

  • 通過精心設計的大規模分布式訓練優化,M6在訓練速度上具有明顯優勢,大大降低了訓練成本,為多模態預訓練的更廣泛應用創造了可能。

成為VIP會員查看完整內容
0
20
0
Top