本報告由來自美國陸軍研究實驗室、美國國防情報局、美國國家地理空間情報局(NGA)、英國國防部國防科學技術實驗室(Dstl)、加拿大國防研究與發展部、德國弗勞恩霍夫FKIE研究所等多個單位聯合撰寫。介紹了北約信息係統技術(IST)探索小組111(ET-111)的調查結果。成立ET-111是為了在北約各國之間分享對知識表示和推理(KRR)現狀的理解,以了解技術現狀並考慮未來的合作活動是否有益。

為了支持高水平的數據融合,當下有一個基礎性的需求,即信息和知識要能被人類和機器理解。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵原因是,知識可以被推理。基於知識的係統也可能被稱為符號人工智能和基於規則的人工智能,並且在過去50多年裏一直是一個活躍的研究領域。因此,它可能被一些人認為是 "老派 "的人工智能,與近年來日益突出的基於算法和機器學習的人工智能方法不同(眾所周知,後者存在可解釋性和概括性問題)。在 "大數據 "時代,知識表示和推理為利用靈活、可解釋和基於人類知識的數據提供了一個途徑。

這篇綜述的第一個目的是為知識表示和推理領域提供一個技術介紹。為讀者提供關鍵概念的知識--以培養理解力--將使人們能夠欣賞到知識係統的能力。第二個目的是通過實例,提供對創建知識係統過程的掌握,以及如何在軍事背景下使用這種係統來解決現實世界問題。對知識係統最適用的現實世界問題的理解,有助於成功實施KRR並將其與北約係統和理論相結合

在這份報告中,我們首先討論了北約成員國麵臨的一些挑戰,以及北約的知識表示和推理可能會對這些領域產生的影響。然後,我們對知識表示、知識工程和推理方法的技術方麵做了一個總結。我們討論了知識表示的具體例子,如MIP信息模型(MIM)、富事件本體(REO)、OPIS和國防情報核心本體(DICO)。我們還描述了WISDOM研發平台和智能態勢感知(INSANE)框架,作為使用知識表示來支持感知的例子

隨後,我們回顧了更廣泛的研究,包括文本分析如何支持從報告和其他來源的文本中提取知識,關於因果關係的工作以及推理係統中的可解釋性和信任問題。

最後,我們總結了報告的結論和對北約聯盟的影響,提出了進一步工作的主要建議:

  • 建議1--北約科技組織應讚助一項技術活動,以展示符號和亞符號方法的互補使用及其對改善決策的益處。

  • 建議2--北約科技組織應讚助一個虛擬係列講座/研討會,以提高北約科學和業務部門對KRR技術的認識,從而為該領域的進一步技能發展提供催化作用。

  • 建議3--北約科技組織應讚助一個專門的探索小組,考慮因果模型的具體興趣,以及它在基於知識的係統中的應用,作為未來在諸如建議1活動下進行實際演示的先導。

報告目錄

  • 第1章 - 導言
    • 1.1 "戰爭"中的信息
    • 1.2 理解和信息融合
    • 1.3 知識表示和推理的作用
    • 1.4 IST-ET-111的宗旨和目標
    • 1.5 本報告的方法和結構
    • 1.6 參考文獻
  • 第2章 - 知識表示和推理的核心概念
    • 2.1 引言
    • 2.2 知識、知識係統的定義
    • 2.3 專業知識和知識工程
    • 2.4 推測和推理
    • 2.5 知識圖譜
    • 2.6 語義啟用和互操作性
    • 2.7 不確定性管理
    • 2.8 符號化與亞符號化的方法
    • 2.9 總結
    • 2.10 參考文獻
  • 第3章 - 實現知識表示和推理
    • 3.1 集成、互操作性和信息共享的本體論
    • 3.2 W3C語義網棧
    • 3.3 案例研究
      • 3.3.1 構建領域本體--DICO開發過程、設計原則和最佳實踐
      • 3.3.2 實踐中的知識表示和推理WISDOM研發平台
      • 3.3.3 相關性過濾、信息聚合和充實 智能態勢感知框架
      • 3.3.4 在英國、"五眼"防務和安全社區內交換信息--英國國際信息交流中心的信息交流標準
    • 3.4 實施基於知識的係統的機遇和挑戰
      • 3.4.1 討論共同關心的問題
        • 3.4.1.1 我是否真的應該關心,ML方法是否能提供這一切?
        • 3.4.1.2 有了新的技術,這不就導致了新的複雜性嗎?
        • 3.4.1.3 KR方法是穩健的嗎?
        • 3.4.1.4 是否需要專家技能和專業知識?
      • 3.4.2 知識表示和推理方法的優勢和劣勢
    • 3.5 總結
    • 3.6 參考文獻
  • 第4章 - 當前知識表示和推理的研究主題
    • 4.1 多模態知識表示--處理文本、圖像和其他問題
      • 4.1.1 文本分析的符號化方法
      • 4.1.2 文本的矢量空間模型
      • 4.1.3 文本分析的向量空間和知識基礎相結合的方法
      • 4.1.4 文本和圖像的聯合建模
    • 4.2 人類交互的考慮因素--自然語言交互
      • 4.2.1 對話係統
      • 4.2.2 自然語言的語義表述
      • 4.2.3 言語行為和對話
    • 4.3 因果關係和因果模型
      • 4.3.1 自然語言處理中的因果關係
    • 4.4 推斷中的可解釋性和信任
    • 4.5 總結、展望和開放的挑戰
    • 4.6 參考文獻
  • 第5章 - 結論和對未來技術提案的建議
    • 5.1 結論 - KRR方法的機會
    • 5.2 結論--對基礎技能和專業知識的需求
    • 5.3 結論--當前的研究主題
    • 5.4 建議
  • 附件A--相關的NATO STO活動
  • 附件B - MIP信息模型和富事件本體論
    • B.1.1 MIP信息模型(MIM)
    • B.2.1 富事件本體論(REO)--事件表示的本體論樞紐
    • B.3.1 參考文獻
  • 附件C - 國防情報核心本體(DICO)
    • C.1.1 DICO開發過程、設計原則和最佳實踐
      • C.1.1.1 獨特的識別實體
      • C.1.1.2 本體實體和DICO實體類別
    • C.2.1 參考文獻
  • 附件D--實踐中的知識表示和推理--WISDOM研發平台
    • D.1.1 WISDOM研發平台
    • D.2.1 WISDOM數據策略
      • D.2.1.1 WISDOM研發平台的自動推理能力
    • D.3.1 參考文獻
  • 附件E - 不確定性管理
    • E.1.1 不確定性類型學/分類法
    • E.2.1 什麼是不確定性?
    • E.3.1 不確定性管理的形式主義
    • E.4.1 參考文獻
  • 附件F - 作者簡曆

報告導言

1.1 "戰爭"中的信息

隨著傳感器、性能、反饋和其他數據數量的不斷增加,國防麵臨的最緊迫的挑戰之一是可靠地、快速地篩選、融合最相關的觀察和信息並采取作戰行動的能力。信息的重要性體現在北約的所有戰略重點中[2]。俄羅斯對歐洲-大西洋安全的威脅是基於旨在破壞戰略關係(如歐盟、北約等)的虛假信息;打擊一切形式和表現的恐怖主義,現在的前提是能夠將機密和公開來源的材料聯係起來,以確定可以采取行動的聯係和行為;網絡威脅主要是在信息空間進行的。

北約對聯盟地麵監視(AGS)係統的收購代表了北約在支持其未來行動中提供豐富數據饋送的能力的重大提升[3]。但是,在英國的 "信息優勢 "等概念中,人們認識到,現在隻有通過及時和有效地融合這些數據饋送,才能實現真正的優勢。

當然,處理信息過載的挑戰並不限於國防領域。金融、廣告和工程等領域,都在抓住機遇,改善決策,瞄準服務,提高新解決方案的交付速度。近年來,應用機器學習(ML)方法應對這些挑戰的潛力已經引起了公眾、投資者和世界各地高層領導人的注意。因此,這樣的ML方法正在展示其應對防禦挑戰的潛力,包括圖像和視頻資料中的物體檢測和標記、提取實體和關係的文本分析以及語音檢測和翻譯。在計算能力、數據可用性和計算框架的重大突破基礎上,對數據和人工智能的興趣將大大增加。

因此,防禦能力將越來越能夠處理最關鍵的信息流,節省分析員的時間,提高他們快速發展和保持態勢感知的能力。然而,由於人類分析員的注意力也被持續競爭時期的操作和作戰活動所牽製[5],仍然需要不斷提高他們在多個領域連接細微但重要的觀察的能力。例如,隨著作戰尋求常規的全頻譜效應,物理、社會和網絡領域之間觀察的相互聯係將越來越重要,但如果沒有其他能力支持,這種聯係可能不容易被發現。重要的是,將這些觀察結果與過去的知識、相關人員的固有專長以及之前的經驗聯係起來是至關重要的。

1.2 理解和信息融合

複雜性一直存在於自然和生物領域中。然而,隨著科學和技術的進步,人類現在有能力製造出其複雜性接近生命本身的人工製品。有必要使用先進的方法來處理這種複雜性。

這種複雜性源於數據的速度、密度和空間範圍的巨大增長,以及不斷增加的各種元素之間的耦合,其中一些是自然的,而許多是合成的。防禦的一個核心挑戰是應對複雜情況的方法。我們麵臨著技術的快速發展,提供了更多的數據、信息和能力,同時也麵臨著具有挑戰性的地形,如城市環境和涉及叛亂分子、混合人口、非政府組織的 "人類地形"。這些複雜的情況實際上比以往任何時候都更需要及時的決策來戰勝威脅,而決策的質量將始終與對情況的理解程度密切相關。這種理解力受到如此快速的行動和技術變化的挑戰,需要新的方法來更好、更快地分解複雜的情況。雖然人類的思維方式仍然深深紮根於經典的還原論概念,即通過將問題分解為子問題來解決,但現在人們認識到,以有效的方式接近複雜性不能脫離還原論方法。

諸如英國的 "信息優勢"[6]等國家概念試圖催化信息在國防行動中的作用,強調必須進行創新,否則就有可能 "枯萎"並跟不上對手的步伐。美國的 "用機器增強情報"(AIM)倡議[7]也提供了一個戰略觀點,強調了AI和ML在未來情報能力中的作用。對於IST-ET-111來說,AIM倡議特別強調了代表知識方麵的基礎研究進展。

多年來,JDL融合模型[8]對實現低層和高層數據融合的技術挑戰進行了很好的定義。然而,全麵的解決方案,特別是高層的數據融合,仍然缺乏,而且是不斷研究和開發的主題。

信息融合的挑戰幾乎延伸到國防的所有方麵,從後勤到人員管理、平台維護和醫療。然而,在北約背景下,重點是聯盟行動,如在阿富汗的行動,考慮實現態勢感知以支持指揮與控製(C2)和情報功能的挑戰也許是最貼切的。這些活動的特點是需要:

  • 將主要觀察結果和不太明顯的信息和知識結合起來(硬/軟融合)。
  • 彙集來自多個領域的信息,而且往往是多種分類的信息。
  • 在有限的信息基礎上快速做出決定;
  • 處理不確定性、模糊性和不斷變化的信息。

C2和情報活動產出的主要作者和消費者是人類分析員和作戰人員,但隨著北約部隊更多地使用自動化和自主係統,機器在支持、增強和利用基礎態勢感知和高層融合活動中的作用將越來越重要,需要考慮。

1.3 知識表示和推理的作用

為了支持這種高層的融合,現在有一個基本的需求,即信息和知識要能被人類和機器理解。通過這樣做,就有可能應用機器推理(推測)方法,將規則和形式邏輯應用於現有數據,以提供更高層次的推理。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵但不是唯一的原因是,知識可以被推理。基於知識的係統也被稱為符號人工智能和基於規則的人工智能,並且在過去五十多年裏一直是一個活躍的研究領域。

知識表示和對這些知識進行推理的願望是北約七個新興和顛覆性技術(EDTs)中三個的核心:數據、人工智能和自主性,其中每一個都重疊並支持另一個[9]。

當然,正是最近對 "機器學習"(也被稱為亞符號)方法的興趣,專注於神經網絡等計算方法,一直處於公眾對人工智能敘述的最前沿,經常看到ML和AI這兩個術語被交替使用。這類係統已經在多種應用中證明了其價值,如產品推薦係統、交通模式的預測和貸款審批。使用ML來支持基於內容的多種數據類型(圖像、視頻、文本和社交媒體)的分析是現已完成的IST-RTG-144(多內容分析)的核心興趣。該小組清楚地展示了對單模態進行分析的潛力,以及在更廣泛的情報周期內結合這些分析的機會,但它沒有考慮自動/半自動融合或針對觀察結果進行推理,以支持高水平融合的目標。

ML方法通常利用大量的數據來開發模型,將輸出與輸入聯係起來。對於某些類別的任務,如圖像標記,ML是一種行之有效的應用,但即使是人工智能係統的領導者也很謹慎,甚至對它的成功持批評態度[10]。用ML方法表示和包含知識(所謂的神經符號方法)可能是提高未來解決方案的穩健性和性能的一個潛在步驟。

因此,實現這一目標的基本步驟是建立有效的知識表示(符號表示),可以被未來的混合係統所使用。符號方法可能更善於處理稀疏的數據,支持增強的可解釋性並納入過去的人類知識,並使用擅長模式識別和數據聚類/分類問題的計算方法。然而,如果這些方法/技術要支持未來的聯盟行動,就需要聯合起來努力。這包括

  • 開發特定領域的本體論(為特定領域定義的詞彙表)。

  • 部署和評估推理能力。

  • 為事件驅動的處理建立有效的架構。

  • 處理觀測中的不確定性和模糊性。

  • 信息共享和觀測數據來源。

  • 聯合部署和應對規模問題的方法。

1.4 IST-ET-111的宗旨和目標

正是在這種情況下,北約IST-ET-111 "知識表示和推理 "被提出來,目的是彙集北約夥伴對KRR現狀的理解,以了解技術現狀並考慮未來是否需要開展活動。

通過建立技術現狀和北約國家的技術能力,IST-ET-111團隊希望這份報告能夠支持圍繞實現有效的人機團隊的最有效方法進行對話。探索小組的建立也是確定如何利用其他北約國家的科學和技術活動來獲得近期和長期的業務利益的一個步驟。

最終,我們預計KRR的有效使用會帶來以下結果:

  • 更快的決策,以保持在潛在對手的OODA循環中。
  • 更強大的人工智能係統能夠處理新的信息和處理不確定性。
  • 透明的係統,提供充分理解和可評估的輸出。
  • 隨著工作人員在行動中的輪換或行動的結束,保留專題知識,但隨後允許更迅速地建立先驗能力。
  • 大幅提高利用和辨別現有數據知識的能力。

1.5 本報告的方法和結構

本報告針對的是更廣泛的北約STO社區和國家代表,他們

  • 可能需要領導技術變革舉措,並可能從在軍事背景下使用KRR方法和手段中受益。

  • 需要實施新的解決方案以更好地利用信息和知識;

  • 可能擁有ML方麵的專業知識,並正在尋求其他方法來提高結果的穩健性和可解釋性。

首先,本報告關注知識表示的核心概念(第2章),認識到利用基於知識的方法的第一步是擁有表示知識的手段,然後才是對知識進行推理的方法,或者換句話說,從我們已經知道的知識中推導出新知識的方法。然後,報告轉向實施KRR方法的問題(第3章),用具體的例子來說明其中的問題。最後,對活躍的研究主題進行了簡短的討論(第4章),並提出結論和建議(第5章)

成為VIP會員查看完整內容
137
0

CVPR 2022 線下會議將於 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。各位學者帶來了一係列教程。來自卡內基梅隆大學研究學者講述了《多模態機器學習》教程,200+頁ppt值得關注。

多模態機器學習是一個充滿活力的多學科研究領域,通過設計計算機agent來實現人工智能的一些原始目標,這些計算機agent能夠通過集成和建模多種通信模態(包括語言、聲學和視覺信息)來展示智能能力,如理解、推理和規劃。隨著視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕、視覺問題回答和語言引導強化學習,該研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和通常發現的模態之間的偶然性。

本教程建立在卡內基梅隆大學教授的多模態機器學習年度課程的基礎上,是CVPR、ACL和ICMI會議上多模態學習以前教程的一個完全修訂版本。本教程基於多模態機器學習中存在的核心技術挑戰的修訂分類,圍繞這六個核心挑戰: 表示、對齊、推理、遷移、生成和量化。最近的技術成果將通過這種多模態核心挑戰的分類法來展示,使研究人員能夠理解方法和新模型之間的相似性和差異性。本教程還旨在對多模態機器學習的未來研究方向提供一個視角。

https://cmu-multicomp-lab.github.io/mmml-tutorial/cvpr2022/

講者:

目錄內容:

1. 介紹

  • 什麼是多模態?定義,異質性的維度和跨模態的相互作用。
  • 曆史觀與多模態研究任務。
  • 核心技術挑戰: 表示、對齊、轉移、推理、生成和量化。
  • 單模態語言、視覺和聽覺表征。

2. 表示

  • 表示融合: 融合策略,多模態自編碼器。
  • 表示協調: 對比學習,向量空間模型,典型相關分析。
  • 表象裂變: 因式分解、成分分析、解纏。

3. 對齊

  • 粒度: 分割、聚類、單元定義。
  • 對應: 潛在對齊方法,注意力模型,多模態transformers。
  • 依存類型: 圖神經網絡,多實例學習。

4. 推理

  • 結構: 層次結構、圖形結構、時序結構和交互結構、結構發現。
  • 概念: 密集和神經象征。
  • 構成: 因果關係和邏輯關係。
  • 知識: 外部知識基礎,常識推理。

5. 生成

  • 總結、翻譯、創作。
  • 模型評估和倫理問題。

6. 遷移

  • 模態轉移: 損失,幻覺,跨模態轉移。
  • 基礎模型:預訓練模型和適應。
  • 模型歸納:協同訓練,跨模式學習。

7. 量化

輸出質量:泛化、魯棒性、複雜性。 內部機製:可解釋性,理解跨模型交互。 模態權衡: 數據集偏差、社會偏差、理論收益、優化挑戰。

成為VIP會員查看完整內容
119
0

https://nostarch.com/math-deep-learning

深度學習無處不在,這使得AI的強大驅動力成為更多STEM專業人士需要了解的東西。學習使用哪個庫命令是一回事,但要真正理解這一原則,您需要掌握使之正確的數學概念。本書將為您提供概率論、統計學、線性代數和微分學等主題的工作知識,這些是使深度學習易於理解的基本數學知識,也是成功練習深度學習的關鍵。 這四個子領域中的每一個都與Python代碼和實際操作的示例相關聯,這些示例彌合了純數學及其在深度學習中的應用之間的差距。章節建立在彼此的基礎上,基本的主題,如貝葉斯定理,然後是更高級的概念,如使用向量、矩陣和函數的導數訓練神經網絡。在探索和實現深度學習算法時,您將最終使用所有這些數學知識,包括反向傳播和梯度下降——這些基本算法使AI革命成為可能。 你將學習:

  • 概率規則,概率分布,貝葉斯概率
  • 使用統計數據來理解數據集和評估模型
  • 如何操作向量和矩陣,並利用它們在神經網絡中移動數據
  • 如何用線性代數實現主成分分析和奇異值分解
  • 如何應用改進版本的梯度下降,如RMSprop, Adagrad和Adadelta
  • 一旦你通過AI編程的鏡頭理解了本書中呈現的核心數學概念,你就會有基礎的知識來輕鬆跟隨和使用深度學習。

目錄內容:

Introduction Chapter 1: Setting the Stage Chapter 2: Probability Chapter 3: More Probability Chapter 4: Statistics Chapter 5: Linear Algebra Chapter 6: More Linear Algebra Chapter 7: Differential Calculus Chapter 8: Matrix Calculus Chapter 9: Data Flow in Neural Networks Chapter 10: Backpropagation Chapter 11: Gradient Descent Appendix: Going Further View the Copyright page

View the detailed Table of Contents

View the Index

成為VIP會員查看完整內容
101
0

因果性是現在機器學習關注的焦點之一。倫敦大學學院和牛津大學的學者發布了《因果機器學習》綜述,非常值得關注!

因果機器學習(CausalML)是將數據生成過程形式化為結構因果模型(SCM)的機器學習方法的總稱。這使得人們可以對這一過程的變化的影響(即幹預)和事後會發生什麼(即反事實)進行推理。根據他們所解決的問題,我們將CausalML中的工作分為五組:(1)因果監督學習,(2) 因果生成模型,(3) 因果解釋,(4) 因果公平,(5) 因果強化學習。對每一類方法進行了係統的比較,並指出了有待解決的問題。此外,我們回顧了特定模式在計算機視覺、自然語言處理和圖形表示學習中的應用。最後,我們提供了因果基準的概述,並對這一新興領域的狀態進行了批判性的討論,包括對未來工作的建議。

引言

機器學習(ML)技術今天擅長在獨立和同分布(i.i.d)數據中尋找關聯。一些基本原則,包括經驗風險最小化、反向傳播和架構設計中的歸納偏差,已經為解決計算機視覺、自然語言處理、圖表示學習和強化學習等領域的問題帶來了巨大的進步。然而,在將這些模型部署到現實環境中時,出現了新的挑戰。這些挑戰包括: (1) 當數據分布轉移[1]時泛化性能大幅下降,(2) 生成模型[2]樣本缺乏細粒度控製,(3) 有偏見的預測強化了某些子種群的不公平歧視[3,4],(4) 可解釋性[5]的概念過於抽象和問題獨立,(5)強化學習方法對真實世界問題[6]的不穩定轉換。

許多工作認為,這些問題的部分原因在於現代ML係統缺乏因果形式主義[7,8,9,10,11]。隨後,研究社區對因果機器學習(CausalML)的興趣激增,這是利用關於被建模係統的因果知識的方法本調查涵蓋了因果關係如何被用來解決開放式ML問題。簡而言之,因果推理提供了一種語言,通過結構因果模型(SCMs)[12]將關於數據生成過程(DGP)的結構知識形式化。使用SCM,我們可以估計在對數據生成過程進行更改(稱為幹預)後,數據會發生什麼變化。更進一步,它們還允許我們在事後模擬變化的後果,同時考慮實際發生的情況(稱為反事實)。我們將在第2章中更詳細地介紹這些概念,假設沒有因果關係的先驗知識。

盡管在設計各種類型的CausalML算法方麵做了大量的工作,但仍然缺乏對其問題和方法論的明確分類。我們認為,部分原因在於CausalML通常涉及對大部分ML不熟悉的數據的假設,這些假設在不同的問題設置之間聯係起來通常很棘手,這使得很難衡量進展和適用性。這些問題是本次綜述的動機。

**1. 我們對完全獨立的因果關係中的關鍵概念進行了簡單的介紹(第2章)。**我們不假設對因果關係有任何先驗知識。在整個過程中,我們給出了如何應用這些概念來幫助進一步的地麵直覺的例子。

2. 我們將現有的CausalML工作分類為因果監督學習(第3章)、因果生成模型(第4章)、因果解釋(第5章)、因果公平(第6章)、因果強化學習(第7章)。對於每個問題類,我們比較現有的方法,並指出未來工作的途徑。

3.我們回顧了特定模式在計算機視覺、自然語言處理和圖表示學習中的應用(第8章),以及因果基準(第9章)。

4. 我們討論了好的、壞的和醜陋的:我們關於與非因果ML方法相比,因果ML可以給我們帶來哪些好處的觀點(好的),人們必須為這些方法付出什麼代價(壞的),以及我們警告從業者要防範哪些風險(醜陋的)(第10章)

結論發現**

  • 因果推理(第二章),與統計或概率推理相反,允許我們對介入和反事實的估計進行推理。
  • 因果監督學習(第3章)通過學習不變特征或機製來改進預測泛化,兩者都旨在消除模型對虛假關聯的依賴。未來的工作應該研究學習不變性的目標基準測試、對抗魯棒性的聯係以及元學習,以及額外監督信號的潛在利用。
  • 因果生成模型(第4章)支持從介入的或反事實的分布中采樣,自然地分別執行原則可控的生成或樣本編輯任務。所有現有的方法都學習結構作業;一些人還從數據中推斷出因果結構。對於不同的應用程序應該考慮什麼層次的抽象,如何將分配學習擴展到更大的圖,以及反事實生成的數據增強何時有效(何時無效),這些都有待探索。
  • 因果解釋(第5章)解釋模型預測,同時解釋模型機製或數據生成過程的因果結構。方法可以分為特征歸因(量化輸入特征的因果影響)和對比解釋(表示獲得期望結果的改變實例)。到目前為止,還不清楚如何最好地統一這兩類方法,擴大解釋範圍,使它們對分布轉移具有魯棒性,對攻擊者安全和私有,以及如何規避不可避免的對追索敏感性的魯棒性權衡。
  • 因果公平(第6章)為評估模型的公平性以及減輕潛在數據因果關係的有害差異的標準鋪平了道路。該標準依賴於反事實或介入性分布。未來的工作應該闡明在標準預測設置之外的平等、公平、較弱的可觀察性假設(例如隱藏的混淆)以及對社會類別的幹預主義觀點的有效性。
  • 因果強化學習(第7章)描述了考慮決策環境的顯性因果結構的RL方法。我們將這些方法分為7類,並觀察到它們比非因果方法的好處包括反發現(導致更好的泛化)、內在獎勵和數據效率。開放的問題表明,一些形式主義可能是統一的,離線數據的反發現在離線RL部分很大程度上沒有解決,而代理根據反事實做出的決定可能會提供進一步的好處。
  • 模態-應用:我們回顧了之前介紹的和模態特定原則如何提供機會來改善計算機視覺、自然語言處理和圖形表示學習設置。
成為VIP會員查看完整內容
99
0

本白皮首先介紹了元宇宙簡史和元宇宙概念,接著闡述了元宇宙的八大關鍵要素和七層價值空間,然後對元宇宙的六大技術全景進行了詳細詮釋,最後展示了中通服設計院在元宇宙領域的成果——數字孿生城市。

元宇宙時代物理、倫理、成本、生產力、生產關係、價值定義都發生了巨變。從尺度上看,狹義元宇宙可指任意精神沉浸場景,如書、角色、電影、遊戲、城市;廣義元宇宙則是所有現實與虛擬世界及其中的物種、物質、信息、規律、時間等互聯形成的超級文明體。人人皆可創建無數個狹義元宇宙,最終構成廣義元宇宙統一體。從時間上看,2030年前Web2.5"虛實共生",現實與數字世界的互通入口,如AR世界地圖,至關重要;2050 年前 Web3.0"虛實莫辯",海量子元宇宙,如頭號玩家,實現體驗互聯;2070年前 Web4.0才是腦機與Al+係統互聯的真·元宇宙時代。

成為VIP會員查看完整內容
68
0

博弈論推理遍及經濟理論,並廣泛應用於其他社會和行為科學。Martin J. Osborne的《博弈論導論》介紹了博弈論的主要原則,並展示了如何用它們來理解經濟、社會、政治和生物現象。這本書以一種通俗易懂的方式介紹了理論背後的主要思想,而不是他們的數學表達。所有的概念都被精確地定義,並且邏輯推理貫穿始終。這本書要求讀者理解基本的數學知識,但不需要經濟學、政治學或其他社會或行為科學的具體知識。

包括戰略博弈、完全信息廣義博弈和聯盟博弈的基本概念;較高級的貝葉斯對策和不完全信息的廣泛對策;以及重複博弈、議價理論、進化均衡、合理化和最大化的主題。這本書提供了各種各樣的插圖,從社會和行為科學和280多個練習。每個主題都有突出理論點的例子和說明如何使用理論的例子。盡可能簡單地解釋博弈論的關鍵概念,同時保持完整的精度,博弈論導論是博弈論本科和入門研究生課程的理想選擇。

https://mathematicalolympiads.files.wordpress.com/2012/08/martin_j-_osborne-an_introduction_to_game_theory-oxford_university_press_usa2003.pdf

https://cgi.csc.liv.ac.uk/~spirakis/COMP323-Fall2017/week01.pdf

成為VIP會員查看完整內容
63
0

隨著視覺、聽覺、語言等單模態人工智能技術的突破,讓計算機擁有更接近人類理解多模態信息的能力受 到研究者們的廣泛關注。另一方麵,隨著圖文社交、短視頻、視頻會議、直播和虛擬數字人等應用的湧現,對多模態 信息處理技術提出了更高要求,同時也給多模態研究提供了海量的數據和豐富的應用場景。該文首先介紹了近期 自然語言處理領域關注度較高的多模態應用,並從單模態的特征表示、多模態的特征融合階段、融合模型的網絡結 構、未對齊模態和模態缺失下的多模態融合等角度綜述了主流的多模態融合方法,同時也綜合分析了視覺-語言跨 模態預訓練模型的最新進展

http://jcip.cipsc.org.cn/CN/abstract/abstract3314.shtmt

1. 引言

人工智能研究經過70多年的探索,在視覺、語 音與聲學、語言理解與生成等單模態① 人工智能領 域已取得了巨大的突破。特別是視覺領域的目標檢 測與人臉識別技術、語音領域的語音識別與語音合 成技術、自然語言處理領域的機器翻譯與人機對話 技術在限定場景下已經實現了規模化的應用。然 而,人類對周圍環境的感知、對信息的獲取和對知識 的學習與表 達 都 是 多 模 態 (Multimodal)的。近 些 年,如何讓計算機擁有更接近人類的理解和處理多 模態信息的能力,進而實現高魯棒性的推理決策成 為熱點問題,受到人工智能研究者的廣泛關注。另 一方麵,隨著圖文社交(Facebook、Twitter、微信、微 博等)、短視頻(YouTube、抖音、快手)、音頻(Club-音、京東、淘寶等)和數字人(2D、3D、卡通、寫實、超 寫實等)等應用的湧現,對多模態信息處理技術在用 戶理解、內容理解和場景理解上提出了更高的要求, 同時也給多模態技術提供了海量的數據和豐富的應 用場景。 多模態信息處理技術打破計算機視覺、語音與 聲學、自然語言處理等學科間的壁壘,是典型的多學 科交叉技術。多模態技術從20世紀70年代開始發 展,Morency等人[1]將多模態技術的發展劃分為四 個階段,即 1970-1980 年 的 行 為 時 代 (Behavioral Era)、1980-2000 年 的 計 算 時 代 (Computational Era)、2000-2010 年的交互時代(InteractionEra) 和2010年起的深度學習時代(DeepLearningEra)。 多模態核心技術又分為:多模態表示(Representation),多模態融合(Fusion)、多模態轉換(Translation)、多 模 態 對 齊 (Alignment)和 模 態 協 同 學 習 (Co-learning)類。

近些年,研究者從不同的視角對多模態信息處 理技術做了很好的總結回顧。Zhang等人[2]圍繞圖 像描述、視覺-語言生成、視覺問答和視覺推理四個 應用,從計算機視覺的角度總結了多模態表示學習 和多模態融合的最新進展。Summaira等人[3]的綜 述覆蓋了更多的多模態應用,並根據應用組織了每 一個多模態應用的技術進展和局限性。

本文從自然語言處理的視角出發,介紹多模態 信息處理技術的最新進展,組織結構如下:第1節 介紹 NLP領域關注度較高的多模態應用和相關的 數據集。多模態融合是多模態信息處理的核心問 題。第2節從單模態信息的表示方法、多模態信息 的融合階段、融合模型的網絡結構、未對齊模態和模 態缺失情況下的多模態融合等角度介紹主流的多模 態融合方法。第3節介紹多模態預訓練技術,並從 模型的網絡結構、模型的輸入、預訓練目標、預訓練 語料和下遊任務等維度對比最新提出的多模態預訓 練模型。第4節介紹多模態技術在工業界的應用。 最後一節是總結和對未來工作的展望。

2. 多模態應用

我們分析了最近兩年在自然語言處理領域國際 學術會議上(ACL、EMNLP、NAACL)發表的多模 態信息處理的論文,並從應用的角度對論文進行了 分類。關注度較高的多模態應用如圖1所示。本節將對這些應用展開介紹。除此之外,多模態應用還 包括視聽語音識別(Audio-VisualSpeechRecognition)、多 模 態 語 言 分 析 (Multimodal Language Analysis)和視覺輔助的句法分析[4]等。文獻[4]還 獲得 NAACL2021的最佳長文獎。

1.1 多模態情感識別

情感是人類區別於機器的一個重要維度,而人 的情感往往又是通過語音、語言、手勢、動作表情等 多個模態表達的。在交互場景下,多模態情感識別 研究如何從人的表情和動作手勢、語音音調、語言等 多模態信息中理解用戶細顆粒度的情感表達,進而 指導人機交互策略。其主要研究內容有:①基於 多模態信息互補性和異步性的動態融合;②高噪 聲環境下對於模態模糊或模態缺失問題的魯棒性 融合;③客服和營銷等自然交互情境下的情感識 別等。 多模態情感識別的常用數據集有IEMOCAP [5]、 CMU-MOSI [6]、CMU-MOSEI [7]、CH-SIMS [8] 和 IVD [9]等。 數 據 集 的 多 維 度 比 較 如 表 1 所 示。 IEMOCAP數據集收錄了10位演員的表演數據,包 含視頻、語音、麵部運動捕捉和文本模態,並標注了 高興、悲 傷、恐 懼 和 驚 訝 等 共 9 類 情 感。CMUMOSI數據集收錄了89位講述者的2199條視頻 片段,每段視頻標注了7類情感。CMU-MOSEI數 據集是 CMU-MOSI的擴展版,收錄了 1000 多名 YouTube主播的 3228 條視頻,包括 23453 個句 子,每個句子標注了7分類的情感濃度(高度負麵、 負麵、弱負麵、中性、弱正麵、正麵、高度正麵)和6分 類的情 緒 (高 興、悲 傷、生 氣、恐 懼、厭 惡、驚 訝)。 CH-SIMS數據集是一個中文多模態情感分析數據 集,該數據集為2281個視頻片段標注了細顆粒度的情感標簽。IVD 是從中文語音助手的真實用戶 對話日誌中抽取的語音情感數據集,包括500000 條無標注的語音數據和2946條帶6分類情感標注 的語音數據。

隨著圖文和短視頻等新興社交媒體的迅速發 展,人們在社交平台上的表達方式也變得更加豐富。 社交場景下的多模態情感識別主要研究基於圖文表 達的情感傾向[10]和方麵級的細顆粒度情感[11]等。

1.2 視覺-語言生成

視覺(圖像或視頻)到語言的生成和語言到視覺 (圖像或視頻)的生成打破了計算機視覺和自然語言 處理兩個領域的邊界,成為多模態交叉學科中最熱 門的 研 究 課 題。2021 年 初,OpenAI推 出 的 基 於 GPT-3的語言到視覺的生成模型 DALL-E① 可以根 據自然語言的描述生成逼真的圖像,產生了較大的反 響。本節主要介紹視覺到語言生成的相關應用。

1.2.1 圖像描述

圖像描述(ImageCaptioning)是對給定的一幅 自然圖像生成一句自然語言描述的任務。2015年 以前,圖像描述的主流方法是基於模板的方法。其 基本思想是檢測圖像中的物體、動作,並將這些詞作 為主語、動詞和賓語等填寫到預定義的模板中。從 2015年開始,基於視覺編碼器(CNN 等)和語言解 碼器(RNN/LSTM 等)的序列到序列(Sequence-toSequence,Seq2Seq)框架廣泛應用於這一任務。通 過從 視 覺 圖 像 中 解 析 出 屬 性 (Attribute)、關 係 (Relation)和結構(Hierarchy)等高層語義信息,並 將這些語義信息融入視覺編碼和語言解碼中,提高 了圖像描述的生成效果。 圖像描述任務的常用數據集有 MSCOCO [12]、 Conceptual Captions [13]、 Flickr30K [14]、 Visual Genome [15]和SBUCaptions [16]。MSCOCO 數據集 是微軟發布的可用於目標檢測(ObjectDetection)、 人體姿勢識別(DensePose)、關鍵點檢測(Keypoint Detection)、實例分割(StuffSegmentation)、全景分 割 (PanopticSegmentation)、圖 片 標 注 (Category Labelling)和圖 像 描 述 (ImageCaptioning)的 數 據集。該數據集有91類物體(人、貓和卡車等),共計 32.8 萬 幅 圖 像,每 幅 圖 像 包 含 5 個 英 文 描 述。 ConceptualCaptions數據集收錄了330萬幅“圖像, 描述”對,是目前最大的多模態數據集,其中的圖像 有自然圖像、產品圖像、專業照片、卡通和繪圖等類 型,描 述 取 自 HTML 中 的 Alt-text屬 性 字 段 值。 Flickr30K 收錄了來自 Flickr的共計31783幅日常 活動、事件和場景的圖像,每幅圖像通過眾包方式標 注了5個圖像描述。VisualGenome是基於10.8萬 幅圖像的 大 規 模 多 模 態 數 據 集,該 數 據 集 標 注 了 380萬個對象、280萬個屬性、230萬個關係、170萬個 “圖像、問題、答案”三元組和540萬個區域描述。圖 像中的對象、屬性、關係、區域描述和視覺問答中的名 詞與短語還被歸一化到相應的 WordNet同義詞集

1.2.2 視頻描述

視頻描述(VideoCaptioning)是對給定的一段 視頻(通常是幾十秒的短視頻)生成一句準確、細致 描述的任務。視頻除了圖像信息外,還包括時序和 聲音等信息。視頻描述可提取的特征更多,技術挑 戰也更大。 視頻描述任務的常用數據集有 MSR-VTT [17]、 ActivityNet-Captions [18]、YouCook2 [19] 和 ACTIONS [20] 等。MSR-VTT數據集由1萬個網絡視頻剪輯、20萬 “視頻,描述”對組成。MSR-VTT數據集涵蓋了音樂、 遊戲、體育、教育等20多個類別的視覺內容,每個視頻 剪輯時長10~20秒,人工為每個視頻剪輯標注了20個 描述句子。YouCook2數據集是一個烹飪教學視頻數 據集,包括89個食譜的2000個未經剪輯的教學視頻(最長10分鍾,平均5分鍾)。ACTIONS是首個無需 人工標注、從數以億計的網頁內容中自動提煉“視頻, 描述”對的視頻描述數據集,總共包含了163183個 GIF視頻。

1.2.3 視覺敘事

視覺敘事(VisualStorytelling)要求模 型 對 於 給定的圖像序列,在深度理解圖像序列的基礎上生 成連貫的敘事故事。相比於圖像描述和視頻描述, 視覺敘事更具挑戰性。在視覺理解上,視覺敘事的 輸入是有時序關聯的圖像序列,需要模型具備根據 曆史視覺事件推測當前的視覺事件的能力。在語言 生成上,對比圖像描述和視頻描述中的客觀文字描 述,視覺敘事的輸出由更多評價性、會話性和抽象性 語言組成。SIND [21]是一個視覺敘事數據集,該數 據集收集了81743幅圖片,以及排列成符合文字描 述和故事情節的20211個序列。

1.3 視覺問答和多模態對話

1.3.1 視覺問答

視覺問答(VisualQuestionAnswering,VQA)[22-27] 是2015年新提出的任務,簡單來說就是圖像問答。 給定一幅圖像和一個關於該圖像的開放式自然語言問題,要求模型準確回答該問題。視覺問答是一個典 型的多模態問題,需要模型具備物體定位、屬性檢測、 事件分類、場景理解和推理及數學計算等能力。根據 圖 片 類 型 的 不 同,VQA 又 分 為 自 然 圖 像 理 解 VQA [22-23]、合成圖像推理 VQA [24]和自然圖像推理 VQA [25]。表2列舉了這3種 VQA的示例。 VQA常用數據集有 VQAv1/v2 [22-23]、CLEVR [24] 和 GQA [25]。VQAv1/v2是自然圖像理解 VQA 數 據集,VQAv2 解 決 了 VQAv1 中 明 顯 的 語 言 先 驗 (LanguagePriors)問題。CLEVR [24]是合成圖像推 理問答數據集。CLEVER 中的圖像由簡單的幾何 形狀的物體組成,旨在測試模型對組合式語言的理 解能力和對視覺場景的推理能力。CLEVR 數據集 中的圖像是程序合成的,其場景的複雜度與自然場 景相去甚遠。對此,Hudson等人[25]發布了基於自 然圖像的組合式問題視覺問答數據集 GQA,該數據 集包括關於11.3萬幅圖像的超過2000萬的問題。 每幅圖像都標注了一個場景圖(SceneGraph),表示 圖像中的對象、屬性和關係。每個問題都對應一個 功能性程序(FunctionalProgram),列出了獲得 答 案所需執行的一係列推理步驟。每個答案都有與之 對應的驗證信息,指向圖片中的相關區域。

1.3.2 視覺對話

視覺對話(VisualDialog)[28-32]是給定一幅圖像 (或視頻等視覺內容)和一個上下文相關的問題,要 求模型根據圖片(或視頻)內容回答該問題。與視覺 問答相比,視覺對話還要解決對話中特有的挑戰,如 共指(Co-references)和省略(Ellipsis)等。視覺對話 也被認為是視覺圖靈測試。視覺對話常用數據集有 VisDial [28]、IGC [29]、GuessWhat [30]、Image-Chat [31] 和 AVSD [32]。VisDial中的問題和答案都是形式自由的。GuessWhat是通過一係列“是/否”問題發現 圖像中的物體。IGC是一個閑聊型的視覺對話數據 集,但閑聊的話題受限於給定的圖像。Image-Chat 也是一個閑聊型視覺對話數據集。與IGC 不同的 是,Image-Chat數據集還限定了對話參與者 A 和 B 的風格特征。AVSD 定義了一個視聽場景的多輪 對話任務,要求機器在理解問題、對話曆史和視頻中 的場景等語義信息的基礎上回答用戶問題。 視覺對話中的用戶問題隻與單個圖像(視頻)相關,且用戶問題和模型回答都是文字的。

1.3.3 多模態對話

多模態對話(MultimodalDialog)關注更接近人 類自然對話的多模態人機對話技術的研究。它與上 一節介紹的視覺對話的主要差異有:①多模態對話 給定的輸入圖像可能是多幅的;② 隨著對話的推 進,圖像是不斷更新的;③用戶問題和模型的回答 可以是文本的、圖像的或者圖文結合的;④模型可 能需要查詢外部領域知識庫才能回答用戶的問題 (如購物者希望看到更多與特定商品相似的商品,或 者要求提供滿足某些特征的商品,或者查詢特定商 品的屬性等);⑤模型可能需要通過反問等對話策 略澄清用戶需求。零售和旅遊等限定領域的多模態 對話最近受到了越來越多的關注。常用的麵向購物場景的多模態對話數據集有 MMD [33]、SIMMC [34]和JDDC [35]。MMD 是在服飾 專家的指導下通過模擬扮演(Wizard-of-Oz,WoZ)的 方式收集的時尚購物場景的數據集。SIMMC2.0是 時尚和家 具 購 物 場 景 的 數 據 集。其 中,時 尚 和 家 具雜亂的購物場景是通過逼真的 VR 場景生成器 (VRSceneGenerator)生成的。與 MMD 和 SIMMC 不同,JDDC2.0是從電商平台客服和消費者之間的 真實對話數據中采樣的(圖2)。JDDC2.0包括多模 態對話24.6萬,其中,圖片50.7萬張,平均對話 輪 數14輪。此 外,JDDC2.0還 提 供 了30205個商品的759種商品屬性關係,共計21.9萬的<商品ID、 屬性、屬性值>三元組。 視覺對話和多模態對話常用數據集的詳細對比 如表3所示。

1.4 多模態摘要

多模態摘要是基於對多模態輸入(文本、語音、圖 像和視頻等)的理解,歸納並生成單模態或者多模態 的概括性總結(摘要)的任務。根據具體任務類型,多 模態摘要又可細分為視頻會議摘要[36]、教學視頻摘 要[37]、多模態新聞摘要[38-42]和多模態商品摘要[43]。 視頻會議摘要方麵,Li等人[36]提出了一個從音 視頻會議 輸 入 中 提 取 會 議 文 本 摘 要 的 方 法,並 在 AMI數據 集 上 驗 證 了 方 法 的 有 效 性。AMI數 據集[44]包含 137 場視頻會議。每場會 議 持 續 30 分 鍾,包含4名參與者和約300字的文本摘要。 教學視頻摘要方麵,Palaskar等人[37]提出一種 融合視覺信息和文本信息(用戶生成的和語音識別 係統輸出的)的生成式文本摘要方法,同時在開放域 教學視頻數據集 How2 [45]上驗證了方法的有效性。 多模態新聞摘要方麵,Li等人[38]提出一種從異 步的多模態(文本、圖像、音頻和視頻)輸入中抽取文 本摘要的方法,並發布了中文和英文數據集 MMS。 Li等人[39]提出一種為“文本,圖像”對生成多模態摘 要的模型,同時發布了英文數據集 MMSS。Zhu等 人[41]提出了一種從異步的多模態(文本和多張圖 像)輸入中生成多模態(一段短文和一張圖片)摘要 的方法,同時發布了英文數據集 MSMO。 多模態商品摘要方麵,Li等人[43]提出了一種從 異構的多模態輸入(文本、圖像、商品屬性表)中生成 商品摘要的方法,同時發布了數據集 CEPSUM①。 CEPSUM 數據集由140萬“商品文本介紹,商品圖 片,文本摘要”三元組組成,涉及3個商品大類。

1.5 多模態對齊

多模態對齊研究多個模態不同顆粒度元素間的 對齊關係,具體又分為顯式對齊和隱式對齊。視覺語言跨模態的顯式對齊任務研究圖像和句子[46-47]、 圖像和詞[48]、圖像中的目標和句子中的短語[49-50]間 的對齊關係。多模態對齊方法可直接應用於多模態 檢索等應用,也可作為圖像描述、VQA、多模態預訓 練的訓練語料,尤其是在缺乏大規模多模態人工標 注語料的場景。 圖像和句子(或文檔內其他文本單元)間的顯式 對齊通常是不存在的。對此,Hessel等人[46]提出了 一種將同一網頁內的圖像和句子對齊的無監督方 法。該方法在7個難度不同的數據集上獲得了不錯 的性能。Suhr等 人[47]定 義 了 一 個 視 覺 推 理 任 務 NLVR2,對於給定的兩幅圖像和一段自然語言的描 述,要求模型判斷它們是否存在語義上的對齊關係。 文本預訓練語言模型已經取得了巨大的成功, 但該方法僅使用文本上下文信息作為監督信號,導 致詞的 上 下 文 表 示 學 習 嚴 重 依 賴 詞 的 共 現 關 係 (Co-occurrence),缺乏外部物 理 世 界 的 背 景 知 識。 為了給預訓練語言模型提供視覺監督信號,Tan等 人[48]提出了 Vokenization技術(圖3),其通過給文 本中的每一個詞打上一幅圖像的標簽,實現在大規 模文本語料上自動構建多模態對齊語料庫。在大規模圖像-詞彙對齊的多模態語料庫上訓練的預訓練 語言模型可增強其對自然語言的理解能力。實驗證 明,該 模 型 在 多 個 純 文 本 的 任 務 上 (如 GLUE、 SQuAD和SWAG 等)均獲得了顯著的性能提高。

圖像中的目標和文本中的短語對齊也被稱為圖 像短語定位(PhraseGrounding),可用於提高圖像 描述、VQA、視 覺 導 航 等 視 覺-語 言 下 遊 任 務 的 性 能。Plummer等人[49]發布了一個大規模的短語定 位數 據 集 Flickr30kEntities,如 圖 4 所 示。Wang 等人[50]提出了一種基於細粒度視覺和文本表示的 多模態對齊框架,在 Flickr30kEntities數據集上顯 著提高了短語定位的性能。

視頻定位(VideoGrounding)[51]是多模態對齊中另 一項 重 要 且 具 有 挑 戰 性 的 任 務。給 定 一 個 查 詢 (Query),它要求模型從視頻中定位出與查詢語言對應 的一個目標視頻片段。該技術可應用於視頻理解、視 頻檢索和人機交互等場景。常用數據集有 CharadesSTA [52]、ActivityNet-Captions [53]和 TACoS [54]。CharadesSTA 數據集是基於 Charades數據集[55]構建的,包括 6672個視頻和16128個“查詢,視頻片段”對。ActivityNet-Captions數據集包含兩萬個視頻和10萬個“查 詢,視頻片段”對,其覆蓋的視頻類型更多樣。TACoS 數據集包含127個烹飪視頻和18818個“查詢,視頻 片段”。

1.6 多模態翻譯

多模態翻譯是將多模態輸入(文本、圖像或視頻 等)中的源語言文本轉換為目標語言文本的過程。 多模態翻譯的目標是在視覺等多模態信息的輔助 下,消除語言的歧義,提高傳統文本機器翻譯係統的 性能。 Elliott等人[56]於2015年首次提出多模態翻譯 任務。隨後,在2016年舉辦的第一屆機器翻譯會議 上成功組織了第一屆多模態機器翻譯比賽,並於接 下來的兩年連續舉辦了兩屆比賽,引發了研究者們 對多模態機器翻譯的關注熱潮。目前的工作主要集 中在 Multi30k數據集[57]上。該數據集是英語圖像 描述數據集 Flickr30k [14]的多語言擴展,每幅圖像 配有一個英語描述和一個德語描述,任務定義為給 定圖像和英語描述,生成德語描述。 模型方麵,Huang等人[58]首先從圖像中提取視 覺全局表示(參見2.1.1節的介紹)和視覺目標表示 (參見2.1.3節的介紹),提取的視覺表示被視為源 語言中特殊的單詞與文本拚接,再融入編碼器-解碼 器神經網絡翻譯模型中的編碼器中。在 Calixto等 人[59]提出的模型中,視覺特征被視為源語言中特殊 的單 詞,或 者 融 入 編 碼 器 中,或 者 融 入 解 碼 器 中。 Calixto等人的模型顯著提 高 了 模 型 的 翻 譯 效 果。 文獻[58-59]中的模型依賴大量的多模態翻譯對齊 語料 (源 語 言、圖 像、目 標 語 言)。對 此,Elliott等 人[60]將多模態機器翻譯分解為兩個子任務:文本 翻譯 和 基 於 視 覺 的 文 本 表 示 (Visually Grounded Representations)。該模型不依賴昂貴的(源語言、 圖像、目標語言)對齊語料。模型可以分別在文本翻 譯語料(源語言,目標語言)和圖像描述(圖像,源語 言)語料上訓練。受文獻[60]的啟發,Zhou等人[61]提 出 了 一 種 機 器 翻 譯 任 務 和 視 覺-文 本 共 享 空 間 (Vision-TextSharedSpace)表示學習任務相結合 的多 任 務 多 模 態 機 器 翻 譯 框 架 (VAG-NMT)。 VAG-NMT 首先把文獻[60]中的基於視覺的文本 表示(即從文本表示重建圖像)修改為視覺-文本共 享空間表示學習。其次,VAG-NMT 還提出了一種 視覺文本注意機製,可以捕獲與圖像語義強相關的 源語言中單詞。多模態機器翻譯中的視覺信息隻在 非常特殊的情況下(如文本上下文不足以消除歧義 詞的歧義)對翻譯模型有幫助。對此,Ive等人[62]提 出了一 種 翻 譯-優 化 (Translate-and-refine)的 兩 段 式翻譯方法。該方法先翻譯源語言中的文本,再使 用視覺目標表示對第一階段的翻譯文本進行調整。 大多數的多模態機器翻譯模型沒有考慮不同模態的 相對重要性,但同等對待文本和視覺信息可能會引 入一 些 不 必 要 的 噪 聲。Yao 等 人[63]基 於 Transformer,提出了一種多模態自注意機製,探索了如何 消除視覺特征中的噪音信號。一方麵,單層多模態 注意力模型難以有效提取視覺上下文信息,另一方 麵,多層多模態注意力模型容易導致過擬合,尤其是 對訓練數據少的多模態翻譯。對此,Lin等人[64]提 出一種基於動態上下文指導的膠囊網絡(Dynamic Context-guidedCapsuleNetwork,DCCN)提取和利 用兩種不同顆粒度(視覺全局表示和視覺區域表示) 的視覺信息。也有研究者對多模態翻譯的可解釋性 進行了探索。Wu等人[65]的研究表明,視覺特征對 多模態翻譯的幫助來自於正則化,視覺特征的合理 選取對模型性能至關重要。

1.7 多模態信息抽取

命名實體識別(NER)是指識別自由文本中的 具體特定意義的實體(如人名、地名和組織機構名 等)。命名實體識別雖然取得了較大的成功,但對於 社交媒體中大量的用戶生成內容(User-Generated Content,UGC),僅根據文本模態的信息來定位和 分類其中的實體仍然存在一些挑戰。多模態命名實 體識別(MNER)通過引入視覺、語音等其他模態作 為文本模態的補充,識別社交媒體中高噪聲短文本 中的實體,最近幾年受到了比較多的關注。 模型方麵,Moon等人[66]首次提出了融合圖像 和文本模態信息的通用多模態注意力模型。文獻 [66]還發布了 SnapCaptions數據集,該數據集由1 萬張“圖像,短文本標題”對構成,並標注了短文本標 題中 的 四 類 命 名 實 體 (實 體 類 型:PER、LOC、ORG、MISC)。一方麵,文獻[66]中的方法提取的 是圖像的視覺全局表示,這可能把圖像中的噪聲信 息也引入到模型中。另一方麵,視覺和文本模態的 特征融合較簡單。對此,Zhang等人[67]提出了一種 自適應 的 協 同 注 意 力 網 絡 (AdaptiveCo-attention Network,ACN)。ACN 首先提取圖像的視覺區域 表示(參見2.1.2節的介紹),再通過文本到視覺和 視覺到文本的協同注意力剔除圖像中的噪聲信息, 以提高 MNER的性能。文獻[67]在內部數據集上 驗證了該方法的有效性。基於類似的出發點,Lu等 人[68]提出了一種注意力機製與門控機製相結合的 模型提取視覺圖像中與文本最相關的區域的特征。 該模型可忽略不相關的視覺信息。文獻[68]基於注 意力機製獲取了單詞感知(word-aware)的視覺表 示,卻忽略了圖像感知(image-aware)的單詞表示。 對此,Yu等人[69]首次將 Transformer應用於多模 態 NER任務中,並提出了實體片段檢測輔助任務, 進一步消除視覺偏差,提升了模型效果。 Sui等人[70]提出了融合語音和文本信息的多模 態 NER,並在自建的中文數據集 CNERTA 上驗證 了方法的有效性。 多模態信息抽取領域中另一個受到較多關注的 研究方向是多模態商品屬性抽取。多模態商品屬性 抽取是指從給定商品文本描述和商品圖片中抽取商 品的屬性信息,例如商品的“顏色”“材料”等屬性值。 為了推動多模態商品屬性抽取的研究,IV 等人[71] 發布了 首 個 大 規 模 多 模 態 屬 性 提 取 英 文 數 據 集 MAE。MAE包含400萬圖片和760萬“屬性-屬性 值”對。文獻[71]提出的多模態屬性抽取模型需要 對每一個屬性識別其對應的屬性值,且無法濾除視 覺噪聲。為了提高模型的效率,Zhu等人[72]將屬性 預測和屬性值抽取建模為一個層疊化的多任務學習 過程,實現了多個屬性及其對應屬性值的一次性識 別,且視覺全局表示和視覺區域表示通過門控機製 和文本信息融合,可有效過濾視覺噪聲。Zhu等人 還發布了一個包含9萬“屬性-屬性值”對的多模態 商品屬性抽取中文數據集 MEPAVE。

2 多模態融合

多模態融合將多個單模態表征整合成為一個多 模態信息表征,它是多模態信息處理的核心問題。多 模態融合的示例如圖5所示,其中,Ni{i=1,…K} 表示單模態表示學習模型的模型深度,M 表示K 個多模態表示的融合模型深度。多模態融合的研究方 向有:基於多模態互補性的全模態融合問題、模態 模糊或者模態缺失下的魯棒性融合問題、非對齊的 多模態融合問題等。目前,大部分工作是關於模態 對齊且無模態缺失情況下的多模態融合算法研究, 這也是多模態融合中最基礎的挑戰。本節根據單模 態的特征表示、多模態融合的階段、多模態融合的模 型結構等對多模態融合方法進行分類介紹。

2.1 根據單模態表示進行分類

單模態的特征表示是多模態融合的基石。這一 類方法重點研究如何在多模態融合之前提取更好的 單模態特征表示。以視覺-語言-音頻多模態應用為 例,如何從視覺內容中解析出高層語義信息以增強 視覺特征表達是這一類方法的主要研究內容。例 如,從視覺內容中識別目標(Object)、屬性(Attribute)、動作(Action)、關係(Relation)、場景圖(Scene Graph)[73-75]和樹形語義結構(Hierarchy)[76]等,進 而 實 現 對 視 覺 內 容 的 全 局 (Global)、區 域 (Regional)、目標(Object)和關係(Relation)等顆粒 度的視覺語義建模。語言表示通常使用詞的獨熱編 碼表示、詞 的 上 下 文 表 示 (ContextualRepresentation)[77-78]、句子表示[79-80]、句法依存關係(Syntactic Dependency)表示[81]、場景圖表示[82]等。音頻表示 可使用 基 於 COVAREP [83]提 取 底 層 聲 學 特 征 表 示[85]、基於預訓練模型 wav2vec [84]提取低維特征向 量表示[85]等。本節側重介紹多模態融合中的視覺 特征表示方法。

2.2 根據融合階段進行分類

根據多模態融合的階段,多模態融合方法可分 為早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早 期融合的特點是單模態表示學習簡單,而多模態融 合部分的模型深度大,融合策略複雜。例如,詞的獨 熱編碼 表 示 和 視 覺 區 域 表 示 直 接 參 與 多 模 態 融 合[93]。晚期融合的特點是單模態表示學習模型複 雜,多模態融合一般采用拚接、按位乘/求平均等簡 單策略[92]。由於晚期融合抑製了模態之間的交互, 目前大部分基於深度學習的模型均使用早期或者中 期融合。在第3節介紹的多模態預訓練模型中,基 於單流架構(Single-Stream)的預訓練模型把融合操 作 放 在 早 期 階 段,如 VideoBERT [94]、UnicoderVL [95]、Oscar [96]、VL-BERT [97]和 M3P [98]等。基於 雙流架構(Two-Stream)的預訓練模型則把融合操 作 放 置 在 深 層 模 型 的 中 期 階 段 的 多 個 層 中,如 ERNIE-ViL [82]、LXMERT [91]、ActBERT [99]和 ViLBERT [100]等。

2.3 根據融合方式進行分類

多模態融合模型的設計是多模態融合的關鍵研 究點。我們將多模態融合模型分為簡單融合、門控 融合(Gating)、注意力融合(Attention)、Transformer 融合、圖模型融合(GraphFusion)和 雙 線 性 注 意 力 (BilinearAttention)融合共六類方法。常見簡單融合 方法包括編碼器、解碼器的初始化(參見1.6 節和 2.1.1節)、拚接、按位乘/求和/求平均等操作。本節 主要介紹其餘的五類較複雜的融合方法。

3 多模態預訓練

通過預訓練語言模型從海量無標注數據中學習 通用知識,再在下遊任務上用少量的標注數據進行 微調,已經成為自然語言處理領域成熟的新範式。 從2019年開始,預訓練語言模型(BERT [101]、GPT3 [102]、BART [117]和 T5 [118]等)相繼被擴展到多語言 和多模態等場景。 相對於文本預訓練語言模型,多模態預訓練模 型可以更好地對細顆粒度的多模態語義單元(詞或 者目標)間的相關性進行建模。例如,基於語言上下 文,被掩碼的詞“ontopof”可以被預測為符合語法 規則的詞“under”或“into”等。但這與關聯的圖片 場景“貓在車頂”不符。通過多模態預訓練,模型從 圖像中捕獲“汽車”“貓”之間的空間關係,從而可以準 確地預測出掩碼詞是“ontopof”[82]。大部分的多模 態預訓練模型是在視覺-語言對齊數據上進行的。例 如,使用圖像和文本對齊數據集(MSCOCO [12]、ConceptualCaptions [13]、VisualGenome [15] 和 SBU Captions [16]等)訓練的跨模態預訓練模型 LXMERT [91]、 Oscar [96]、VL-BERT [97]和ViLBERT [100],M3P [98]。使 用視頻和文本對齊數據集訓練的 VideoBERT [94]和 ActBERT [99]等[119-120]。Liu等人[85]最近還發布了視 覺、文本、語音三模態預訓練模型 OPT。 本文表5中從網絡結構、模型輸入、預訓練目標、 預訓練語料和下遊任務等維度對比了最新的視覺-語 言跨模態預訓練模型 ERNIE-VIL [82]、LXMERT [91]、 LightningDOT [92]、E2E-VLP [93]、Unicoder-VL [95]、 Oscar [96]、VL-BERT [97]、M3P [98]、ViLBERT [100]、 TDEN [121]、UNIMO [122]。

表 5 中 的 表 示 “圖像,語言”對,I表示一幅圖像,w=w1,…,wT 表 示長度為T 的文本表示。g=g1,…,gG 是圖像區 域表示,q=q1,…,qK 和v=v1,…,vK 分別表示圖 像中的目標的文本表示和目標的視覺表示。g 和 v的提 取 可 參 考 2.1 節 的 介 紹。 此 外,[SEP]、 [IMG]、[CLS]等 特 殊 標 記 用 來 分 割 不 同 模 態。 MLM(MaskedLanguage Model)是根據未掩碼的 詞 和 圖 像 區 域 預 測 掩 碼 單 詞。 MOC(Masked ObjectClassification)根據未掩碼的圖像區域和文 本預 測 掩 碼 區 域 的 目 標 類 別。 MOR (Masked ObjectRegression)根據未掩碼的圖像區域和文本 預 測 掩 碼 區 域 的 特 征 表 示。 MSG (Masked SentenceGeneration)根據輸入圖像逐字生成句子。 VQA 根據輸入的圖像和該圖像相關問題預測該問 題的答案。CMCL 是跨模態對比學習任務。VLM 是預測圖像-文本對是否語義一致。

從表5中的11個圖像-語言跨模態預訓練模型 的對比,我們發現的跨模態預訓練模型的特點如下: ①單流模型和雙流模型均被廣泛采用。雖然雙流模 型可以適應每種模態的不同處理需求,但目前尚無 完整的實驗證明雙流模型優於單流模型。②多模態 預訓練模型從應用於多模態理解任務或多模態生成 任務發展到可兼顧多模態理解和生成兩大任務的統 一模型。③相對動輒上百 G 甚至 T 級別的單模態 數據,多模態對齊數據的規模有限。最新的多模態 預訓練模型可以利用互聯網上的大規模非對齊的文 本數據、圖像數據、以及文本-圖像對齊數據學習更 通用的文本和視覺 表 示,以 提 高 模 型 在 視 覺 和 語 言的理解和生成能力,如 M3P和 UNIMO。④多 模態預訓 練 模 型 從 僅 應 用 於 多 模 態 下 遊 任 務 發 展到可同 時 應 用 於 單 模 態 下 遊 任 務 和 多 模 態 下 遊任務。 上述的多模態預訓練模型需要在大量圖像文本 的對齊語料上進行訓練。然而,此類數據的收集成 本昂貴,很難擴大規模。受無監督機器翻譯[123-124] 的啟發,Li等人[125]提出了一種不依賴圖像-文本對 齊語料的預訓練 U-VisualBERT,該預訓練模型的 輸入是一批文本數據,或一批圖像數據,並通過圖像 中物體標簽作為錨點(AnchorPoints)對齊兩種模態。U-VisualBERT 在四個多模態任務上取得與使 用多模態對齊數據訓練的預訓練模型接近的性能。 該方向可能會是接下來的一個研究熱點。

4 結束語

多模態信息處理是一個典型的多學科交叉領 域。最近幾年,多模態信息處理受到自然語言處理、 計算機視覺和語音與聲學領域研究者的廣泛關注。 本文從自然語言處理的視角出發,首先介紹了目前 熱點的多模態應用,接著介紹了多模態的三個重要 研究方向及其主流方法:即視覺的單模態表示(視 覺全局表示、視覺區域表示、視覺目標表示和視覺場 景圖表示)、多模態融合(簡單融合、門控融合、注意 力融合、Transformer融合、圖模型融合和雙線性注 意力融合)和通用的多模態預訓練。最後,本文對多 模態技術在產業界的應用進行了簡要的描述。

多模態信息處理還有很多亟待進一步研究的課題。我們認為,以下五個方向將是多模態信息處理 技術領域未來重要的研究內容:①非對齊語料上的 多模態信息處理。目前,大多數下遊的多模態任務 和多模態預訓練模態都依賴多模態對齊語料。相對 動輒上百 G 甚至 T 級別的單模態語料,多模態對齊 語料的規模還是很有限。探索如何在海量非對齊多 模態語料上訓練多模態模型具有非常實用的價值, 也是多模態領域需要重點關注的課題之一。此方向 已經有了初步的探索。例如,利用多模態對齊技術 將 海 量 的 單 模 態 語 料 與 其 他 模 態 進 行 自 動 對 齊[48,122]。②麵向單模態和多模態的理解和生成任 務的統一模型。當前的主流模型或麵向單模態理解 (或生成)或麵向多模態理解(或生成)的模型,構建 一個既適用於單模態理解與生成任務,又適用於多 模態理解與生成任務的統一模型是未來非常重要的 研究方向。多模態模型在文本任務上的性能未來可 能會超過單模態模型[48,122]。③高噪聲環境下的多 模態魯棒性融合。真實場景常常有較強的背景噪 聲,部分模態的數據通常是模糊或缺失的。因此,探 索如何在高噪聲情況下獲得信息缺失的有效表征, 提高模型預測魯棒性和準確性是多模態領域重要的 研究課題之一。文獻[116]提出一種基於缺失模態的想 象 網 絡 (Missing ModalityImagination Network,MMIN)對該方向進行了初步的探索。④ 多 模態與知識的融合。2.1節介紹的從視覺內容中提 取視覺粗粒度特征表示和基於視覺場景圖的細顆粒 度特征表示,其目的都是增強視覺特征表示。我們 認為,如何提取更精細粒度的視覺特征表示是多模 態領域重要的基礎研究方向之一。引入知識圖譜作 為圖像實體信息的補充,從而進行知識增強的視覺 特征表示是該方向一種探索思路[126-127]。⑤複雜交 互情境下的多模態應用。第1節介紹了多模態信息 處理技術的多個應用場景。我們認為,數字人、元宇 宙(Metaverse)是多模態信息處理技術最佳的應用 場景之一,探索複雜交互情境下的多模態信息處理 是多模態領域未來最重要的研究方向之一。

成為VIP會員查看完整內容
61
0

在當今世界,深度學習源代碼和大量開放獲取的地理空間圖像很容易獲得和訪問。然而,大多數人缺少利用這一資源的教育工具。使用開源軟件對遙感圖像進行深度學習是第一本介紹使用免費開源工具處理真實世界遙感圖像的深度學習技術的實用書籍。本書中詳細介紹的方法是通用的,可以適用於遙感圖像處理的許多不同應用,包括土地覆蓋測繪、林業、城市研究、災害測繪、圖像恢複等。在頭腦中與從業者和學生一起寫,這本書幫助把現有工具和數據的理論和實際使用聯係在一起,在遙感圖像和數據上應用深度學習技術。

  • 第一本解釋如何使用開源軟件(QGIS, Orfeo ToolBox, TensorFlow)將深度學習技術應用於公共的、免費的數據(Spot-7和Sentinel-2圖像,OpenStreetMap向量數據)的書。

  • 提出了適合於大規模處理和GIS應用的真實世界圖像和數據的方法

  • 介紹了可應用於遙感世界的最先進的深度學習架構家族,主要用於土地覆蓋製圖,但也用於通用方法(如圖像恢複)

  • 適合深度學習初學者和具有一些GIS知識的讀者。學習實際技能不需要編碼知識。

  • 包括深度學習技術通過許多步驟遙感數據處理練習。

成為VIP會員查看完整內容
60
0

因果推理的一般形式理論,是對因果模型、推理和推理的邏輯研究。

在這本書中,Alexander Bochman提出了因果推理的一般形式理論,作為對因果模型、推理和推理的邏輯研究,其基於的假設是,因果推理不是邏輯推理的競爭對手,而是對缺乏邏輯充分數據或知識的情況的補充。Bochman還探討了這一理論與 Judea Pearl 提出的流行的因果關係結構方程方法的關係,並探討了從人工智能到法律理論的幾個應用,包括綁架、反事實、實際和近似因果關係、動態因果模型,以及關於人工智能中的行動和變化的推理。

https://mitpress.mit.edu/books/logical-theory-causality#:~:text=In%20this%20book%2C%20Alexander%20Bochman,logically%20sufficient%20data%20or%20knowledge.

作為邏輯準備,在引入因果概念之前,Bochman為經典邏輯描述了另一種基於情景的語義,它可以更好地理解純邏輯手段可以捕捉到什麼。然後,他提出了另一個先決條件,概述了與他自己的理論相關的非單調推理的一般理論的那些部分。這兩個組成部分為因果演算的主要兩層形式主義提供了邏輯背景,作為他的理論的形式基礎。他提出了主要的因果形式主義的書作為一個自然概括的經典邏輯,允許因果推理。這為後續章節提供了正式的背景知識。最後,Bochman將因果推理推廣到動態域。

成為VIP會員查看完整內容
52
0

人工智能將改變醫療健康的方方麵麵,包括我們管理個人健康的方式,從客戶體驗和臨床護理到降低醫療保健成本。這本實用的書是第一本描述AI可以幫助解決有害的醫療保健問題的當前和未來用例的書。

https://www.oreilly.com/library/view/ai-first-healthcare/9781492063148/

Kerrie Holley和Siupo Becker提供指導,幫助信息學和醫療保健領導為醫療保健創建AI戰略和實施計劃。有了這本書,業務利益相關者和實踐者將能夠建立知識、路線圖和信心來支持他們組織中的人工智能——而不會陷入算法或開源框架的泥潭。

由AI技術專家和利用AI解決醫療保健最困難的挑戰的醫生共同撰寫的這本書涵蓋: 人工智能的神話和現實,現在和未來 以人為本的人工智能:它是什麼以及如何使它成為可能 利用各種人工智能技術超越精準醫療 如何利用物聯網和人工智能環境計算提供患者護理 人工智能如何幫助減少醫療浪費 AI策略和如何識別高優先級AI應用

成為VIP會員查看完整內容
59
0

OpenIntro Statistics涵蓋了統計的第一門課程,提供了應用統計的嚴格介紹,清晰,簡潔,可訪問。這本書是為本科水平而寫的,但它在高中和研究生課程中也很受歡迎。我們希望讀者能從本書中獲得三個觀點,除此之外,還能形成統計思維和方法的基礎。

  • 統計學是一個具有廣泛實際應用的應用領域。
  • 你不必成為數學大師,也能從真實有趣的數據中學習。
  • 數據是混亂的,統計工具是不完美的。但是,當你了解這些工具的優點和缺點時,你就可以用它們來了解這個世界。

本書各章節內容如下:

1. 介紹數據。數據結構、變量和基本的數據收集技術

2. 總結數據。數據摘要、圖形和隨機化

3.概率。概率的基本原理。

4. 隨機變量的分布。正態分布和其他關鍵分布

5. 推理的基礎。在估計總體比例的情況下,統計推斷的一般思想。

6. 分類數據的推理。使用正態分布和卡方分布推斷比例和表。

7. 對數值數據的推斷。使用t分布推斷一個或兩個樣本平均值,比較兩組的統計力量,也使用方差分析的許多平均值的比較。

8. 線性回歸概論。回歸一個預測變量的數值結果。本章的大部分內容可以在第1章之後進行介紹。

9. 多元和邏輯回歸。使用多種預測器對數值和分類數據進行回歸。

成為VIP會員查看完整內容
48
0

斯考克羅夫特戰略與安全中心致力於製定可持續的、無黨派的戰略,以應對美國及其盟友和夥伴麵臨的最重要的安全挑戰。該中心支持美國在與盟國、夥伴的合作中發揮領導作用,以及對培養下一代領導人提供指導。

執行摘要

在過去的幾年裏,世界各地的軍隊對發展人工智能(AI)的興趣和投資有所增加,以支持一係列多樣化的國防和國家安全目標。然而,對於什麼是人工智能,它如何影響美國和中國之間的戰略競爭,以及如何為這個部署軍事人工智能的新時代優化國防工業基礎,仍然缺乏普遍的理解。現在已經到了在人工智能方麵見仁見智的時候了,在政策界和技術界之間建立對現代人工智能的共同理解,並在國防部(DoD)和其工業夥伴之間統一觀點和優先事項。因此,本文討論了以下核心問題。

(1)什麼是人工智能,為什麼國家安全政策製定者應該關心?

人工智能的能力有可能為美國國家安全和國防帶來改變遊戲規則的優勢,包括

  • 大大加快和改善決策。
  • 加強軍事準備和作戰能力。
  • 提高人類的認知和身體能力。
  • 設計、製造和維持軍事係統的新方法。
  • 具有能打破微妙的軍事平衡的新能力。
  • 創造和檢測戰略網絡攻擊、虛假信息運動和影響作戰的能力。

對人工智能作為威懾和贏得未來戰鬥所必需的關鍵能力,在美國防部內部得到了重視,美國防部在過去五年裏對人工智能進行了顯著的投資。但是,五角大樓以外的政策製定者,以及公眾和正在開發人工智能技術的公司,都需要更好地了解當今人工智能的能力和局限性,並清楚地認識到人工智能對國家安全的積極影響和潛在的破壞性影響。

(2)為什麼人工智能對戰略競爭至關重要?

五角大樓對人工智能的興趣也必須從與中國--以及在較小程度上與俄羅斯--的戰略競爭加劇的角度來看待,人們越來越理解在人工智能和相關新興技術方麵的落後可能會損害美國軍隊自冷戰結束以來所保持的戰略、技術和行動優勢。一些國防領導人甚至認為,美國已經在軍事技術競爭中輸給了中國。

雖然本文不讚同這種宿命論的觀點,但本文認為軍事人工智能競爭的賭注很大,而且時間很短。

(3)美國防部采用人工智能的障礙是什麼?

五角大樓臭名昭著的官僚主義、陳舊的采購和合同製度以及規避風險的組織文化,繼續抑製著美國防部引進外部創新和更快地走向廣泛的人工智能整合和采用的能力。解決這種係統性問題是一個很高的要求。但是,為促進美國防部與商業技術部門和創新初創企業的接觸,已經在進行重要的變革,而且似乎有一種共同的緊迫感,即鞏固這些公私夥伴關係,以確保美國持續的技術和軍事優勢。然而,在統一美國防部及其行業夥伴對人工智能發展最具影響力領域的看法,以及闡明和實施共同的技術標準和測試機製以實現可信賴和負責任的人工智能方麵,仍有許多工作要做。

主要收獲和建議

國防部必須迅速行動起來,從對人工智能重要性的廣泛認可過渡到創建路徑、流程、實踐和原則,以加速采用人工智能技術所帶來的能力。如果沒有有意的、協調的和立即的行動,美國有可能在利用主導未來動能和非動能戰場的製勝技術方麵落後於競爭對手。本報告為美國防部確定了三個行動方案,這些方案可以幫助確保美國軍隊保持其在人工智能領域的全球領先地位,促進更迅速地采用人工智能所需的內部變革,並利用充滿活力和多樣化的美國創新生態係統,包括

  • 優先考慮安全、可靠、可信和負責任的人工智能開發和部署
  • 調整人工智能發展的關鍵優先事項,加強美國防部和行業合作夥伴之間的協調,以幫助縮小人工智能能力的差距;以及
  • 促進領先的國防技術公司和非傳統供應商之間的協調,以加快美國防部人工智能的采用

本報告是在美國防部采用人工智能努力過程中和全球地緣政治的未來軌跡方麵既合適又充滿不確定性的時候發表的。正在進行的烏克蘭衝突使限製獨裁者控製領土、人口、標準和言論的重要性變得非常明顯,而致力於維護長期國際行為規範的聯盟可以在這一努力中發揮作用。因此,作者敦促美國防部在政府層麵,並在可能的情況下在工業層麵與美國的盟友和可信賴的夥伴進行接觸和整合,以更好地實施本文的三項主要建議。

1 簡介

人工智能為國防政策製定者提供了一個重要的機會。人工智能處理和融合信息的能力,以及將數據提煉為增強決策的能力,可以在一個混亂的、有爭議的環境中撥開 "戰爭的迷霧",在這個環境中,速度是王道。人工智能還可以釋放出新型可損耗和一次性無人係統的可能性,從而增強威懾力。例如,它可以幫助保障美國軍人的生命,為指導衝突地區自主補給卡車的導航軟件提供動力。雖然人類仍然負責對目標做出最終決定,但人工智能算法在幫助情報專業人員識別和追蹤惡意行為者方麵正日益發揮作用,目的是 "縮短殺戮鏈,加快決策速度"。

由於美國所處的更廣泛的地緣戰略背景,特別是與中國的戰略競爭,人工智能的發展和整合也勢在必行。中國人民解放軍(PLA)在人工智能方麵的預算似乎與美國軍隊相當,而且解放軍正在為同樣廣泛的應用和能力開發人工智能技術,包括訓練和模擬、蜂群自主係統和信息操作,以及其他許多方麵,所有這些都可能取代美國的軍事技術優勢。

正如美國國防部長勞埃德-奧斯汀在2021年7月指出的那樣,"中國的領導人已經明確表示,他們打算在2030年之前在人工智能方麵成為全球主導。北京已經談及將人工智能用於一係列任務,從監視到網絡攻擊到自主武器"。美國不能落後於中國或其他競爭對手。

為了加快人工智能的采用,五角大樓必須麵對它的弊端:一個孤立的官僚機構,它阻礙了有效的數據管理努力,並阻礙了大規模利用美國防部數據所需的技術基礎設施;陳舊的采購和合同流程,抑製了國防部引進外部創新和將成功的人工智能技術原型過渡到生產和部署;以及一種規避風險的文化,與已知的促進創新的開放、實驗和容忍失敗的類型不一致。

目前正在進行一些努力來解決其中的一些問題。直接向美國防部副部長報告的首席數據和人工智能官(CDAO)角色最近被宣布,以合並首席數據官辦公室、聯合人工智能中心(JAIC)和國防數字服務(DDS)。這一重組將美國防部的數據和人工智能工作置於一個屋簷下,以消除重疊的權力,原來的這種權力重疊性使得人工智能項目的規劃和執行變得困難。擴大使用替代性收購方法,像國防創新單位(DIU)和空軍的AFWERX正在彌合與商業技術部門的差距,特別是初創企業和非傳統供應商。盡管如此,一些技術領導人認為這些努力還不夠,警告說 "時間不多了"。

隨著美國國防部轉向大規模采用人工智能,本報告試圖提供有關現代人工智能未解決問題的見解,總結中國、俄羅斯在軍事人工智能發展方麵的關鍵進展,並強調整個美國防部一些最引人注目的人工智能使用案例。報告還簡要評估了美國防部與其行業夥伴之間的不協調,這些不協調繼續阻礙五角大樓獲得美國軍隊所需的改變遊戲規則的技術,以阻止對手的侵略並主導未來的戰場。

然而,競爭的緊迫性決不能掩蓋對指導美國軍隊進入人工智能時代的道德準則。因此,報告重申,有必要將美國防部的人工智能道德準則有效地轉化為評估可信度的共同技術標準和評估指標,並加強與國防部的行業合作夥伴--特別是初創企業和非傳統供應商在這些關鍵問題上的合作和協調。

在本報告的最後,為政策製定者和整個國家安全生態係統的其他人工智能利益相關者提出了一些考慮。具體而言,敦促美國防部優先考慮安全、可靠、可信和負責任的人工智能開發和部署,調整國防部和行業之間的人工智能發展的關鍵優先事項,以幫助縮小美國防部的人工智能能力差距,並促進領先的國防技術公司和非傳統供應商之間的協調,以加快國防部的人工智能采用進程。

2 人工智能創新和應用中的軍事競爭

推動美國防部人工智能開發和采用工作的緊迫性在很大程度上源於確保美國及其盟國在軍事技術競爭中超過中國,這種競爭已經主導了兩國之間的關係。俄羅斯的技術能力遠沒有那麼發達,但其侵略行為破壞了全球安全,並威脅到美國和北約的利益。

中國

中國已將對人工智能的投資優先用於國防和國家安全,作為其努力成為 "世界級軍隊"的一部分,並在未來的 "智能化"戰爭中獲得優勢--人工智能(與其他新興技術一起)通過 "網絡化、智能化和自主係統和設備 "更完全地融入軍事係統和行動。

雖然中國人工智能相關活動的全部範圍並不廣為人知,但美國安全與新興技術中心(CSET)在2021年10月對343份與人工智能相關的中國軍事合同的審查估計,解放軍 "每年在人工智能相關的係統和設備上花費超過16億美元"。美國國家人工智能安全委員會(NSCAI)的最終報告評估說,"中國的計劃、資源和進展應該引起所有美國人的關注。它在人工智能的許多應用領域處於全球同等水平,而在一些應用領域是人工智能的領導者"。

CSET的審查和其他開源評估顯示,中國的人工智能發展的重點領域,就像美國的一樣廣泛,包括:

  • 智能和自動駕駛汽車,特別關注蜂群技術。
  • 情報、監視和偵查(ISR)。
  • 預測性維護和後勤。
  • 信息、網絡和電子戰。
  • 模擬和訓練(包括兵棋推演)。
  • 指揮和控製(C2);以及
  • 自動目標識別。

這些領域中的每一個進展都對美國在與中國的軍事技術競爭中保持同步的能力構成了挑戰。然而,值得研究的是,中國在兩個領域的進步能力可能對軍事平衡產生特別有力的影響

(1)整合

首先,人工智能可以通過人為地加強軍事整合和跨域作戰,幫助解放軍彌補作戰準備方麵的差距。許多觀察家指出,解放軍缺乏衝突中的作戰經驗是一個關鍵的弱點。盡管從技術角度來看,中國不斷推進的軍事現代化令人印象深刻,但在過去二十年裏,解放軍的人員都沒有像美國軍隊那樣在高端衝突中接受過火力考驗。解放軍繼續努力從組織和理論的角度提高其"聯合性",這也是剛剛起步,沒有經過測試。

使用人工智能來提高模擬和兵棋推演的質量、保真度和複雜性,是解放軍糾正這一關切領域的一種方式。新美國安全中心2019年的一份報告指出,"對中國軍事戰略家來說,從AlphaGo的勝利中學到的教訓之一是,人工智能可以在一場可以比作兵棋推演的遊戲中創造出優於人類玩家的戰術和策略。"這可以更艱巨地考驗解放軍的決策者,改善指揮決策。事實上,CSET報告發現,在所調查的343份合同中,有百分之六是在模擬和訓練中使用人工智能,包括使用人工智能係統對台灣突發事件進行戰爭演練。

圖:在美國國防部高級研究計劃局(DAPRA)的AlphaDogfight試驗中,一名作戰的F-16飛行員在虛擬現實模擬器中與Heron係統公司開發的冠軍F-16人工智能代理進行飛行。Heron人工智能代理在連續五場鬥狗比賽中擊敗了人類飛行員,結束了試驗。資料來源:DARPA, https://www.darpa.mil/news-events/2020-08-26

注重人工智能整合以減少經驗中的感知漏洞也適用於作戰和戰術訓練。2021年7月,中國出版物《環球時報》報道說,解放軍空軍(PLAAF)已經開始在飛行員的空戰訓練中部署人工智能作為模擬對手,以 "磨練他們的決策和戰鬥技能,對抗快速計算的計算機"。

除了虛擬模擬,中國還旨在利用人工智能來支持飛行員在真實世界飛機上的訓練。在2020年11月播出的中國中央電視台(CCTV)節目中,中國L-15教練機的總設計師張弘指出,訓練飛機上的人工智能可以 "識別每個飛行員在飛行中的不同習慣。通過管理它們,我們將讓飛行員更安全地成長,在未來獲得更多的戰鬥能力"。

值得注意的是,解放軍空軍2021年7月的人工智能與人類的鬥狗類似於美國國防部高級研究計劃局(DARPA)2020年9月的AlphaDogFight挑戰賽,在一係列五次模擬鬥狗中,一個人工智能代理擊敗了人類飛行員。 同樣,美國在2021年9月宣布與訓練和模擬公司Red 6簽訂合同,將該公司的機載戰術增強現實係統(ATARS)--該係統允許飛行員駕駛真實世界的飛機,使用增強現實耳機與人工智能生成的虛擬飛機進行訓練--整合到T-38 "塔隆"訓練器中,並計劃最終在第四代飛機上安裝該係統。由於中國軍隊正在利用人工智能來提高戰備水平,美國防部不能落後。

(2)自主性

中國人工智能發展的第二個重點領域是自主係統,特別是蜂群技術,其中幾個係統將獨立運行或相互配合,以混淆和壓倒對手的防衛係統。中國對發展蜂群技術的興趣和能力已經得到了很好的證明,包括2017年6月創紀錄地發射了118架小型無人機組成的互聯蜂群。

據報道,2020年9月,中國電子信息研究院(CAEIT)從一輛改裝的東風猛士輕型戰術車上發射了200枚固定翼CH901徘徊彈藥群。2022年2月在阿布紮比舉行的2022年無人駕駛展的調查顯示,不僅中國的參展陣容強大--中國航空技術進出口總公司(CATIC)和中國北方工業公司(NORINCO)都有大型展館,而且還將重點放在 "協作"行動和智能蜂群。

圖:2月在阿布紮比舉行的UMEX 2022展會上展示的協作式蜂群無人機的一個例子。

對蜂群的興趣並不限於無人駕駛飛行器(UAVs)。據《環球時報》報道,中國也在發展部署自主無機組人員水麵飛行器(USVs)群的能力,以"攔截、圍攻和驅逐入侵目標"。 2021年11月,中國公司雲洲科技--它在2018年進行了一個由56個USV組成的蜂群的演示--發布了一段視頻,顯示六個USV進行了 "合作對抗",作為將一艘有船員的船隻從中國水域移走的一部分。不難想象,這種合作對抗可以如何針對美國或盟國的海軍船隻,甚至商業船隻進行部署,以發展或維持海上控製。這種能力在灰色地帶的突發事件中尤為強大,在這種情況下,升級的擔憂可能會限製反應的選擇。

俄羅斯

在人工智能的投資和能力方麵,俄羅斯落後於美國和中國。因烏克蘭戰爭而實施的製裁也可能給俄羅斯的科技部門帶來巨大損失。盡管如此,美國國家決策者不應低估俄羅斯以不對稱的方式使用人工智能技術來破壞美國和北約利益的潛力。俄羅斯國防部有許多自主性和人工智能相關的項目,處於不同的開發和實驗階段,涉及軍事機器人、無人係統、蜂群技術、預警和防空係統、ISR、C2、後勤、電子戰和信息操作。

俄羅斯軍事戰略家認為,在未來的戰場上,更大的自主權和人工智能具有巨大的潛力,可以加快信息處理,增強決策,提高態勢感知,並保障俄羅斯軍事人員的生命安全。自主和人工智能係統的發展和使用也在俄羅斯軍事理論的更廣泛背景下進行討論。其理論重點是利用這些技術來擾亂和破壞對手的指揮和控製係統以及通信能力,並利用非軍事手段在戰爭初期建立信息優勢,從俄羅斯的角度來看,這包括與美國和北約等對手的非軍事衝突時期。

俄羅斯人工智能的發展軌跡是不確定的。但是,由於持續的製裁,俄羅斯很可能會在微電子方麵越來越依賴中國,並在與美國的技術競爭中進一步落後。

3 美國在人工智能方麵的軍事進展概述

五角大樓對人工智能的興趣和緊迫性既是由於技術發展的速度加快,也是由於它所能帶來的變革性能力越來越強。事實上,人工智能正準備從根本上改變軍隊思考、準備、執行和維持行動的方式。根據大西洋理事會以前的報告大綱,"五次革命 "框架對人工智能在五個廣泛的能力領域的潛在影響進行了分類,下麵的圖3說明了人工智能可以通過不同的方式增強人類的認知和身體能力,融合網絡和係統以獲得最佳效率和性能,並在信息空間中迎來一個網絡衝突和混亂的新時代,以及其他影響。

圖3:跨越未來軍事能力發展的五個廣泛目標的人工智能優先發展項目概述。

  • 邁向完美的態勢感知:感知、處理和認知

  • 即將到來的設計時代:製造、供應鏈和物流

  • 超能力平台和人員:人機性能增強

  • 連接性、致命性和靈活性:通信、導航、目標定位和打擊

  • 監控、操縱和武器化:網絡和信息作戰

美國防部目前有六百多項與人工智能相關的工作正在進行中,其願景是將人工智能融入國防部任務的每一個要素--從作戰行動到支持和維持功能,再到支撐龐大的國防部企業的商業運作和流程。美國政府問責局(GAO)2022年2月的一份報告發現,國防部正在追求人工智能的作戰能力,主要集中在"(1)通過情報和監視分析識別目標,(2)向戰場上的作戰人員提供建議(如在哪裏移動部隊或哪種武器最適合應對威脅),以及(3)增加無人駕駛係統的自主性。 "國防部的大多數人工智能能力,特別是與作戰有關的努力,仍處於開發階段,尚未與具體的係統接軌或整合。而且,盡管在實驗中取得了明顯的進展,並在作戰行動中部署人工智能能力方麵取得了一些經驗,但在廣泛采用方麵仍然存在著重大挑戰。

2021年9月,空軍第一任首席軟件官尼古拉-沙伊蘭辭職,以抗議官僚主義和文化挑戰,這些挑戰減緩了技術的采用,阻礙了美國防部以足夠快的速度與中國有效競爭。在沙伊蘭看來,20年後,美國及其盟友 "將沒有機會在一個中國擁有巨大人口優勢的世界中競爭。"後來,他補充說,中國基本上已經贏了,他說,"現在,這已經是一筆交易了。"

沙伊蘭關於美國與中國進行無用競爭的評估肯定不是整個美國防部都認同的,但它反映了許多人認為在該部門規避風險和深思熟慮的文化中缺乏緊迫感。

JAIC的負責人Michael Groen中將同意,"在國防部內部,必須發生文化變革。"然而,他也吹捧了美國的創新能力,並強調建立了一個人工智能加速器,並最終確定了一個聯合共同基金會(JCF),用於人工智能的開發、測試和在國防部各實體之間共享人工智能工具。"支持雲的JCF是向前邁出的重要一步,將允許基於共同標準和架構的人工智能開發。這應有助於鼓勵各軍種和國防部各部門之間的共享,並且根據JAIC的說法,確保 "國防部一個人工智能倡議的進展將在整個國防部企業中形成勢頭。"

雖然取得的進展值得讚揚,但仍然存在障礙,這些障礙延緩了人工智能能力的采用,而這種能力對於在不久的將來遏製威脅,以及應對中國在這十年及以後的競爭挑戰至關重要。

下麵的三個案例研究提供了美國防部人工智能工作中出現的技術、官僚主義和采用方麵的進步的例子。這些案例還強調了阻礙美國在與中國以及在較小程度上與俄羅斯的軍事技術競爭加劇的情況下,充分運用其國家創新生態係統的能力的持久性問題。

圖4:聯合人工智能中心(JAIC)的人工智能采用階段。

用例1:JADC2的不可逆轉勢頭、遠大目標和集成挑戰

五角大樓最重要的現代化優先事項之一是聯合全域指揮與控製(JADC2)計劃,該計劃被描述為 "將所有軍種的傳感器連接到一個單一網絡的概念。"根據美國國會研究服務部的說法,"JADC2打算通過從眾多傳感器收集數據,使用人工智能算法處理數據以識別目標,然後推薦最佳武器(包括動能和非動能武器)來對付目標,使指揮官能夠做出更好的決策。 "如果成功的話,JADC2有可能消除各軍種C2網絡之間的孤島,這些孤島以前減緩了整個部隊的相關信息傳輸。因此,產生更全麵的態勢感知,指揮官可以據此做出更好和更快的決定。

2021年12月,有報道稱JADC2跨職能小組(CTF)將成立一個 "AI for C2 "工作組,該工作組將研究如何利用負責任的AI來加強和加速指揮和控製,這加強了負責任的AI對該項目的核心作用。

2022年3月,美國防部發布了其JADC2實施計劃的非保密版本,用參謀長聯席會議主席馬克-米利將軍的話說,此舉代表了實施JADC2 "不可逆轉的勢頭"。

然而,觀察家們強調,在按照保持(或恢複)感知、處理和認知方麵的優勢所需的緊迫時間表實施JADC2方麵,有幾個持續的挑戰。特別是相對於中國而言。

圖5. JADC2的邏輯圖反映了與國防部JADC2實施計劃相關的複雜性和雄心。資料來源:美國國防部。

數據安全和網絡安全、數據管理和共享問題、與盟友的互操作性以及與軍方網絡整合相關的問題,都被認為是認識到JADC2方法的宏偉前景所麵臨的挑戰。一些人還強調,這種包羅萬象的雄心也是一種挑戰。哈德遜研究所的布萊恩-克拉克和丹-帕特認為,"當今威脅的緊迫性和新技術帶來的機遇要求五角大樓領導人將JADC2的重點從美國軍事部門的需求轉向作戰人員的需求。

可以肯定的是,在人工智能開發和整合項目中,不一定要避免宏偉的野心。然而,采用的途徑將需要在難以實現的、官僚主義的、耗時的和昂貴的目標與開發能夠在美國部隊麵臨的更直接的威脅時限內提供能力和優勢的係統之間取得平衡。

用例2:脆弱的人工智能和將人工智能納入目標的道德和安全挑戰

2021年9月,空軍部長弗蘭克-肯德爾宣布,空軍已經 "首次將人工智能算法部署到實際作戰的殺傷鏈中,這表明部署人工智能的時代確實已經到來。"根據肯德爾的說法,將人工智能納入目標定位過程的目的是 "大大減少人工識別目標的人力密集型任務--縮短殺傷鏈並加快決策速度。" 成功使用人工智能支持目標定位是人工智能發展的一個裏程碑,盡管在更全麵地采用人工智能的作用方麵仍然存在道德、安全和技術挑戰。

例如,2021年美國防部的一項測試強調了人工智能的脆弱性問題。根據Defense One的報道,測試中使用的人工智能目標定位在人工智能不得不從不同角度破譯數據的環境中隻有大約25%的時間是準確的,盡管它認為它有90%的時間是準確的,這表明缺乏 "適應一套狹窄的假設之外條件"的能力。"這些結果說明了今天的人工智能技術在安全關鍵環境中的局限性,並加強了在一係列條件下對人工智能進行積極和廣泛的現實世界和數字世界測試和評估的必要性。

人工智能目標定位的道德和安全也可能構成對進一步采用的挑戰,特別是隨著對人工智能算法的信心增加。空軍的行動涉及自動目標識別的輔助作用,協助 "情報專家"--即人類決策者。當然,國防部有一個嚴格的目標定位程序,人工智能的目標定位算法將是其中的一部分,再往前想,自主係統將必須通過這一程序。然而,即使它們是這一程序的一部分,並被設計用來支持人類的決定,高錯誤率加上對人工智能輸出的高度信任,有可能導致不理想或嚴重的結果。

用例3:人工智能在信息領域應用的局限性

與中國和俄羅斯日益激烈的競爭正在信息和網絡領域上演,對美國安全以及美國經濟、社會和政體具有真實、持久和破壞性的影響。

對於網絡和信息行動來說,人工智能技術和技能是未來進攻和防禦行動的核心,突出了人工智能在信息領域的危險性和前景。

人們對智能機器人、合成媒體的威脅越來越關注,例如描述沒有發生過的事件或聲明的逼真視頻或音頻製品,以及能夠創造出令人信服的散文和文本的大型語言模型。雖然虛假信息是一個需要社會和整個政府應對的挑戰,但國防部無疑將在管理和應對這一威脅方麵發揮關鍵作用--由於其在美國政治和社會中的突出地位,其職能作用的性質,以及其持續活動的影響。

人工智能在五角大樓和其他美國政府檢測機器人和合成媒體的努力中處於領先地位。例如,DARPA的MediaForensics(MediFor)項目正在使用人工智能算法來 "自動量化圖像或視頻的完整性"。

然而,鑒於合成媒體通過社交媒體的傳播速度,人們對這種檢測的速度表示擔憂。正如聯合參謀部首席信息官丹尼斯-克拉爾中將所觀察到的,"機器和人工智能贏得其中一些信息運動的速度改變了我們的遊戲......數字化轉型、預測分析、ML、人工智能,它們正在改變遊戲......如果我們不匹配這種速度,我們將使其達到正確的答案,而這種正確的答案將完全不相關。"

4 加快美國防部AI的應用

正如上麵的討論所示,美國防部在成功部署人工智能信息管理和決策支持工具的基礎上,有一係列廣泛的人工智能相關舉措,處於不同的發展和實驗階段。隨著重點轉向整合和擴展,加快這些采用工作對於保持美國在與中國的戰略競爭中的優勢以及有效遏製俄羅斯至關重要。

在這一節中,本文強調了美國防部與其工業夥伴之間關係的一些不協調,這些不協調可能會導致失去創新和有影響力的人工智能項目的機會,擴大使用替代采購方法的積極影響,以及日益緊迫的調整過程和時間表,以確保美國軍隊能夠獲得未來戰爭的高水準技術能力。此外,本節還討論了國防部實施道德人工智能原則的方法,以及與可信和負責任係統的標準和測試有關的問題。

4.1 美國防部和工業界的夥伴關係:統一觀點、流程和時間安排

盡管國防部已經發布了一些高級別文件,概述了人工智能發展和部署的優先領域,但市場滿足,甚至理解這些需求的能力還遠遠不夠。最近,IBM對來自全球國防組織的250名技術領導人進行了調查,揭示了國防技術領導人和國防部如何看待人工智能對組織和任務的價值的一些重要差異。例如,隻有約三分之一的受訪技術領導人表示,他們認為人工智能對軍事後勤、醫療和健康服務以及信息操作和深層假想有重大的潛在價值。當被問及人工智能支持的解決方案對商業和其他非戰鬥應用的潛在價值時,不到三分之一的人提到了維護、采購和人力資源。

這些觀點與國防部在人工智能方麵的目標有些不一致。例如,包括設備維護和采購在內的軍事後勤和維持職能是國防部實施人工智能的首要任務之一。Leidos與退伍軍人事務部的合作也說明了人工智能在醫療和健康服務方麵的潛力。最後,隨著人工智能在虛假信息運動中的使用已經開始,正如上一節的討論所強調的那樣,迫切需要開發技術措施和人工智能支持的工具,以檢測和反擊人工智能驅動的信息行動。

國防部及其行業夥伴基於各自的問題集和任務,有不同的優先事項和激勵措施。但是,對人工智能發展的有價值和關鍵領域的不同觀點可能會導致失去有影響力的人工智能項目的機會。也就是說,即使五角大樓和它的工業夥伴在人工智能方麵意見一致,有效的合作也常常被一個笨拙的官僚機構所阻撓,這個機構常常被傳統的流程、結構和文化束縛。

國防部的預算規劃、采購、收購和簽約流程,總的來說,不是為購買軟件而設計的。這些 這些體製上的障礙,再加上複雜而冗長的軟件開發和合規條例,對小型初創企業和非傳統供應商來說尤其困難,因為他們缺乏資源、人員和事先的知識,無法像國防部的主要部門那樣駕馭這個係統。

國防部清楚地意識到這些挑戰。自2015年以來,國防部長辦公室和各軍種已經建立了幾個實體,如DIU、AFWERX、NavalX和陸軍應用實驗室,與商業技術部門,特別是初創企業和非傳統供應商對接,目的是加速提供同類最佳的技術解決方案。同時,國防部還采取了其他值得注意的措施,以促進使用替代性的采購和合同,這為構建和執行協議提供了比傳統采購更大的靈活性。這些包括 "其他交易授權、中間層采購、快速原型設計和快速投入使用以及軟件采購的專門途徑"。

DIU一直處於使用其中一些替代性采購途徑的前沿,從商業技術部門采購人工智能解決方案。空軍的AFWERX還與空軍研究實驗室和國家安全創新網絡合作,創新地利用小企業創新研究(SBIR)和小企業技術轉讓(STTR)資金,以 "提高項目的效率、有效性和過渡率"。例如,在2021年6月,美國空軍SBIR/STTR人工智能投標日向關於 "可信人工智能,這表明係統是安全、可靠、強大、有能力和有效的 "主題的提案提供了超過1800萬美元。

這些都是朝著正確的方向邁出的步伐,而且確實變得更容易獲得國防部的研究、開發和原型製作資金。然而,及時獲得生產資金仍然是一個重大挑戰。這個 "死亡之穀 "的問題--研究和開發階段與一個既定的、有資金記錄的項目之間的差距--對於非傳統的國防公司尤其嚴重,因為風險資本對初創企業的資助周期與將一個項目納入國防部預算所需的時間之間存在差異。

五角大樓明白,彌合 "死亡之穀 "對於推進和擴大創新至關重要,並在最近啟動了快速國防實驗儲備,以處理這些問題。然而,使預算規劃、采購和簽約流程與私人資本的步伐相一致所需的係統性變化,需要國會采取行動,並可能需要數年時間來實施。在實施這些改革方麵的延誤正在損害國防部獲得尖端技術的能力,而這些技術在未來的戰場上可能是至關重要的。

4.2 建立可信賴和負責任的人工智能係統

確保美國軍隊能夠使用安全可信的人工智能和自主係統,並按照國際人道主義法律使用這些係統,將有助於美國保持其競爭優勢,以對抗俄羅斯等對人工智能的道德使用承諾較少的專製國家。強調值得信賴的人工智能也是至關重要的,因為國防部的大多數人工智能項目都需要人機合作和協作的元素,它們的成功實施在很大程度上取決於操作者對係統的足夠信任和使用。最後,國防部和行業夥伴之間就可信和負責任的人工智能的共享標準和測試要求進行更密切的協調,對於推進國防部人工智能的采用至關重要。

除了國防部現有的武器審查和目標程序,包括自主武器係統的協議,該部門還在尋求解決倫理、法律和政策的模糊性,以及人工智能更具體的風險。2020年2月,五角大樓通過了五項道德原則來指導人工智能的發展和使用,呼籲人工智能是負責任的、公平的、可追溯的、可靠的和可治理的。為了將這些原則付諸實踐,國防部副部長凱瑟琳-希克斯發布了一份備忘錄,指示采取一種 "整體的、綜合的和有原則的方法 "來整合負責任的人工智能(RAI),包括六個原則:管理、作戰人員的信任、產品和采購生命周期、需求驗證、負責任的人工智能生態係統和人工智能勞動力。

同時,2021年11月,DIU發布了其負責任的人工智能指導方針,響應了備忘錄中對 "工具、政策、流程、係統和指導 "的呼籲,將道德的人工智能原則納入該部門的采購政策。這些指導方針是在國防部人工智能項目中操作和實施道德的具體步驟,建立在DIU在預測健康、水下自主、預測性維護和供應鏈分析等領域的人工智能解決方案的經驗上。它們的目的是可操作的、自適應的和有用的,同時確保人工智能供應商、國防部利益相關者和DIU項目經理在人工智能係統生命周期的規劃、開發和部署階段考慮到公平、問責和透明度。

國防部人工智能項目的成功將在很大程度上取決於確保人類發展並保持對其智能機器隊友的適當信任。因此,國防部對可信人工智能的強調越來越多地體現在其一些旗艦人工智能項目中。例如,2020年8月,DARPA的空戰進化(ACE)項目吸引了大量的關注,因為一個人工智能係統在模擬的空中鬥犬比賽中擊敗了空軍的一名頂級F-16戰鬥機飛行員。 ACE的一個關鍵問題是 "如何讓飛行員足夠信任人工智能並使用它",而不是讓人類與機器對決。ACE選擇了鬥狗場景,很大程度上是因為這種類型的空對空戰鬥包含了許多成為戰鬥機飛行員群體中值得信賴的夥伴所必需的基本飛行動作。讓人工智能掌握作為更複雜任務基礎的基本飛行動作,如壓製敵方防空係統或護送友軍飛機。根據ACE項目經理的說法,AlphaDogfight試驗是 "關於增加對人工智能的信任"。

人工智能的發展速度很快,因此很難設計和實施一個足夠靈活的監管結構,以保持相關性,同時又不至於限製性太強而扼殺創新。與國防部合作的公司正在尋求符合國防部人工智能道德原則的人工智能係統的開發、部署、使用和維護的指導方針。這些行業夥伴中的許多人已經采用了他們自己的可信和負責任的人工智能解決方案的框架,強調了安全、安保、穩健、彈性、問責製、透明度、可追溯性、可審計性、可解釋性、公平性和其他相關質量等屬性。

圖:2021年10月19日,在亞利桑那州尤馬試驗場,一名美國陸軍士兵使用戰術機器人控製器來控製遠征模塊化自主車輛,作為準備 "聚合項目 "的練習活動。在 "聚合項目21 "期間,士兵們試驗了使用這種車輛進行半自主偵察和再補給。無論是在戰場上還是在戰場之外,對自主和半自主車輛等人工智能能力的信任對於成功至關重要。

目前,對於什麼是道德或值得信賴的人工智能係統,沒有共同的技術標準,這可能會使非傳統的人工智能供應商難以設定預期,並在官僚機構中穿梭。國防部不直接負責製定標準。相反,2021年國防授權法案(NDAA)擴大了國家標準與技術研究所(NIST)的任務,"包括推進人工智能的合作框架、標準、指導方針,支持開發人工智能係統的風險緩解框架,並支持開發技術標準和指導方針,以促進值得信賴的人工智能係統"。2021年7月,NIST在製定其人工智能風險管理框架時,向利益相關者發出了信息請求,旨在幫助組織 "將可信性考慮納入人工智能產品、服務和係統的設計、開發、使用和評估"。

對這一挑戰沒有簡單的解決方案。但是,讓政府、行業、學術界和民間社會的利益相關者參與進來的合作過程可以幫助防止人工智能的發展走上社交媒體的道路,在社交媒體上,公共政策未能預測到虛假信息和其他惡意活動在這些平台上造成的風險和損失,而且反應緩慢。

與標準相關的是與測試、評估、驗證和確認(TEVV)相關的挑戰。測試和驗證過程是為了 "幫助決策者和操作者了解和管理開發、生產、操作和維持人工智能係統的風險",對於建立對人工智能的信任至關重要。國防部目前的TEVV協議和基礎設施主要是針對主要的國防采購項目,如船舶、飛機或坦克;它是線性的、順序的,而且一旦項目過渡到生產和部署,最終是有限的。然而,對於人工智能係統,"開發從未真正完成,所以測試也是如此。"因此,像人工智能這樣的適應性強、不斷學習的新興技術需要一個更加敏捷和迭代的開發和測試方法,正如NSCAI建議的那樣,"將測試作為需求規範、開發、部署、培訓和維護的持續部分,包括運行時監測操作行為。"

建立在開發、安全和運營(DevSecOps)的商業最佳實踐基礎上的綜合和自動化的開發和測試方法,更適合於人工智能/ML係統。雖然JAIC的聯合基金有可能實現真正的人工智能DevSecOps方法,但在整個國防部擴大這種努力是一個重大挑戰,因為它需要對當前的測試基礎設施進行重大改變,以及更多的資源,如帶寬、計算支持和技術人員。也就是說,如果不開發更適合人工智能的新測試方法,不調整當前的測試基礎設施以支持迭代測試,將阻礙大規模整合和采用可信和負責任的人工智能的努力。

上述關於標準和TEVV的討論概括了現代人工智能係統對現有國防部框架和流程的獨特挑戰,以及商業技術公司和國防部對人工智能開發、部署、使用和維護的不同方法。為了加速人工智能的采用,國防部及其行業夥伴需要在具體的、現實的、與操作相關的標準和性能要求、測試過程和評估指標上更好地保持一致,並納入道德的人工智能原則。一個以可信和負責任的人工智能為導向的國防技術生態係統可以促進最佳做法的相互交流,並降低非傳統供應商和初創公司所麵臨的官僚主義和程序性障礙。

5 主要收獲和建議

充分發揮人工智能推動成本和時間效率的能力,支持人類決策者,並實現自主性,將需要更多的技術進步或開發新的作戰概念。下麵,我們概述了優先努力的三個關鍵領域,以更成功地將人工智能納入整個國防部事業,並確保美國能夠阻止威脅,並保持對其競爭對手和潛在對手的戰略、戰役和戰術優勢。

5.1 優先考慮安全、可靠、受信任和負責任的人工智能開發和部署

與中國日益激烈的戰略競爭,精湛的技術和強有力作戰能力,以及與私營部門快速的技術開發和整合速度的比較,都給國防部帶來了壓力,使其更快地走向人工智能係統的實戰。在人工智能發展中鼓勵更大的風險容忍度,以便在大規模采用人工智能方麵取得進展,這有很多好處。但是,僅僅為了 "超越 "中國而匆忙部署容易受到一係列對手攻擊的人工智能係統,並且很可能在作戰環境中失敗,這將被證明是適得其反。

指導美國軍隊的道德準則反映了對遵守戰爭法則的基本承諾,而此時,一些獨裁國家對人權和人道主義原則很不重視。同時,國防部對新能力的測試和保證采取了嚴格的方法,旨在確保新武器的使用是負責任的和適當的,並盡量減少事故、誤用和濫用係統和能力的風險,因為這可能會產生危險,甚至是災難性的影響。美國與許多盟友和夥伴共享的這些價值觀和原則,在與專製國家競爭時是一種戰略資產,因為它們正在部署人工智能軍事係統。為了鞏固國防部在這個領域的優勢,我們建議采取以下步驟。

  • 美國防部應將DIU的“負責任的人工智能指南”納入相關的提案請求、招標和其他材料中,要求承包商展示他們的人工智能產品和解決方案是如何實施國防部的人工智能道德原則。這將設定一套共同和明確的期望,幫助非傳統的人工智能供應商和初創公司在五角大樓的提案過程中遊刃有餘。最近有國防部為項目製定收購類別的先例,要求工業界調整其開發過程,以滿足不斷變化的國防部標準。例如,在2020年9月,美國空軍為所有采購工作製定了e係列采購指定,要求供應商使用數字工程實踐--而不是原型--作為他們激勵行業接受數字工程的一部分。

  • 美國防部的行業合作夥伴,特別是非傳統的人工智能供應商,應積極與NIST合作,因為該機構繼續努力製定標準和指導方針,以促進可信賴的人工智能係統,以確保他們的觀點為後續框架提供信息。

  • 本文提到的有效采用人工智能的挑戰包括人工智能的脆弱性和對手旨在破壞人工智能算法的網絡攻擊可能性。克服這些挑戰將需要國防部繼續致力於提高國防部人工智能係統測試和評估的速度、種類和能力,以確保這些係統在更廣泛的不同環境下發揮預期功能。其中一些測試需要在真實世界的環境中進行,但基於模型的模擬的進步可以使人工智能係統的性能在數字/虛擬世界中得到越來越多的驗證,減少與這種測試相關的成本和時間。

圖:人工智能可以極大地重塑未來的戰場。為了實現這一願景,美國防部必須采取關鍵步驟,有效利用人工智能。資料來源:美國陸軍。

  • 此外,美國防部還應該利用國防部研究與工程副部長(USDR&E)的測試實踐和優先事項,以確保計劃和部署的人工智能係統能夠抵禦對手的攻擊,包括數據汙染和算法損壞。

  • 美國防部應利用盟友和外國合作夥伴來開發、部署和采用可信的人工智能。這種性質的參與對於協調人工智能發展和使用的共同規範至關重要,這些規範遏製並對抗中國和俄羅斯的獨裁技術模式。擴大現有合作模式和建立新的夥伴關係的途徑可以包括以下內容:

i. 加強對道德、安全和負責任的人工智能的重視,將其作為全日空防務夥伴關係的一部分,通過評估成員方法的共同點和差異,確定未來聯合項目和合作的具體機會。

ii. 與 "五眼"、北約和AUKUS夥伴交叉分享和實施聯合道德項目。除了支持互操作性,這將增加視角和經驗的多樣性,並有助於確保人工智能發展工作限製各種形式的偏見。正如本項目所采訪的一位前將軍所指出的,"多樣性是我們確保可靠性的方式。它是必不可少的。"

iii. 擴大與不同能力和地域的盟友和合作夥伴的聯係,包括印度、南非、越南,以探索雙邊和多邊研發工作和技術共享計劃的機會,解決可信和負責任的人工智能的技術屬性。

5.2 調整人工智能發展的關鍵優先事項,加強國防部和工業夥伴之間的協調,以幫助縮小國防部人工智能能力的差距

如果不與廣泛的技術公司建立密切的夥伴關係,國防部將無法實現其在人工智能方麵的雄心壯誌,並與中國通過軍民融合采購技術創新的模式進行有效競爭。這包括與五角大樓有長期聯係的國防工業領導人,處於全球創新前沿的技術巨頭,尋求擴大其政府投資組合的商業技術參與者,以及處於人工智能發展前沿的初創企業。但是,國防部的預算規劃、采購、收購、簽約和合規流程可能需要從根本上進行重組,以有效地與這個充滿活力和多樣化的技術生態係統的整體接觸。

係統性變革是一個緩慢而艱巨的過程。但是,拖延這一過渡有可能使美國軍隊在利用人工智能承諾提供的優勢方麵落後,從作戰速度到決策主導權。同時,以下行動可以幫助改善與行業夥伴的協調,以加快國防部采用人工智能的努力。

  • 國防部應評估其溝通和外聯戰略,以澄清和精簡圍繞該部門在人工智能方麵的優先事項的信息。

  • 國防部應與技術公司合作,重新審查他們對某些類別的人工智能解決方案的潛在價值的評估,包括但不限於後勤、醫療和健康服務以及信息操作。

  • 國防部應實施NSCAI的建議,加快對采購專業人員的培訓,使其了解采購和簽約的全部可用選擇,並激勵他們使用人工智能和數字技術。" 此外,這種采購人員培訓舉措應確保采購專業人員充分了解國防部的人工智能倫理原則以及可信和負責任的人工智能的技術層麵。國防部的道德準則可以作為這種培訓的基礎。

5.3 促進領先的國防技術公司和非傳統供應商之間的協調,以加快美國防部人工智能的采用

在中短期內,美國防部將不會建立全新的人工智能係統,而是將人工智能整合到一係列現有的軟件和硬件係統中--從網絡防禦架構到戰鬥機到C2。因此,實施人工智能的進展也將取決於簡化國防部一直在爭取的創新和尖端技術的初創公司和非傳統人工智能供應商與負責將新能力整合到傳統係統的國防部門之間的合作。

NSCAI建議確定 "國防部門與非傳統公司合作的新機會,以便在現有平台上更快地采用人工智能能力。"我們讚同這一建議:改進國防部門與非傳統公司之間的協調可以幫助確保人工智能解決方案是強大的,有彈性的,與作戰相關的,以及引導有前途的原型穿過 "死亡之穀"。

毫無疑問,從概念到實踐可能是很棘手的。本文的研究顯示,在將創新的新技術從實驗室轉移到記錄項目中采用的主要挑戰在哪裏,人們的觀點存在著很大的分歧。初創企業傾向於認為係統集成商抗拒參與,而初創企業可能被認為缺乏對收購過程的理解,以及開發的技術難以整合到記錄項目中,或難以擴大規模。

彌補這一差距將需要政府采取新的方法來解決非傳統供應商對知識產權的擔憂。大多數人不願意放棄敏感技術的所有權,這些技術主要是賣給國防市場以外的客戶。這也將涉及到國防部幫助小企業通過加快網絡認證和運營授權(ATO)過程等步驟來瀏覽聯邦采購流程,以及幫助有興趣的公司為國防部的不同組成部分開發使用案例。這種積極的促進作用將幫助那些通過研究和開發撥款與國防部合作的非傳統供應商更有準備地與係統集成商達成合作。

最重要的是,優化大型係統集成商和小型創新者的利益,將需要國防部在連接小型公司和那些正在運行的項目方麵發揮更積極的對話者作用。目前,國防部在要求公司合作方麵存在一些可以理解的猶豫,主要是擔心觸犯聯邦采購條例(FAR)。但是,正如本項目采訪的一位行業專家所認為的,國防部可以更積極地了解《聯邦采購條例》所允許的內容,並幫助公司建立聯係,特別是為了滿足特定的采購優先權或計劃。

6 結論

在過去的幾年裏,對人工智能的興趣和投資已經獲得了動力。這在國家安全和國防界尤其如此,因為戰略家、政策製定者和行政人員在不斷上升的地緣戰略競爭中尋求決定性的優勢,並為以複雜性、不確定性和最重要的速度為特征的未來操作環境做準備。人工智能現在是美國和中國之間軍事技術競爭的中心,這兩個國家以及世界上其他國家的軍隊都已經在部署人工智能係統,目的是為了主導未來的戰場。

美國不能冒落後於中國的風險--在人工智能的創新方麵,在人工智能的采用方麵,在人工智能全麵融入國防事業方麵,都不能。迫切需要解決一係列技術和官僚程序以及文化問題,迄今為止,這些問題已經抑製了國防部采用人工智能的步伐。具體來說,國防部應優先考慮以下問題。

  • 建立對人工智能的信任:國防部的人工智能努力主要集中在增強人類理解、決策和效能的技術上,而不是取代人類。因此,在人類和他們的智能機器隊友之間建立信任和信心是成功開發和部署軍事人工智能的一個關鍵方麵。

  • 製定和實施可信和負責任的人工智能標準:目前,對於什麼是可信和負責任的人工智能,還沒有共同的標準或係統性能要求。因此,五角大樓及其行業夥伴必須與NIST等機構合作,製定和實施與作戰相關的標準、測試流程和評估指標,其中包括道德的、可信賴的和負責任的人工智能原則。這將有助於將成功的人工智能研究原型推進到可投入生產的解決方案中。

  • 促進美國創新生態係統和國防工業基地的優化。將尖端的人工智能技術引入國防部還需要五角大樓減少國防部采購過程中經常出現的官僚主義挑戰,特別是對於那些在傳統國防工業基地之外的創新公司。開發新的手段來支持和激勵這些公司的參與,並促進領先的國防技術公司與初創公司和非傳統供應商之間的行業內夥伴關係將是至關重要的。

  • 吸引盟友和合作夥伴。正如本文開頭所述,烏克蘭戰爭加強了盟友和合作夥伴在執行地緣政治規範和標準方麵的重要性。未來人工智能的發展和采用也可能是如此。國防部不僅將受益於工業界和國家安全界的合作,還將受益於與盟友和外國夥伴的合作,以確保建立和頒布規範和標準,從而實現可信、負責和可互操作的人工智能開發和部署。

關於本報告

本報告是在對人工智能的國家安全和國防影響進行為期八個月的研究項目的最終成果。

關於作者

瑪格麗特-科納耶夫(Margarita Konaev)是大西洋理事會斯考克羅夫特戰略與安全中心前沿防禦業務的非常駐高級研究員。此外,她還擔任喬治敦安全與新興技術中心(CSET)的分析副主任和研究員,對人工智能的軍事應用和俄羅斯軍事創新感興趣。她也是新美國安全中心的兼職高級研究員。在此之前,她是西點軍校現代戰爭研究所的非駐地研究員,弗萊徹法律和外交學院的博士後研究員,以及賓夕法尼亞大學佩裏世界之家的博士後研究員。在加入CSET之前,她曾在Gartner公司的營銷和溝通部門擔任高級負責人。

科納耶夫博士對國際安全、武裝衝突、非國家行為者和中東、俄羅斯和歐亞大陸的城市戰爭的研究已經在《戰略研究雜誌》、《全球安全研究雜誌》、《衝突管理與和平科學》、法國國際關係研究所、《原子科學家公報》、《法律戰》、《岩石上的戰爭》、現代戰爭研究所、外交政策研究所以及其他一係列機構和組織發表。她擁有聖母大學的政治學博士學位,喬治敦大學的衝突解決碩士學位,以及布蘭代斯大學的學士學位。

泰特-努爾金(Tate Nurkin)是OTH情報集團的創始人,也是大西洋理事會斯考克羅夫特戰略與安全中心的高級研究員。

在2018年3月建立OTH情報集團之前,努爾金在IHS Markit的簡氏公司工作了12年,擔任各種職務,包括管理簡氏國防、風險和安全谘詢業務。從2013年到他離開,他擔任戰略評估和未來研究(SAFS)中心的創始執行主任,該中心提供有關地緣政治、未來軍事能力和全球國防工業的全球競爭的思想領導和定製分析。

實質上,努爾金的研究和分析特別關注中美競爭、國防技術、未來軍事能力和全球國防工業及其市場問題。他還擅長設計和提供替代性未來分析活動,如情景規劃、紅色團隊和兵棋推演。

他曾在聯合管理服務公司、SAIC的戰略評估中心以及博思艾倫公司的建模、模擬、兵棋推演和分析團隊工作。2014-2018年,他在世界經濟論壇的核安全全球議程委員會和國際安全未來委員會連續任職兩年,該委員會的成立是為了診斷和評估第四次工業革命的安全和防禦影響。

努爾金擁有佐治亞理工學院薩姆-納恩國際事務學院的國際事務科學碩士學位,以及杜克大學的曆史和政治學學士學位。

成為VIP會員查看完整內容
51
0

《工程師和科學家概率論和統計導論》第六版特別強調了概率論如何連接統計問題,從而幫助讀者對實踐工程師和科學家常用的統計程序建立直觀的理解。利用真實的數據從實際研究跨越生命科學,工程,計算和商業,這個有用的介紹支持讀者理解通過各種各樣的練習和例子。結束的章節審查材料突出關鍵的想法,也討論與每個材料的實際應用相關的風險。在新版中,涵蓋了大數據和R。

這本書是為在工程項目中學習概率和統計課程的高年級本科生和研究生準備的,以及那些跨生物、物理和計算機科學部門的學生。它也適合於科學家,工程師和其他專業人員尋求參考的基礎內容和應用這些領域。

  • 提供了作者獨特的訪問和參與方法為工程師和科學家的需要
  • 功能示例,使用來自生命科學、工程、計算和商業的實際研究的重要真實數據
  • 包括支持R的使用的新覆蓋
  • 提供大數據技術的新章節

成為VIP會員查看完整內容
45
0

在過去的十年裏,特別是在過去的三年裏,隱私已經成為與用戶聯係並消費他們數據的企業的首要和中心。無論是保護數據免受黑客攻擊和入侵,遵守複雜的法規,避免內部員工濫用數據,還是以可衡量的方式解決廣泛的隱私問題,隱私正成為一個重大挑戰,而不是一個利他的業餘項目。

具有重大跨職能職責的技術領導必須平衡項目交付和跟蹤,並需要實踐技能和技術來實現隱私。本書將基於我在這方麵的十多年經驗提供這樣的技巧。我不得不在有限的環境下匆忙創建隱私和安全程序,修複過去的錯誤,同時與一個既封閉又自主的團隊合作。

這本書將教你通過幫助建立一個數據分類和目錄來將隱私嵌入到你的數據中,開發數據共享技術,這樣你就可以在不損害用戶隱私的情況下進行創新,創建刪除和模糊數據的機製,從法律和技術隱私的角度進行隱私審查,等等。

總而言之,這本書將為領導者們提供他們可以用來建立一個更適合他們公司的隱私程序的技巧,而不是那些價格不菲的現成的一刀切的產品。這些技能將幫助領導者與工程、數據科學、平台開發等團隊建立聯係,從而使數據隱私成為共同的目標。從那些曾經在那裏工作過幾次的人那裏獲得這些見解的好處,應該會使這本書成為一個有價值的資源。

為了人性化隱私的概念和海量數據背後的人類,這本書還將提供一係列故事和現實事件的分析,並將它們與有關數據隱私的決策聯係起來。

在數據隱私問題上,你將學習如何:

  • 根據隱私風險對數據進行分類
  • 構建技術工具來編目和發現係統中的數據
  • 通過技術隱私控製共享數據,以衡量重新識別風險
  • 實現技術隱私架構來刪除數據
  • 為數據導出建立技術能力,以滿足法律要求,如數據主題資產請求(DSAR)
  • 建立技術隱私審查程序,以幫助加快法律隱私影響評估(PIA)
  • 設計一個同意管理平台(CMP)來獲取用戶同意
  • 實現安全工具來幫助優化隱私

數據隱私教你設計、開發和衡量隱私程序的有效性。您將從作者尼桑特·巴賈利亞(Nishant Bhajaria)那裏學習,他是業界知名的專家,曾在穀歌、Netflix和Uber公司監管隱私。隱私的術語和法律要求都用清晰、無術語的語言解釋。本書對業務需求的不斷了解將幫助您權衡利弊,並確保您的用戶隱私可以在不增加時間和資源成本的情況下得到改善。

https://www.manning.com/books/data-privacy

成為VIP會員查看完整內容
44
0

在未來的軍事行動中,通過協調多智能體係統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑製對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰鬥將在這些複雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent係統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題彙聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用於自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重於使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主係統將與人類智能體合作進行預測和規劃,並通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體係統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體範式中情報的一般理解,但目前對情報的解釋並不明確。最近的文獻表明,基於強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一係列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑製對手的協作,以實現戰場上的超越。最小化、限製或完全抑製對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防禦部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更複雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人係統中實現戰略機動。

在下麵的章節中,對近年來突出的RL方法進行了分類和概述,並表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,並考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體係統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑製。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處於動態的鬥爭中,通過限製、抑製或以其他方式破壞對手的協調或戰術,並強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝衝突中,對手的遠程反介入和區域拒止(A2AD)火力係統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍後方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒於前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮幹擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位於深火區的OPFOR遠程火力係統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓製(S)或解除(N)敵方遠程火力係統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,並使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產並追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD係統以利用機動自由)。在這裏,我們隻關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD係統交戰時的滲透和瓦解部分,這可能需要在未來的戰鬥中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準係統、地麵和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力係統通過攻擊戰略和作戰支持區來創造對峙局麵。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭係統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力係統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地麵火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地麵火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力係統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,並從作戰縱深火力區用遠程火力係統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利於敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵係統必須在敵軍的火力和ISR資產部署之前識別、交戰並摧毀它們。友軍SOF通過破壞補給和指揮與控製(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透並利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力係統容易受到地麵攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓製或消滅對手的遠程火力係統,使友軍機動部隊能夠進入並擊敗近距離區域的作戰部隊(見圖3)。然後,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩餘的敵對機動編隊從近距離區域撤出,並在深層機動區域建立一個新的戰線。這個過程不斷重複,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體係統之間的合作來實現。此外,鑒於目前正在積極研究開發和部署這種自主係統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種複雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防禦MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一係列的狀態-行動對)。然而,在後麵的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防禦MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發並采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其夥伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防禦行動的MAS必須具有明確協作的能力。

在本節的其餘部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重複規劃和預測,以便1)跟上,或2)領先於對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關於對手協作行動的適當模型,然後采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限製(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在複雜的軍事防禦MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由於情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被汙染(例如,嘈雜、髒亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防禦MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助於確定最終應用於美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步複雜化了場景。在MDO中,預計一個子目標由無數複雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的複雜性;2)智能體(夥伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境複雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠複雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的複雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,並使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重複這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利遊戲演示的。盡管函數近似法在複雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在複雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用於策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用於評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由於MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理複雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600遊戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari遊戲,其中智能體在其中三個遊戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒於DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現隻利用了四個觀察序列來學習Q值,這對於MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari遊戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,並克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用於評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改後的變體在處理比簡單的Atari遊戲更複雜的任務方麵很有前途,但DQN方法本質上缺乏一個多智能體預測機製來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用於軍事相關環境。最後,DQN算法方法對未見過的例子(例如,夥伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN隻考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的複雜性。這種無模式、非策略預測和控製算法可以執行物理控製任務(如車杆、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基於模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方麵,PILCO首先學習一個概率模型,然後找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式並行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便於在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基於角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對於戰略機動的人工智能係統至關重要,不同的智能體可能需要組成團隊來抑製對手的戰略合作或抑製對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體係統發揮作用。MADDPG框架采用集中式評論家家進行訓練,並在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間隻擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反複改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對於軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,並使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得複雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用於離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體製定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭遊戲)。然而,M3DDPG仍然無法處理異質智能體被引入係統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控製,然後可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限製它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基於價值的MARL算法係列在非常複雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然後通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模並不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個係列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基於角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對於大量的智能體顯示了非常有希望的結果。

對於戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基於他們的行動和對環境的影響或任何其他固定的行為(對於盟友或甚至敵人)。然後,該算法可用於不同群體的戰略角色轉換。由於不同角色的行動空間受到限製,該算法收斂得非常快。這種算法也適合於基於角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的複雜性--係統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩衝器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控製決定),而不是來自中央控製器。由於這種分布式的方案,當智能體被添加或從係統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方麵,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為複雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),並且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型複雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由於一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,並對最突出的RL算法進行了概述。研究發現,由於訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在衝突相關的複雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒於陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊並壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,並允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一係列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利於在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由於目前的技術限製,僅僅期望MAS能夠在沒有人類監督或幹預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最後,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

成為VIP會員查看完整內容
53
0
登陸後查看更多精品內容
本周薈萃主題
區塊鏈
區塊鏈(Blockchain)是由節點參與的分布式數據庫係統,它的特點是不可更改,不可偽造,也可以將其理解為賬簿係統(ledger)。它是比特幣的一個重要概念,完整比特幣區塊鏈的副本,記錄了其代幣(token)的每一筆交易。通過這些信息,我們可以找到每一個地址,在曆史上任何一點所擁有的價值。
深度學習
機器學習的一個分支,它基於試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一係列算法。
機器學習
“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓 可以自動“ 學習”的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯係尤為密切,也被稱為統計學習理論。算法設計方麵,機器學習理論關注可以實現的,行之有效的學習算法。很多 推論問題屬於 無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。”

——中文維基百科
強化學習
強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習範式之一。 強化學習與監督學習的不同之處在於,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假設MDP的確切數學模型,並且針對無法采用精確方法的大型MDP。
推薦係統
推薦係統,是指根據用戶的習慣、偏好或興趣,從不斷到來的大規模信息中識別滿足用戶興趣的信息的過程。推薦推薦任務中的信息往往稱為物品(Item)。根據具體應用背景的不同,這些物品可以是新聞、電影、音樂、廣告、商品等各種對象。推薦係統利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定應該購買什麼產品,模擬銷售人員幫助客戶完成購買過程。個性化推薦是根據用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。隨著電子商務規模的不斷擴大,商品個數和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的信息和產品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。為了解決這些問題,個性化推薦係統應運而生。個性化推薦係統是建立在海量數據挖掘基礎上的一種高級商務智能平台,以幫助電子商務網站為其顧客購物提供完全個性化的決策支持和信息服務。
卷積神經網絡
在深度學習中,卷積神經網絡(CNN或ConvNet)是一類深度神經網絡,最常用於分析視覺圖像。基於它們的共享權重架構和平移不變性特征,它們也被稱為位移不變或空間不變的人工神經網絡(SIANN)。它們在圖像和視頻識別,推薦係統,圖像分類,醫學圖像分析,自然語言處理,和財務時間序列中都有應用。
計算機網絡
計算機網絡( Computer Networks )指將地理位置不同的多台計算機及其外部設備,通過通信線路連接起來,在網絡操作係統及網絡通信協議的管理和協調下,實現資源共享和信息傳遞的計算機係統。
命名實體識別
命名實體識別(NER)(也稱為實體標識,實體組塊和實體提取)是信息抽取的子任務,旨在將非結構化文本中提到的命名實體定位和分類為預定義類別,例如人員姓名、地名、機構名、專有名詞等。
機器翻譯
機器翻譯,又稱為自動翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。
計算機視覺
計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能係統。
微信掃碼谘詢專知VIP會員