在過去的十年裏,機器學習的規模和能力都有了巨大的增長,深度神經網絡(DNNs)正在越來越多地應用於廣泛的領域。然而,DNN的內部工作原理通常很難理解,這引起了人們對使用這些係統的安全性的擔憂,因為他們沒有嚴格了解它們的功能。在這項綜述中,我們回顧了解釋DNN內部成分的技術,我們稱之為內部可解釋方法。具體而言,我們回顧了解釋權重、神經元、子網和潛在表示的方法,重點關注這些技術如何與設計更安全、更值得信賴的AI係統的目標相關聯。我們還強調了可解釋性與模塊化、對抗魯棒性、持續學習、網絡壓縮和人類視覺係統研究之間的聯係。最後,我們討論了關鍵的挑戰,並討論了未來在人工智能安全可解釋性方麵的工作,重點是診斷、基準測試和魯棒性。

//www.webtourguide.com/paper/c6db46946cd96a10ab425120dacad09a

過去十年深度學習的一個顯著特征是規模和能力的急劇增長[124],[228],從2010年到2022年,機器學習係統的訓練計算增長了100億倍[227]。與此同時,深度神經網絡(DNNs)越來越多地用於安全、可預測的行為至關重要的環境中。如果繼續快速發展,自動化的寬領域智能有可能對社會產生高度影響[33],[51],[179],[195],[210],[239]。考慮到這些發展,從業者能夠理解AI係統如何做出決策,特別是它們的失敗模式是至關重要的。人工智能係統最典型的評估標準是它們在特定任務測試集上的表現。這引起了關注,因為在測試集中表現良好的黑盒並不意味著學習到的解決方案就足夠了。例如,部署分布可能不同於測試分布,並且/或者任務目標的規範可能導致意外行為(例如[135],[147])。即使用戶意識到不足之處,係統的黑盒特性也會使修複缺陷變得困難。因此,建立安全可靠的人工智能係統的一個重要步驟是擁有檢測和解決這些缺陷的技術。為此,擁有一套多樣的嚴格解釋AI係統的技術將是有價值的(見I-A)。

我們將可解釋性方法定義為可以用人類可以理解的術語描述係統行為的任何過程。這包含了DNN文獻中廣泛的技術,所以在本文中,我們特別關注對理解內部結構和表示有用的方法。我們稱之為內部可解釋方法。我們討論了這些方法的分類,提供了文獻綜述,討論了可解釋性和深度學習中的其他主題之間的關鍵聯係,並總結了繼續工作的方向。我們的中心目標有兩方麵: (1)為現有的內在可解釋性方法提供一個全麵的參考資源,(2)為持續的、以安全為重點的研究提供指導方向

可解釋性技術的一個主要動機是理解模型的潛在問題。因此,可解釋性方法將與構建更安全、更值得信賴的人工智能係統高度相關。

可解釋性技術應通過其產生新穎、有效和可操作見解的能力來評估。這可能是困難的,而且在文獻中評估常常做得很差。需要嚴格的測試和基準來評估解釋,應該包括重新發現DNN的已知缺陷。

可解釋性、模塊化、對抗魯棒性、持續學習、網絡壓縮和與人類視覺係統的相似性之間有許多豐富的聯係。

未來工作的引人注目的方向包括使用人類輸入的可擴展方法、逆向工程係統、檢測潛在知識、基準測試和研究技術之間的交互。

可解釋性對更安全人工智能的重要性

對於AI係統來說,它們需要正確的目標,並且需要有效地優化這些目標。主要是第二個需求,可解釋性技術為構建更值得信賴的AI提供了優勢[115],[180]。我們在此概述主要動機。

展示失敗: 揭示為什麼一個模型不能產生正確的輸出,讓研究人員能夠洞察失敗是什麼樣子的,以及如何檢測它們。這些信息可以幫助研究人員避免這些問題,並幫助監管機構為部署的係統建立適當的規則。

修複bug:通過理解故障和/或生成利用它的例子,可以重新設計、微調和/或對抗性訓練網絡,使其更好地與用戶的目標保持一致。

提高基本理解: 通過向用戶提供更多關於DNN如何學習的知識,可解釋性技術可以開發改進的模型或更好地預測人工智能的進展。

確定責任:具有描述失敗的能力對於在誤用或部署失敗的情況下確定責任是至關重要的。

“顯微鏡式”AI: 嚴格理解AI係統如何完成任務可以提供額外的領域知識。這一目標被稱為“顯微鏡”AI[115],它可以允許對更容易理解的模型進行逆向工程。這對於研究在某些領域具有超人性能的係統尤其有價值。

對於實現上述目標的可解釋性技術,它們應該滿足某些需求

準確性-驗證,而不是說服: 可解釋性技術應該給出模型正在執行的計算的正確圖像,而不僅僅是看似合理地這樣做。給用戶錯誤的安全感是非常有害的。一個常見的例子是輸入歸因方法,它經常對模型[4]的決策提供誤導性的解釋[64]。此外,解釋應該伴隨著不確定性估計。

人類的可理解性: 另一方麵,由可解釋技術產生的解釋應該易於人類理解。從某種意義上說,對模型最準確的“解釋”就是返回它的參數,但這對人類來說幾乎總是難以理解的。因此,準確性應該與可理解性相平衡。

深度: 內部可解釋性技術的“深度”指的是它解釋複雜子流程的能力。很可能DNN中的某些特征或計算比其他特征更容易被人類自然理解,這就增加了對模型理解過於簡單的可能性。解釋不應該偏向於模型中容易解釋的部分。

泛化性: 解釋應該能夠概括到不同的例子。這可以讓他們幫助診斷發生在訓練/驗證分發之外的故障。

競爭力 :可解釋性技術不應導致競爭力的顯著下降,如性能下降、計算需求增加或難以在現代深度學習框架中使用。競爭缺陷也可能導致“價值侵蝕”,即不采用更安全的人工智能實踐,而采用更具競爭力的模型。

產生可操作的見解:可解釋性方法的最終目標應該是產生有用的見解。關鍵是解釋可以用來對模型做出和驗證可測試的預測。有兩種方法可以做到這一點:使用解釋來指導新的對手的設計,或者手動微調模型來誘導可預測的變化。這與準確性密切相關;可解釋性方法的結果應該能夠明確地洞察模型的行為。在第VI節中,我們討論了可操作的見解的重要性,以及現有的工作如何典型地無法證明它們。

我們的重點是DNN的內部可解釋性方法。值得注意的是,模型無關技術、黑箱技術、輸入歸因方法、神經符號方法和“優秀的老式AI”超出了本次綜述的範圍。這並不是說它們在構建安全人工智能方麵的價值低於我們所關注的方法——我們相信多樣化的技術是至關重要的。然而,我們專注於內部可解釋性方法(1),因為該綜述的可跟蹤範圍,(2) 因為它們對某些目標(如理解如何修改模型、反向工程解決方案,以及檢測通常不會出現在係統部署行為中的潛在知識)有很好的裝備。也請參閱之前對可解釋性工作的一些調查和評論,它們與我們的[3],[58],[60],[68],[95],[118],[136],[173]-[175],[208],[215],[218],[219]有重疊。然而,這項綜述的不同之處在於其對內部可解釋性、人工智能安全以及可解釋性和其他幾個研究範式之間的交叉的關注。參見我們在第VI節的討論。在接下來的章節中,我們根據DNN的計算圖解釋的部分來組織我們對技術的討論: 權重、神經元、電路或表示。圖1描述了內部方法是如何這樣組織的。除了這種分解,可解釋性技術還可以按照它們是在模型訓練期間使用還是在模型訓練之後使用來劃分。內在可解釋性技術包括訓練模型,使其更容易學習或具有自然的解釋。Post hoc技術的目的是在模型經過訓練後對其進行解釋。我們在分段層次上根據方法是內在的還是事後的來劃分方法。這兩種方法並不相互排斥。

"> 更透明的AI?MIT等最新《可解釋AI: 深度神經網絡內部結構解釋》綜述,17頁pdf全麵闡述DNN內部可解釋性技術 - 專知VIP

來自MIT等最新《可解釋AI: 深度神經網絡內部結構解釋》綜述論文,(1)為現有的內在可解釋性方法提供一個全麵的參考資源,(2)為持續的、以安全為重點的研究提供指導方向

在過去的十年裏,機器學習的規模和能力都有了巨大的增長,深度神經網絡(DNNs)正在越來越多地應用於廣泛的領域。然而,DNN的內部工作原理通常很難理解,這引起了人們對使用這些係統的安全性的擔憂,因為他們沒有嚴格了解它們的功能。在這項綜述中,我們回顧了解釋DNN內部成分的技術,我們稱之為內部可解釋方法。具體而言,我們回顧了解釋權重、神經元、子網和潛在表示的方法,重點關注這些技術如何與設計更安全、更值得信賴的AI係統的目標相關聯。我們還強調了可解釋性與模塊化、對抗魯棒性、持續學習、網絡壓縮和人類視覺係統研究之間的聯係。最後,我們討論了關鍵的挑戰,並討論了未來在人工智能安全可解釋性方麵的工作,重點是診斷、基準測試和魯棒性。

//www.webtourguide.com/paper/c6db46946cd96a10ab425120dacad09a

過去十年深度學習的一個顯著特征是規模和能力的急劇增長[124],[228],從2010年到2022年,機器學習係統的訓練計算增長了100億倍[227]。與此同時,深度神經網絡(DNNs)越來越多地用於安全、可預測的行為至關重要的環境中。如果繼續快速發展,自動化的寬領域智能有可能對社會產生高度影響[33],[51],[179],[195],[210],[239]。考慮到這些發展,從業者能夠理解AI係統如何做出決策,特別是它們的失敗模式是至關重要的。人工智能係統最典型的評估標準是它們在特定任務測試集上的表現。這引起了關注,因為在測試集中表現良好的黑盒並不意味著學習到的解決方案就足夠了。例如,部署分布可能不同於測試分布,並且/或者任務目標的規範可能導致意外行為(例如[135],[147])。即使用戶意識到不足之處,係統的黑盒特性也會使修複缺陷變得困難。因此,建立安全可靠的人工智能係統的一個重要步驟是擁有檢測和解決這些缺陷的技術。為此,擁有一套多樣的嚴格解釋AI係統的技術將是有價值的(見I-A)。

我們將可解釋性方法定義為可以用人類可以理解的術語描述係統行為的任何過程。這包含了DNN文獻中廣泛的技術,所以在本文中,我們特別關注對理解內部結構和表示有用的方法。我們稱之為內部可解釋方法。我們討論了這些方法的分類,提供了文獻綜述,討論了可解釋性和深度學習中的其他主題之間的關鍵聯係,並總結了繼續工作的方向。我們的中心目標有兩方麵:(1)為現有的內在可解釋性方法提供一個全麵的參考資源,(2)為持續的、以安全為重點的研究提供指導方向

可解釋性技術的一個主要動機是理解模型的潛在問題。因此,可解釋性方法將與構建更安全、更值得信賴的人工智能係統高度相關。

可解釋性技術應通過其產生新穎、有效和可操作見解的能力來評估。這可能是困難的,而且在文獻中評估常常做得很差。需要嚴格的測試和基準來評估解釋,應該包括重新發現DNN的已知缺陷。

可解釋性、模塊化、對抗魯棒性、持續學習、網絡壓縮和與人類視覺係統的相似性之間有許多豐富的聯係。

未來工作的引人注目的方向包括使用人類輸入的可擴展方法、逆向工程係統、檢測潛在知識、基準測試和研究技術之間的交互。

可解釋性對更安全人工智能的重要性

對於AI係統來說,它們需要正確的目標,並且需要有效地優化這些目標。主要是第二個需求,可解釋性技術為構建更值得信賴的AI提供了優勢[115],[180]。我們在此概述主要動機。

展示失敗: 揭示為什麼一個模型不能產生正確的輸出,讓研究人員能夠洞察失敗是什麼樣子的,以及如何檢測它們。這些信息可以幫助研究人員避免這些問題,並幫助監管機構為部署的係統建立適當的規則。

修複bug:通過理解故障和/或生成利用它的例子,可以重新設計、微調和/或對抗性訓練網絡,使其更好地與用戶的目標保持一致。

提高基本理解: 通過向用戶提供更多關於DNN如何學習的知識,可解釋性技術可以開發改進的模型或更好地預測人工智能的進展。

確定責任:具有描述失敗的能力對於在誤用或部署失敗的情況下確定責任是至關重要的。

“顯微鏡式”AI: 嚴格理解AI係統如何完成任務可以提供額外的領域知識。這一目標被稱為“顯微鏡”AI[115],它可以允許對更容易理解的模型進行逆向工程。這對於研究在某些領域具有超人性能的係統尤其有價值。

對於實現上述目標的可解釋性技術,它們應該滿足某些需求

準確性-驗證,而不是說服: 可解釋性技術應該給出模型正在執行的計算的正確圖像,而不僅僅是看似合理地這樣做。給用戶錯誤的安全感是非常有害的。一個常見的例子是輸入歸因方法,它經常對模型[4]的決策提供誤導性的解釋[64]。此外,解釋應該伴隨著不確定性估計。

人類的可理解性: 另一方麵,由可解釋技術產生的解釋應該易於人類理解。從某種意義上說,對模型最準確的“解釋”就是返回它的參數,但這對人類來說幾乎總是難以理解的。因此,準確性應該與可理解性相平衡。

深度: 內部可解釋性技術的“深度”指的是它解釋複雜子流程的能力。很可能DNN中的某些特征或計算比其他特征更容易被人類自然理解,這就增加了對模型理解過於簡單的可能性。解釋不應該偏向於模型中容易解釋的部分。

泛化性: 解釋應該能夠概括到不同的例子。這可以讓他們幫助診斷發生在訓練/驗證分發之外的故障。

競爭力:可解釋性技術不應導致競爭力的顯著下降,如性能下降、計算需求增加或難以在現代深度學習框架中使用。競爭缺陷也可能導致“價值侵蝕”,即不采用更安全的人工智能實踐,而采用更具競爭力的模型。

產生可操作的見解:可解釋性方法的最終目標應該是產生有用的見解。關鍵是解釋可以用來對模型做出和驗證可測試的預測。有兩種方法可以做到這一點:使用解釋來指導新的對手的設計,或者手動微調模型來誘導可預測的變化。這與準確性密切相關;可解釋性方法的結果應該能夠明確地洞察模型的行為。在第VI節中,我們討論了可操作的見解的重要性,以及現有的工作如何典型地無法證明它們。

我們的重點是DNN的內部可解釋性方法。值得注意的是,模型無關技術、黑箱技術、輸入歸因方法、神經符號方法和“優秀的老式AI”超出了本次綜述的範圍。這並不是說它們在構建安全人工智能方麵的價值低於我們所關注的方法——我們相信多樣化的技術是至關重要的。然而,我們專注於內部可解釋性方法(1),因為該綜述的可跟蹤範圍,(2) 因為它們對某些目標(如理解如何修改模型、反向工程解決方案,以及檢測通常不會出現在係統部署行為中的潛在知識)有很好的裝備。也請參閱之前對可解釋性工作的一些調查和評論,它們與我們的[3],[58],[60],[68],[95],[118],[136],[173]-[175],[208],[215],[218],[219]有重疊。然而,這項綜述的不同之處在於其對內部可解釋性、人工智能安全以及可解釋性和其他幾個研究範式之間的交叉的關注。參見我們在第VI節的討論。在接下來的章節中,我們根據DNN的計算圖解釋的部分來組織我們對技術的討論:權重、神經元、電路或表示。圖1描述了內部方法是如何這樣組織的。除了這種分解,可解釋性技術還可以按照它們是在模型訓練期間使用還是在模型訓練之後使用來劃分。內在可解釋性技術包括訓練模型,使其更容易學習或具有自然的解釋。Post hoc技術的目的是在模型經過訓練後對其進行解釋。我們在分段層次上根據方法是內在的還是事後的來劃分方法。這兩種方法並不相互排斥。

成為VIP會員查看完整內容
30
54

相關內容

麻省理工學院(Massachusetts Institute of Technology,MIT)是美國一所研究型私立大學,位於馬薩諸塞州(麻省)的劍橋市。麻省理工學院的自然及工程科學在世界上享有極佳的盛譽,該校的工程係曾連續七屆獲得美國工科研究生課程冠軍,其中以電子工程專業名氣最響,緊跟其後的是機械工程。其管理學、經濟學、哲學、政治學、語言學也同樣優秀。
自動駕駛中可解釋AI的綜述和未來研究方向
專知會員服務
41+閱讀 · 1月10日
專知會員服務
32+閱讀 · 2021年9月5日
專知會員服務
62+閱讀 · 2021年7月9日
最新《可解釋機器學習:原理與實踐》綜述論文,33頁pdf
專知會員服務
123+閱讀 · 2020年10月10日
【綜述】醫療可解釋人工智能綜述論文
專知
23+閱讀 · 2019年7月18日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2011年12月31日
國家自然科學基金
9+閱讀 · 2011年12月31日
國家自然科學基金
0+閱讀 · 2011年12月31日
Arxiv
14+閱讀 · 5月17日
Arxiv
14+閱讀 · 2021年1月27日
Arxiv
38+閱讀 · 2020年12月2日
VIP會員
相關基金
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2011年12月31日
國家自然科學基金
9+閱讀 · 2011年12月31日
國家自然科學基金
0+閱讀 · 2011年12月31日
微信掃碼谘詢專知VIP會員
Top