VIP內容

引言

幾何深度學習(GDL)是一種基於神經網絡架構的學習方法,它可以整合並處理對稱信息。GDL在分子建模應用中有著特殊的應用前景,在這些應用中存在著具有不同對稱性和抽象層次的各種分子表示。本文綜述了分子GDL在藥物發現、化學合成預測和量子化學中的應用。重點放在學習的分子特征的相關性和它們的互補的完善的分子描述符。本文綜述了當前的挑戰和機遇,並對GDL在分子科學中的應用前景進行了展望。

摘要

深度學習是基於神經網絡的人工智能(AI)[1,2]的一個實例,近年來的進展已經在分子科學領域得到了廣泛的應用,如藥物發現[3,4]、量子化學[5]和結構生物學[6,7]。深度學習的兩個特點使得它在應用於分子時特別有前途。首先,深度學習方法可以處理“非結構化”數據表示,如文本序列[8,9]、語音信號[10,11]、圖像[12-14]和圖形[15,16]。這種能力對於分子係統,尤其有用,化學家們已經開發出許多模型(即“分子表示”),捕獲分子性質在不同的萃取級別(圖1)。第二個關鍵特征是,深度學習可以執行特征提取(或學習)的特性從輸入數據, 也就是說,從輸入數據生成數據驅動的特性,而不需要人工幹預。這兩個特性對於深度學習來說很有前途,可以作為“經典”機器學習應用(如定量結構-活性關係[QSAR])的補充,在這些應用中,分子特征 (即“分子描述符”[17])是通過基於規則的算法進行先驗編碼的。從非結構化數據中學習並獲得數據驅動的分子特征的能力,導致了人工智能在分子科學中的前所未有的應用。

幾何深度學習(GDL)是深度學習領域最有前景的進展之一。幾何深度學習是一個涵蓋新興技術的總稱,這些技術將神經網絡推廣到歐幾裏得和非歐幾裏得域,如圖、流形、網格或字符串表示[15]。一般來說,GDL包含了包含幾何先驗的方法,即關於輸入變量的結構、空間和對稱屬性的信息。利用這種幾何先驗來提高模型捕獲的信息的質量。盡管GDL越來越多地應用於分子建模[5,18,19],但其在該領域的全部潛力仍未得到充分挖掘。

本文的目的是 :(1) 對GDL在分子係統中的應用進行結構化和協調的綜述; (2)概述該領域的主要研究方向; (3) 預測GDL的未來影響。重點介紹了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP),特別關注了GDL方法學習到的數據驅動分子特征。所選術語的詞彙表見框1。

幾何深度學習原理

幾何深度學習這個詞是在2017年[15]誕生的。雖然GDL最初用於應用於非歐幾裏得數據[15]的方法,但現在它擴展到所有包含幾何先驗[21]的深度學習方法,即有關感興趣係統的結構和對稱信息。在GDL中,對稱是一個至關重要的概念,因為它包含了係統與操作(轉換)相關的屬性,如平移、反射、旋轉、縮放或排列(框2)。

分子幾何深度學習

GDL在分子係統中的應用具有挑戰性,部分原因是有多種有效的方法來表示相同的分子實體。分子表示可以根據它們不同的提煉水平以及它們所捕獲的物理、化學和幾何方麵進行分類。重要的是,所有這些表示都是同一現實的模型,因此“適合於某些目的,而不適合其他目的”[63]。GDL提供了用相同分子的不同表示進行實驗的機會,並利用它們的內在幾何特征來提高模型的質量。此外,由於GDL的特征提取(特征學習)功能,它已經多次被證明在為手頭的任務提供相關分子屬性方麵是有用的。在接下來的章節中,我們將描述最流行的分子GDL方法及其在化學中的應用,並根據用於深度學習的分子表示進行分組: 分子圖、網格、字符串和曲麵。

總結與展望

化學中的幾何深度學習使研究人員能夠利用不同非結構化分子表征的對稱性,從而為分子結構生成和性質預測提供更大的靈活性和通用性的可用計算模型。這些方法代表了對基於分子描述符或其他人類工程特征的經典化學信息學方法的有效替代。對於那些通常需要高度工程化規則的建模任務(例如,從頭設計的化學轉換,以及CASP的活性位點規範),GDL的好處已經得到了一致的顯示。在已發表的GDL應用中,每種分子表示都顯示出各自的優缺點。

成為VIP會員查看完整內容
0
6
0
Top