基于電子密度驅動的3D分子生成:望石智慧以技術驅動藥物研發(fā)底層變革
1.1引言
近年來,人工智能驅動藥物設計(AIDD)已成為加速新藥發(fā)現進程的核心技術。然而,傳統(tǒng)AIDD方法仍存在一定的局限性。首先,在分子表征方面,主流方法大多依賴于簡化分子線性輸入系統(tǒng)(SMILES)或二維分子圖等符號化表示,然而這些表征方法卻缺乏分子在三維空間中的關鍵結構信息,無法有效模擬其與靶點口袋之間復雜的空間的相互作用。其次,蛋白質數據庫中已解析的原子坐標是人為擬合實驗電子密度圖后得出的靜態(tài)坐標數據,缺乏反應小分子與蛋白間的動態(tài)相互作用及溶劑環(huán)境的原始物理信息,使得模型無法學習到關鍵相互作用信息。在模型架構層面,無論是自回歸的方法、圖神經網絡還是新興的擴散模型,都常常在分子結構的化學合理性、類藥性、可合成性等方面難以取得平衡,易于生成難以合成或結合模式不理想的分子。
正是在這樣的背景下,望石智慧的研究工作展現出一條清晰且扎實的技術路線,沒有選擇在傳統(tǒng)方法內逐漸優(yōu)化,而是開創(chuàng)性地將實驗電子密度(Experimental Electron Density, ED)這一未被充分挖掘的物理信息作為其AI模型訓練及推理的基石,并結合創(chuàng)新的分子表征方法與模塊化的設計系統(tǒng)性地構建了一個從數據表征到生成與評估的完整技術閉環(huán)。其研究工作并非孤立的技術點突破,而是一個層層深入、相互支撐的協同體系,旨在從根本上提升AIDD方法生成分子的三維結構合理性、類藥性及可合成性。
1.2電子云密度數據應用:首個實驗性非共價相互作用數據庫上線
實驗電子密度在識別化合物與蛋白間弱相互作用和捕捉動態(tài)相互作用方面具有顯著特點,通過分析不同分辨率的電子密度圖,可以有效增強非關鍵相互作用信號的信噪比,有助于挖掘二者潛在的相互作用。望石團隊首次實現了將實驗電子密度直接應用于蛋白質-配體復合物的非共價相互作用分析。具體而言,他們首次系統(tǒng)性地利用蛋白質晶體數據庫(Protein Data Bank, PDB)中的實驗電子密度數據,構建了全球首個實驗性非共價相互作用數據庫(ExptNCI Database),該研究基于電子密度梯度理論,從蛋白質數據庫中超過12,000個復合物的實驗電子密度圖中提取了約20萬個相互作用的電子密度鞍點,這些鞍點被視為非共價相互作用的直接實驗證據,并利用電子密度的時間平均特性成功捕捉到了由側鏈旋轉等運動導致的動態(tài)相互作用模式(圖1)。

圖1. ExptNCI數據庫展示
1.3從數據到模型:以實驗性數據指導分子生成
1.3.1模型架構設計
有了相應的電子密度數據之后,望石團隊開始利用實驗電子密度作為訓練數據,設計基于靶蛋白口袋結構生成類藥三維分子的方法。其工作原理如圖2所示,在初始階段,利用生成對抗網絡(GAN)以口袋電子密度數據為輸入以學習口袋-配體互補性并生成配體的電子密度數據。隨后,由矢量化變分自編碼器(VQ-VAE)來捕獲分子拓撲與電子分布特征;再通過PixelCNN以生成的配體的電子密度數據為條件在隱空間中采樣,從而生成多樣性較高的配體的電子密度數據(圖2)。最后,將這些電子密度數據還原成分子,并通過可合成性與類藥性打分篩選掉不滿足條件的分子,確保化學結構的合理性。

圖2.基于電子密度的分子生成模型設計架構
1.3.2實驗驗證與結果
望石團隊將該方法針對于三個重要藥物靶點(HPK1(造血祖細胞激酶1)、3CLpro(SARS-CoV-2 主蛋白酶)、VDR(維生素D受體))進行了分子生成,并基于包含8000余個文獻報道活性化合物的參考數據集進行了全面評估。評估維度涵蓋化學有效性、化學空間分布的多樣性,以及與參考活性化合物在分子結構及口袋結合模式方面的相似性等方面。
研究結果表明,該方法不僅能夠生成與已知活性化合物結構相似的分子,還可生成具有新穎骨架且保持關鍵結合特征的化合物,顯示出其在構建有效虛擬篩選庫方面的潛力。此外,該方法所生成的配體電子密度信息,同樣也為基于片段的藥物設計提供了線索。

圖3生成分子與參考活性分子的相似性比較
1.4電子密度在虛擬篩選中的應用:獨創(chuàng)ExptGMS方法
1.4.1 ExptGMS設計思路
為了解決傳統(tǒng)虛擬篩選方法中因依賴靜態(tài)、不完整的蛋白質結構模型而導致的打分函數準確率受限的問題,望石團隊以電子密度圖為基礎,僅保留等值面水平高于零的電子密度區(qū)域,以此排除實驗噪聲。此外,還在蛋白質結合口袋內部及周邊空間構建出可用于定量評估的三維評分網格,并根據配體原子是否占據電子密度網格來設計相應的打分函數(圖4)。

圖4.實驗電子密度圖提供的潛在信息
1.4.2 ExptGMS方法在實際藥物發(fā)現中的應用:Covid-193CLpro抑制劑的篩選
為驗證ExptGMS方法在實際藥物發(fā)現中的應用價值,該團隊針對新冠病毒3CL蛋白酶進行了虛擬篩選。基于該蛋白的晶體結構,首先通過分子對接軟件對大規(guī)模商業(yè)化合物庫進行初步篩選,并設定關鍵相互作用作為對接約束條件。隨后,采用實驗電子密度圖對對接結果利用ExptGMS重新打分,通過聯合考慮對接分數和電子密度匹配度的策略,篩選出若干候選化合物進行實驗驗證,即采用熒光共振能量轉移法測定所有候選化合物的酶抑制活性。與此同時,還設置了僅基于對接評分的對照組進行比較。結果表明,采用ExptGMS輔助篩選的策略顯著提升了活性化合物的發(fā)現效率,實驗組中多個化合物表現出顯著抑制活性,并且就其篩選結果來看,ExptGMS的結果表現明顯優(yōu)于對照組的結果。這也證明了ExptGMS在真實藥物篩選場景中能夠有效提升虛擬篩選的成功率和實用性,彌補傳統(tǒng)打分函數的不足(圖5)。

圖5.生成的Covid-193Clpro活性分子展示
1.5語言模型驅動的3D分子生成:兼顧分子拓撲與空間坐標的Lingo3DMol
1.5.1模型設計
傳統(tǒng)的基于序列或者基于分子圖的分子生成方法因缺失了分子的三維空間幾何信息,往往在生成過程易于產生極不穩(wěn)定、難以合成的結構。為此,望石團隊設計了一款自回歸的分子生成方法Lingo3DMol,并開發(fā)了基于片段的簡化分子線性輸入規(guī)范(fragment-based simplified molecular-input line-entry system, FSMILES)的新分子表示方法,在編碼時不僅引入了原子類型,還同時加入了原子的局部坐標和全局坐標信息。
此外,傳統(tǒng)方法在識別與靶點口袋的關鍵相互作用時存在一定局限性。為此,還訓練了一個獨立的非共價相互作用(Non-covalent interactions,NCI)預測模型,即預測哪些口袋原子最可能與配體形成哪種類型的相互作用。這樣做可以引導它生成更可能通過特定相互作用與靶點緊密結合的分子,極大地提高了生成分子的潛在活性。
為了消解自回歸生成過程中院子坐標定位不準確的問題,還采用了兩個協同工作的解碼器。二維拓撲解碼器負責生成FSMILES序列,決定分子的二維連接方式和局部坐標。三維全局坐標解碼器負責預測原子在口袋空間中的絕對坐標,從而讓模型在生成的過程中讓模型主動思考分子的化學結構及其在靶點口袋中的三維姿態(tài),從而生成大量類藥性高、易于合成的候選分子,顯著提升了基于AI的從頭藥物設計的實用性和成功率。

圖6. Lingo3DMol模型設計展示
1.5.2實驗驗證與結果
為了驗證Lingo3DMol是否可以生成高質量的分子,研究團隊從分子指紋相似性與分子對接分數兩個維度對生成分子進行篩選分析,結果表明模型可以成功復現與已知活性化合物結構及結合模式高度相似的分子,凸顯出其解決實際藥物發(fā)現難題的能力。
此外,傳統(tǒng)分子對接方法受限于其構象采樣算法的局限性,常因無法充分探索配體的構象空間而遺漏潛在活性分子。然而該模型通過直接生成與靶點口袋三維空間特征相匹配的配體構象,能夠有效識別并恢復這類因構象采樣不足而被傳統(tǒng)虛擬篩選方法錯誤排除的活性化合物。可見其在生成活性化合物的成功率、減少假陰性方面具有獨到優(yōu)勢,為其在基于結構的藥物設計中的應用提供了幫助(圖7)。

圖7.生成分子與參考分子的相似性與結合模式分析
1.6總結
傳統(tǒng)藥物設計方法長期依賴蛋白質結構數據庫中的靜態(tài)坐標信息,然而這些信息無法捕捉蛋白質-配體復合物的動態(tài)構象變化,忽略了關鍵的結合過程信息。若要減少現有藥物設計過程中的假陽性率,引入此類如蛋白質-配體復合物的動態(tài)構象信息較為重要。
望石智慧的研究團隊開創(chuàng)性地將實驗電子密度這一物理化學信息引入藥物設計全流程,首次設計了新型篩選方法ExptGMS,他們通過將小分子構象與實驗電子密度網格進行匹配,因為電子密度圖可以反映蛋白質-配體界面上的真實電子分布,可以讓模型學習到傳統(tǒng)剛性對接所忽略的物理信息,不僅讓模型更具可解釋性和物理合理性,還有效提升了活性化合物的識別準確率。
此外,還構建了ExptNCI數據庫,首次系統(tǒng)地從實驗電子密度中提取非共價相互作用信息。由于依賴于實驗電子密度圖中獲取的相互作用的物理信號而非預設規(guī)則,因此可以捕獲那些傳統(tǒng)規(guī)則容易忽略的潛在相互作用。
在分子生成方面,團隊開發(fā)了基于語言模型的三維分子生成方法Lingo3DMol。通過引入片段化SMILES表示與局部-全局坐標編碼策略,使得在保持合理三維構象的同時,顯著提升了生成分子的類藥性與可合成性。然而該方法存在一定的局限性,即生成分子后需要通過分子對接和動力學模擬等計算方法來進一步優(yōu)化其結合姿勢和能量。望石團隊以實驗電子密度為核心所構建的技術體系代表了現代藥物設計方法的一次邁進。通過深度整合實驗物理信息與前沿人工智能算法構建了覆蓋從靶點分析到分子生成全流程的創(chuàng)新平臺,為小分子藥物研發(fā)提供了創(chuàng)新性的技術。這種數據導向的方法也正成為推動人工智能輔助藥物設計領域的新動力,在全球藥物研發(fā)創(chuàng)新中展現出重要的價值與潛力。
責任編輯:知行顧言
隨便看看:
網友評論:
推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件





