中山大學通過深度學習分子模擬加速有理PROTAC設計,助力藥物研發

語言: CN / TW / HK

編輯 | 蘿蔔皮

蛋白水解靶向嵌合體 (PROTACs) 已成為通過使用泛素-蛋白酶體系統選擇性降解疾病相關蛋白的有效工具。開發 PROTAC 涉及廣泛的測試和試驗,以探索廣闊的化學空間。

為了加速這一過程,中山大學的研究團隊提出了一種新的深度生成模型,用於在低資源環境中合理設計 PROTAC,然後通過深度強化學習引導對具有最佳藥代動力學的 PROTAC 進行取樣。

將這種方法應用於含溴結構域的蛋白質 4 靶蛋白,該團隊生成了 5,000 種化合物,這些化合物通過基於機器學習的分類器和物理驅動的模擬進一步過濾。作為概念驗證,研究人員鑑定、合成和實驗測試了六種候選的含溴結構域的蛋白質 4 降解 PROTAC,其中三種通過基於細胞的測定和蛋白質印跡分析進行了驗證。進一步測試了一種主要候選藥物,並在小鼠中證明了良好的藥代動力學。這種深度學習和分子模擬的結合可以促進合理的 PROTAC 設計和優化。

該研究以「Accelerated rational PROTAC design via deep learning and molecular simulations」為題,於 2022 年 9 月 15 日釋出在《Nature Machine Intelligence》。

自 2001 年首次對蛋白水解靶向嵌合體(PROTACs)進行概念驗證研究以來,PROTACs 已成為使用泛素-蛋白酶體系統選擇性降解疾病相關蛋白的有效工具。

PROTAC 包含三部分:靶向目標蛋白 (POI) 的配體(彈頭)、募集 E3 泛素連線酶的配體和連線兩個配體的化學接頭。由於這種異雙功能結構,PROTACs 能夠同時結合 POI 和 E3 連線酶,形成三元複合物並促進 POI 的多泛素化和降解。因此,PROTACs 只需要與靶蛋白瞬時結合即可誘導泛素化和降解,這與傳統的佔用驅動抑制劑不同,後者需要與靶蛋白的可藥化位點具有足夠的結合親和力。

此外,PROTAC 不限於佔據可成藥的活性位點,因此有可能利用靶蛋白的所有表面結合位點來調節「不可成藥」的靶點。因此,PROTAC 的合理設計比傳統的小分子發現更具挑戰性。

PROTACs的合理設計可以分為三個元件的設計。雖然彈頭和 E3 配體的發現與常規小分子發現過程沒有根本區別,但接頭的設計在實驗上具有挑戰性,因為 POI 和 E3 連線酶在沒有有效 PROTAC 的情況下不會相互作用。傳統方法必須通過大量的測試和試驗來設計新的 PROTAC,效率極低。最近的許多努力通過生成接頭將目標轉移到從頭 PROTAC 設計,因為越來越多地知道接頭對 PROTAC 的物理化學性質和降解活性至關重要。

不幸的是,由於三元結構的結構複雜性和動力學,聯結器設計仍然是一項艱鉅的挑戰。阻止 PROTAC 實現其治療潛力的另一個主要挑戰是設計的分子不符合與口服藥物相關的公認藥物特性。由於 PROTAC 的大而靈活的性質,增強藥代動力學(PK)的工程已被證明具有挑戰性。因此,需要新的方法來提高新功能 PROTAC 的發現率。

在對化學空間進行智慧探索的基礎上,深度生成模型的最新突破使從頭分子設計得到了極大的推進。各種生成神經網路,例如迴圈神經網路、變換神經網路、自動編碼器和生成對抗網路,已被證明可有效生成所需的小分子、肽和抗體。

這些策略也已用於生成 PROTAC 的連結器。例如,之前 Imrie 團隊開發了一種基於圖形的深度生成器 (DeLinker),將三維 (3D) 結構資訊直接整合到設計過程中;同時,Yang團隊將連結器設計轉化為句子完成任務,並引入語言模型(SyntaLinker)來生成新的連結器,給定命中片段的簡化分子輸入行輸入系統(SMILES)。這兩種方法都演示了為從頭 PROTAC 設計生成各種連結器。

然而,這些方法僅限於對小分子的訓練,沒有考慮小分子和 PROTAC 在設計策略和化學空間上的差異。此外,他們沒有考慮生成分子的藥物代謝和 PK 特性。

這部分是因為 PROTAC 公開可用的資料量極少。例如,目前最大的開源 PROTAC 資料庫僅包含 2,300 個樣本,只涵蓋了化學空間的一小部分。考慮到如此小的樣本量,訓練一個能夠同時生成具有所需屬性和多樣性的新型 PROTAC 的模型具有挑戰性。更重要的是,這些先前的生成模型都沒有實現涉及合成用於體外或體內測試的新型 PROTAC 的實驗驗證。

在新的研究工作中,中山大學的研究團隊開發了 PROTAC-RL,這是一種新穎的深度生成模型,它結合了增強型 transformer 架構和記憶輔助強化學習(RL),用於合理的 PROTAC 設計。該模型將一對 E3 配體和彈頭作為輸入和輸出設計的接頭,以生成具有良好效能的化學可行 PROTAC。

為了克服訓練資料量少的問題,研究人員首先使用具有類似於 PROTAC 的化學空間的大量準 PROTAC 小分子集合,使用 transformer 神經網路預訓練片段連結模型,通過使用帶有隨機 SMILES 片段的實際 PROTAC 進行微調。

然後將這個經過訓練的 Proformer 模型輸入到具有經驗獎勵函式的記憶輔助 RL 中,以生成具有更好 PK 屬性的 PROTAC。作為概念驗證,研究人員選擇了含溴結構域的蛋白 4 (BRD4) 靶蛋白,並生成了 5,000 個 PROTAC,通過分層機器學習分類器和物理驅動的分子模擬進一步聚類和篩選。

根據合成的可及性,研究人員合成並實驗測試了六種 BRD4 降解 PROTAC,其中三種顯示出對 BRD4 的抑制活性。一個主要候選者同時表現出對 Molt4 細胞系的高抗增殖效力和對小鼠的有利 PK。這一快速發現(在 49 天內)凸顯了深度學習和分子動力學相結合對促進高效 PROTAC 設計和優化所產生的重大影響。

圖示:方法概述。(來源:論文)

這項概念驗證研究中的設計方法產生了 50% 的成功率和 49 天的快速週轉時間,突出了將人工智慧驅動的計算策略與實驗相結合以實現更有效的候選藥物的重要性。

由於提出的模型 PROTAC-RL 是一種通用方法,它適用於廣泛的條件生成任務,並且可以同時處理多個目標函式。因此,本研究的未來方向將探索其他相關約束條件(例如細胞滲透能力或口服生物利用度)對使用本文介紹的方法設計的 PROTAC 的影響。

在當前框架下,PROTAC-RL 也有幾個潛在的限制。首先,作為 RL 方法,獎勵函式的設計對輸出至關重要。然而,由於 PROTAC 屬性預測的實驗資料不足,魯棒預測器的選擇將受到限制。一種選擇是使用一些半經驗的評分函式,如本研究所示。另一種選擇是應用對接評分函式來指導模型生成潛在的候選者。其次,當前的三元複數建模仍然依賴於物理驅動的模擬。

圖示:結合模式分析和原子模擬。(來源:論文)

正如結果顯示的那樣,通過對接獲得的最佳結果不一定是活躍的,並且已證明可控的分子動力學是有幫助的。超級計算機的快速發展可能會促進對廣泛建模模擬的需求。另一個值得嘗試的替代方法是使用最近的基於深度學習的繫結預測方法。第三,附著位點從根本上影響降解和選擇性。PROTAC-RL 目前遵循先前方法的設定,這些方法根據先前的生物活性資料預定義附著位點。

當晶體結構可用時,從這些高解析度共晶結構中識別出的溶劑暴露位置可以確定為附著位點。否則,可以通過發現結構-活性關係的資料並結合可解釋的人工智慧和分子動力學模擬的檢查來確定合適的附著點。最後,蛋白質結構預測和蛋白質-蛋白質相互作用預測方面的進展可能使三元複雜結構的建模更加準確。

總體而言,該團隊的結果表明,將現代深度學習方法應用於 PROTAC 發現的時機已經成熟。這些努力可以提高發現新分子實體的速度,減少識別這些分子所需的資源並降低相關成本。相信該工作中描述的策略將激發未來的 PROTAC 設計工作。

論文連結:http://www.nature.com/articles/s42256-022-00527-y

「其他文章」