蛋白質和自然語言:人工智慧使設計新型蛋白質成為可能

語言: CN / TW / HK

編輯 | 蘿蔔皮

蛋白質設計旨在構建針對特定目的定製的新型蛋白質,從而具有解決許多環境和生物醫學問題的潛力。基於 Transformer 的體系結構的最新進展已經實現了能夠生成具有類人能力的文字的語言模型。

受這一思想啟發,拜羅伊特大學的研究人員描述了 ProtGPT2,這是一種在蛋白質空間上訓練的語言模型,它按照自然的原則生成從頭蛋白質序列。生成的蛋白質顯示出天然氨基酸傾向,而無序預測表明 ProtGPT2 生成的蛋白質中有 88% 是球狀的,與天然序列一致。

蛋白質資料庫中的敏感序列搜尋表明 ProtGPT2 序列與自然序列關係較遠,相似性網路則進一步表明 ProtGPT2 是在對蛋白質空間的未探索區域進行取樣。

ProtGPT2 序列經 AlphaFold 預測,可產生具有實施例和大迴圈的良好摺疊的非理想化結構,這也揭示了當前結構資料庫中未捕獲的拓撲。

ProtGPT2 可在幾秒鐘內生成序列並且免費。

該研究以「ProtGPT2 is a deep unsupervised language model for protein design」為題,於 2022 年 7 月 27 日釋出在《Nature Communications》。

近年來,自然語言處理(NLP)取得了非凡的進步。大型預訓練語言模型已經徹底改變了 NLP 領域,隨之而來的是人們日常生活中使用的許多工具,例如聊天機器人、智慧助手或翻譯機。領域內研究人員早就注意到蛋白質序列和人類語言之間的類比。蛋白質序列可以描述為來自化學定義字母表的字母、天然氨基酸的串聯,並且像人類語言一樣,這些字母排列形成二級結構元素(單詞),這些元素組合形成域(句子) 承擔某種功能(意義)。

最吸引人的相似之處之一是蛋白質序列,就像自然語言一樣,是資訊完整的:它們以極高的效率完全按照氨基酸順序儲存結構和功能。隨著 NLP 領域在理解和生成具有接近人類能力的語言方面的非凡進步,假設這些方法為僅從序列解決蛋白質相關問題(例如蛋白質設計)打開了一扇新的大門。儘管蛋白質序列和人類語言並非沒有差異,但幾十年來,它們的類比激發了應用 NLP 方法解決蛋白質研究問題。

有監督的 NLP 方法,其中輸入序列與其標籤聯合訓練以產生預測模型,已應用於各種任務,例如檢測結構相似性或預測穩定性。BioSeq-BLM 平臺提供了大量應用於生物分子的監督語言模型。然而,自從 Transformer 誕生以來,在未標記資料上進行訓練的無監督學習已經成為一種通用的語言建模工具。一些基於 Transformer 的模型,例如 TCR-BERT、epiBERTope、ESM、ProtTrans 或 ProteinBERT,已經證明與其他方法相比非常具有競爭力。

這些模型中的大多數使用類似 BERT 的架構和去噪自動編碼訓練目標,即,它們通過以某種方式破壞輸入標記並嘗試重建原始句子來進行預訓練。儘管這些模型可以針對生成進行調整,但它們最直接的應用是序列嵌入。

語言模型的另一個重要分支受益於自迴歸訓練,即模型被訓練來預測給定上下文的後續單詞。這些模型,其中最著名的可能是 GPT-x 系列,擅長生成長而連貫的文字——有時甚至引發了很多關於它們潛在濫用的爭論。蛋白質自迴歸語言模型,如 ProGen、RITA 和 DARK 也已被研究,並顯示了自迴歸 Transformer 用於蛋白質設計的潛力。

受到這些工作和 GPT-x 系列等英語模型不斷增強的能力的啟發,研究人員想知道是否可以訓練生成模型來(i)有效地學習蛋白質語言,(ii)生成合適、穩定的蛋白質 ,以及 (iii) 瞭解這些序列與自然序列的關係,包括它們是否對蛋白質空間中看不見的區域進行取樣。

拜羅伊特大學的研究人員提出了 ProtGPT2,這是一種自迴歸 Transformer 模型,具有 7.38 億個引數,能夠以高通量方式生成從頭蛋白質序列。ProtGPT2 在對跨越整個蛋白質空間的大約 50 個未註釋的百萬序列進行訓練後,有效地學習了蛋白質語言。

圖示:在上下文輸入後 GPT2-large 具有不同取樣引數的示例。(來源:論文)

ProtGPT2 生成的蛋白質序列具有與天然序列相當的氨基酸和紊亂傾向,同時與當前的蛋白質空間「進化」相距甚遠。二級結構預測計算出 88% 的序列是球狀的,與天然蛋白質一致。使用相似性網路表示蛋白質空間表明,ProtGPT2 序列通過擴充套件自然超家族來探索蛋白質空間的「黑暗」區域。

圖示:三個資料集之間的 Rosetta 和分子動力學計算的比較。(來源:論文)

ProtGPT2 可以生成與自然序列關係較遠的序列,其結構類似於已知的結構空間,具有非理想化的複雜結構。由於 ProtGPT2 已經在整個序列空間上進行了訓練,因此該模型產生的序列可以對任何區域進行取樣,包括暗蛋白質組和傳統上被認為在蛋白質設計領域非常具有挑戰性的區域,例如全β結構和膜蛋白。

ProtGPT2 蛋白與遠相關的天然蛋白結構的視覺疊加表明,ProtGPT2 還捕獲了功能決定因素,保留了配體結合相互作用。由於人工蛋白質的設計可以解決許多生物醫學和環境問題,研究人員認為蛋白質語言模型將有非凡的潛力。

圖示:ProtGPT2 生成的蛋白質空間和蛋白質示例的概述。(來源:論文)

ProtGPT2 設計可在幾秒鐘內擬合球狀蛋白質,無需在標準工作站上進行進一步培訓。ProtGPT2 可以通過在使用者選擇的一組序列上微調模型來適應特定的家族、功能或摺疊。在這種情況下,ProtGPT2 將能夠篩選與天然蛋白質相似的蛋白質,以改善、微調或改變天然蛋白質的特定生化功能。

圖示:序列 357 和 475 的預測結構以及 FoldSeek 中各自得分最高的蛋白質的疊加。(來源:論文)

對 ProtGPT2 設計的蛋白質庫進行大規模篩選可能會識別出結構資料庫中未捕獲的摺疊蛋白質和在自然空間中沒有相關對應物的功能。ProtGPT2 朝著高效的蛋白質設計和生成邁出了一大步,併為未來探索設計蛋白質的結構和功能引數及其後續實際應用的實驗研究奠定了基礎。未來的努力包括包含條件標籤,這將使特定功能的受控生成成為可能。

模型和資料集:https://huggingface.co/nferruz/ProtGPT2

論文連結:https://www.nature.com/articles/s41467-022-32007-7

相關報道:https://phys.org/news/2022-08-proteins-natural-language-artificial-intelligence.html

人工智慧 × [ 生物 神經科學 數學 物理 材料 ]

「ScienceAI」關注人工智慧與其他前沿技術及基礎科學的交叉研究與融合發展

歡迎 註標星 ,並點選右下角 點贊 在看

點選 讀原文 ,加入專業從業者社群,以獲得更多交流合作機會及服務。