照亮整個蛋白質宇宙:DeepMind“順手”放的大招,要一舉攻克漸凍人症

語言: CN / TW / HK

漸凍人症,這個陪伴了傳奇物理學家史蒂芬·霍金終生的罕見病,也已經困擾了醫生和生物科學家數十年的時間。

答案 可能就在核孔蛋白  (neucleoporins 上。 具體來說,學者們認為 漸凍人症 核孔蛋白 組成的 核孔複合體 有著極強的關聯,而這個複合體控制著細胞核與細胞質之間的物質傳遞。 如果能夠進一步瞭解核孔蛋白,我們就有可能找到根治漸凍人症的答案。

然而想得到這個答案並不容易:核孔複合體由 超過1000條 30多種不同的核孔蛋白組成,這些蛋白質以極其複雜的方式相互交錯在一起;更別提單條蛋白的大小可能只有數奈米,即便通過最先進的顯微鏡技術也很難進行有效的觀察,給生物學者造成了極大的障礙。

2019年,剛加入哈佛大學吳皓實驗室的 Pietro Fontana,就領到了核孔蛋白這個天文級難題。

他不是第一個嘗試吃螃蟹的人 ,前人在這件事上已經用盡了各種研究手段,付諸數十年的心血。 但是 Fo ntana 有強援 在手: AlphaFold ,由 英國 人工智慧科研公司 DeepMind 開發的 蛋白 預測 模型。

沒過多久,在 AlphaFold 的幫助下,Fontana 的研究就取得了關鍵性的進展:他們不僅成功預測出了之前沒有被探究清楚的一批核孔蛋白的結構,還首次繪製出了核孔複合體的胞質環 (cytoplasmic ring) 的模型圖。這一研究在今年剛剛獲得《科學》期刊刊登。

AlphaFold 協助預測的核孔蛋白組成的胞質環 圖片來源:DOI: 10.1126/science.abm9326

  這一歷史性的生物資訊學突破,為攻克像漸凍人症等罕見、難治的神經退行性疾病疾病,重新點亮了希望。

“我認為 AlphaFold 已經完全改變了結構生物學,” Fontana 表示。

有意思的是,這麼個如此重要的發現和研究,其實對於 AlphaFold 來說倒像是一件“順手”的事。

蛋白質資料庫實現千倍擴容,成為“蛋白質宇宙”

這麼說是因為:截至目前地球上已知的所有生物總共2.14億種蛋白質,其結構都已經被 AlphaFold 預測出來了。

值得一提的是,DeepMind 的研究 進展速度之快,AlphaFold 的效果之好,已經遠超“令人震驚”的水平。

首先,去年該公司首次釋出並開源了 AlphaFold 模型,當時它只預測出了人類的98%,以及其它大約1萬種生物的部分蛋白質,條數只有100萬左右——當時這一研究已經入選了《自然》年度十大科學事件。

一年後,這個資料庫就實現了200倍 擴容:

圖片來源:DeepMind

更厲害的是,現在這個資料庫已經覆蓋了動物、植物、細菌、真菌等幾乎所有已經被科學記錄的物種,總計大約100萬種。其中80%的的預測結構結果的置信度已經足以支援研究實驗的水平,更是有35%的結果置信度為高。

圖片來源:DeepMind

此次 AlphaFold 放出的“全量蛋白質結構預測資料庫”,和之前人類手工測量的資料庫相比,更是實現了1000倍的擴容。 在此之前通過標準實驗方式測量出的蛋白質結構,都存放在“蛋白質資料銀行” (PDB) 計劃的資料庫裡,今天這個資料庫的條目只有19萬條。

這簡直是為結構生物學,生物資訊學、醫藥開發等領域,送上了一份驚天大禮包——更別提資料庫還是完全免費、開放、可搜尋的:

這一最新版的 AlphaFold 資料庫,可以說其中超過 99%的蛋白質結構在此之前都是未知的。 而現在人類對於蛋白質結構的知識 突然獲得了 200倍的增長 ,可想而知未來的更多生物學和醫學進展將會更加頻繁,許多肆虐幾百年的疾病有望得到“根治",許多存在了幾十年的生物學難題也將得到破解。

斯克裡普斯研究所(世界頂級醫學研究機構)創始人 Eric Topol 直言:

“AlphaFold 照亮了幾乎整個蛋白質宇宙。”

幾分鐘破解世界級生物難題

很多細菌都能引發人類疾病,為了壓制細菌人類發明了抗生素。然而作為一種微生物,細菌自己能通過自然選擇進化的方式獲得抵抗抗生素的能力。 結果就是一些人們以為“無害”的,已經被攻克的病原體,突然就重新成為了人類的大敵。比如麻風病,接種疫苗只有有限預防效果,現在仍然在全球傳播,感染數十萬人,且需要長期服藥治療。

來自美國科羅拉多大學博爾德分校的生物學家,希望通過最“治本”的方式試圖解決抗生素抗藥性。 該校生物化學系教授 Marcelo Sousa 透露,他們的研究目標是定位到那些促使產生抗藥性的酶鏈,瞭解這些酶的蛋白質結構,然後進行“定點精確打擊”。

然而分離和提純這些酶已經非常艱難,就算提純出來,研究者發現想要了解它們的結構更是難上加難。

由於預測蛋白質結構的工作,在過去需要通過X射線晶體衍射、冷凍電鏡等實驗室技術,基本上只能人工進行,Sousa 等人在這一研 究上已經花了十年的時間 ,不知道還要多久 ——如果不是因為 AlphaFold 的出現。

研究團隊成員 Marcelo Sousa 和 Megan Mitchel 圖片來源:DeepMind

通過 AlphaFold 提供的基準預測 模型, 結合團隊已經從提純的酶晶體上獲得的資料,團隊在這些 酶的序列和結構預 測上大獲 在 AlphaFold 的幫助下,不僅預測速度有了極大提升, 預測 結果的準確程度更是十分準確。

“這個難題花了我們10年的時間都沒有做到,現在居然只用30分鐘就解決了,”Sousa 對 AlphaFold 讚歎不已。接下來,團隊可以繼續通過 AlphaFold 預測出的結果,進一步研究這條酶鏈在抗藥性形成中所扮演的角色,並且找到突破口。

“我們已經瞭解了這個鏈條當中的各種酶,現在我們只要能夠打破其中一環,就可以破解整個抗藥性的難題,”研究人員 Megan Mitchel 表示。

Sousa 則表示,AlphaFold 將對新藥發現帶來巨大的積極效果。

Marcelo Sousa 展示 AlphaFold 預測出的目標酶蛋白質結構 圖片來源:DeepMind

這只是 AlphaFold 將要幫助解決的一件“小事”。據 DeepMind 透露,目前全球已經有超過50萬研究人員在使用 AlphaFold 資料庫,這些前所未有的蛋白質結構預測資料,已經被用於尋找包括漸凍人等不治之症的治療方案、徹底解決麻風病和血吸蟲病的肆虐、發現新藥、保護種植業、開發高效降解塑料垃圾的殺手鐗等。

“我們希望這個資料庫能夠幫助無數更多的科學家,並且在科學探索上開啟全新的道路,”DeepMind 創始人兼 CEO Demis Hassabis 表示,

“就像數學是物理學的完美解釋語言一樣,我們相信 AI 是應對生物學複雜動態問題的完美工具。

附錄:AlphaFold 大事記

以下內容均來自於 DeepMind 網站:

2016年:一個隊伍成為明星,另一個隊伍開始組建

當年,DeepMind 的圍棋 AI 程式 AlphaGo 在首爾的一場挑戰賽中,擊敗了傳奇的圍棋選手李世乭。在 DeepMind 公司內部,這一關鍵性事件證明了該公司的 AI 技術已經足夠先進,有可能應用到解決其它科學挑戰當中,比如蛋白質摺疊這一存在了50年的挑戰當中。

不久之後,DeepMind 就在內部建立了一個小型團隊,開始嘗試使用深度神經網路技術進行蛋白質結構預測。

圖片來源:DeepMind

2018年:AlphaFold 效能的首次公開測試

AlphaFold 的效能在 CASP13 蛋白質結構預測比賽中排名第一,相關的方法隨後發表在《自然》期刊上。DeepMind 在內部擴充了 AlphaFold 團隊,正式開始了打造這個創新的新系統。

圖片來源:DeepMind

2020年:解決了生物學50年難題

AlphaFold 在 CASP14 蛋白質結構預測比賽中再次以三倍的巨大優勢勝出,並且準確性已經接近於X射線晶體衍射、冷凍電鏡等標準實驗方法。更厲害的是,在這次比賽上,AlphaFold 得到 CASP 舉辦方認定,破解了50年都未曾解開的蛋白質摺疊難題。《自然》期刊直接評價這一事件“改變了一切”。

同年12月,Demis Hassabis 和 AlphaFold 專案主管 John Jumper 公開承諾,將對外開放 AlphaFold。

圖片來源:CASP

2021年:一邊創造歷史,一邊全面開源

DeepMind 在去年兌現了開放 AlphaFold 的承諾。該公司在《自然》發表論文,公開了 AlphaFold 研發過程中採用的詳細方法,並且開源了相關程式碼,提供了60頁詳細補充資料。

去年7月, DeepMind 再次發表論文,展示 AlphaFold 已經成功預測了整個人類蛋白質組。 這一 發表讓 已知的 高置信度人類 蛋白質結構 數量翻了一倍。該公司 和歐洲分子生物學實驗室 (EMBL-EBI) 合作公開了資料庫,包括人類蛋白質組以及另外20種模式生物(受到廣泛研究的生物)的蛋白質組,總共超過35萬條。

圖片來源:DeepMind
圖片來源:DeepMind

去年10月,DeepMind 釋出了一個修改版的子模型,名為“AlphaFold-Multimer”,抓木門用於蛋白質複合物的結構預測。隨後在11月,該公司將相關子模型程式碼整合到 AlphaFold 二代程式碼當中,顯著提高了多鏈蛋白質結構的預測準確度。

同年12月,DeepMind 向 AlphaFold資料庫當中增加了超過40萬條蛋白質結構。

2022年:資料庫持續幾何級增長

今年1月,DeepMind 宣佈已經有超過30萬研究者使用了 AlphaFold資料庫,並且添加了超過27個蛋白質組,總計超過19萬條蛋白質結構預測資料。這次新增的重要性在於其中17個蛋白質組都和被忽視熱帶疾病有關,影響全球十多億人。

7月(本次),DeepMind 將 AlphaFold 資料庫從近100萬條擴充套件到2.14億條,覆蓋了人類已知的絕大多數蛋白質(也即 UniProt 蛋白質資料庫的大部分內容)

*注:封面圖來自於 DeepMind ,版權屬於原作者。如果不同意使用,請儘快聯絡我們,我們會立即刪除。