- +1
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)哪家強(qiáng)??jī)纱髧?guó)際團(tuán)隊(duì)同日在頂刊開(kāi)源代碼
但“看清”蛋白的結(jié)構(gòu)和人類(lèi)的很多疾病機(jī)理、藥物研發(fā)等等息息相關(guān)。在蛋白質(zhì)結(jié)構(gòu)解析的幾十年歷史中,X射線晶體學(xué)、核磁共振波譜學(xué)(NMR)、冷凍電鏡(Cryo-SEM)技術(shù)紛紛發(fā)揮了巨大的貢獻(xiàn),但這些技術(shù)在科學(xué)界看來(lái),都有著勞心勞力又價(jià)格高昂的缺點(diǎn)。
如何簡(jiǎn)單地通過(guò)蛋白質(zhì)的氨基酸序列來(lái)預(yù)測(cè)其形狀?如何能解答這一問(wèn)題,了解生命運(yùn)作方式的將打開(kāi)截然不同的一扇窗。這種設(shè)想提出的50多年后,谷歌旗下人工智能公司DeepMind在去年12月的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽CASP上投下重磅,他們開(kāi)發(fā)的基于神經(jīng)網(wǎng)絡(luò)的新模型AlphaFold2擊敗了其他選手,在預(yù)測(cè)準(zhǔn)確性方面達(dá)到接近人類(lèi)實(shí)驗(yàn)結(jié)果,讓整個(gè)結(jié)構(gòu)生物學(xué)界震驚。

北京時(shí)間7月15日,DeepMind團(tuán)隊(duì)在頂級(jí)學(xué)術(shù)期刊《自然》(Nature)以“加快評(píng)審文章”(Accelerated Article Preview)形式在線發(fā)表了一篇題為“Highly accurate protein structure prediction with AlphaFold”的論文,全面詳述了半年前造成轟動(dòng)的這一模型,并首次對(duì)外分享開(kāi)源代碼。該論文于今年5月11日提交,7月12日被接收。
DeepMind團(tuán)隊(duì)向澎湃新聞(www.kxwhcb.com)記者提供了一份聲明,公司創(chuàng)始人兼首席執(zhí)行官Demis Hassabis在聲明中表示,去年在CASP14大會(huì)上我們揭曉了一個(gè)可以將蛋白質(zhì)3D結(jié)構(gòu)預(yù)測(cè)精確到原子水平的全新AlphaFold系統(tǒng),此后我們承諾會(huì)分享我們的方法,并為科學(xué)共同體提供廣泛、免費(fèi)的獲取途徑。
“今天我們邁出了承諾的第一步,在《自然》期刊上分享AlphaFold的開(kāi)源代碼,并發(fā)表了系統(tǒng)的完整方法論,詳盡細(xì)致說(shuō)明AlphaFold是如何做到精確預(yù)測(cè)蛋白質(zhì)3D結(jié)構(gòu)的。作為一家致力于推動(dòng)科學(xué)進(jìn)步的公司,我們期待看到我們的方法將為科學(xué)界啟發(fā)出什么其他新的研究方法,也期待很快能和大家分享更多我們的新進(jìn)展。”Hassabis表示。

值得一提的是,就在同一天,另一頂級(jí)期刊《科學(xué)》(Science)也在線發(fā)表了另一預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的研究文章,題為“Accurate prediction of protein structures and interactions using a three-track neural network”。
來(lái)自華盛頓大學(xué)、哈佛大學(xué)、德克薩斯大學(xué)西南醫(yī)學(xué)中心等團(tuán)隊(duì)的研究人員開(kāi)發(fā)了新的深度學(xué)習(xí)工具RoseTTAFold,其擁有媲美AlphaFold2的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)超高準(zhǔn)確度,而且更快、所需計(jì)算機(jī)處理能力更低。同樣,研究團(tuán)隊(duì)也對(duì)外分享了開(kāi)源代碼。該論文提交于6月7日,7月7日被接收。
清華大學(xué)生命科學(xué)學(xué)院院長(zhǎng)、高精尖中心執(zhí)行主任王宏偉對(duì)澎湃新聞(www.kxwhcb.com)記者表示,“高質(zhì)量結(jié)構(gòu)預(yù)測(cè)的源代碼開(kāi)放對(duì)整個(gè)科學(xué)界尤其是結(jié)構(gòu)生物學(xué)領(lǐng)域的促進(jìn)作用必然是巨大的。”他評(píng)價(jià)道,對(duì)于DeepMind這樣一家商業(yè)公司來(lái)說(shuō),“團(tuán)隊(duì)愿意向公眾分享代碼,是一個(gè)新型科研范式的突破,將整體上有利于人類(lèi)更好地探索未知。”
預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),接近實(shí)驗(yàn)室測(cè)量
50多年前,科學(xué)家們就設(shè)想用計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。近年來(lái),共同演化、接觸圖預(yù)測(cè)、深度機(jī)器學(xué)習(xí)等技術(shù)的引入,一些實(shí)驗(yàn)室的算法精度有了很大程度的提高。
曾經(jīng)開(kāi)發(fā)出Alphago、戰(zhàn)勝人類(lèi)頂尖棋手的DeepMind團(tuán)隊(duì)是其中的佼佼者,其團(tuán)隊(duì)的強(qiáng)大和資源雄厚是一般實(shí)驗(yàn)室無(wú)法企及的。2020年12月1日,他們?cè)谏镱I(lǐng)域展現(xiàn)出實(shí)力,在兩年一度的權(quán)威蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)評(píng)估競(jìng)賽(CASP)中用AlphaFold2擊敗其他參賽團(tuán)隊(duì)。
CASP是由馬里蘭大學(xué)John Moult教授等人于1994年組織。競(jìng)賽使用的是最新解決且尚未在蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)中存放或公開(kāi)披露的結(jié)構(gòu),結(jié)構(gòu)生物學(xué)家們利用X射線晶體學(xué)、核磁共振波譜學(xué)、冷凍電鏡的方法,把這些蛋白質(zhì)的結(jié)構(gòu)解析出來(lái)。做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的團(tuán)隊(duì)則利用計(jì)算機(jī)程序來(lái)預(yù)測(cè)它們的結(jié)構(gòu)。最后由獨(dú)立的科學(xué)家團(tuán)隊(duì)則把計(jì)算機(jī)預(yù)測(cè)的模型和實(shí)驗(yàn)室的結(jié)構(gòu)對(duì)照,分析不同計(jì)算機(jī)算法的預(yù)測(cè)結(jié)果。這是一種“雙盲”測(cè)試,長(zhǎng)期以來(lái)一直是評(píng)價(jià)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性的金標(biāo)準(zhǔn)。
去年的CASP14共有84個(gè)常規(guī)題目,其中有14題因?yàn)樯飳?shí)驗(yàn)沒(méi)給出確定結(jié)構(gòu)等原因被取消或延緩,其他70個(gè)題目的單體和復(fù)合物蛋白質(zhì)所含有的氨基酸個(gè)數(shù)從73到2180不等。
19個(gè)國(guó)家的215個(gè)小組參加了CASP14。DeepMind公司的AlphaFold2預(yù)測(cè)的大部分結(jié)構(gòu)達(dá)到了空前的準(zhǔn)確度,不僅與實(shí)驗(yàn)方法不相上下,還遠(yuǎn)超解析新蛋白質(zhì)結(jié)構(gòu)的其他方法。

將實(shí)驗(yàn)方法得到的蛋白質(zhì)結(jié)構(gòu)疊加在AlphaFold2的結(jié)構(gòu)上,組成蛋白質(zhì)主鏈骨架的疊加原子之間的距離中位數(shù)(95%的覆蓋率)為0.96埃(0.096納米)。成績(jī)排第二的方法只能達(dá)到2.8埃的準(zhǔn)確度。
AlphaFold2的神經(jīng)網(wǎng)絡(luò)能在幾分鐘內(nèi)預(yù)測(cè)出一個(gè)典型蛋白質(zhì)的結(jié)構(gòu),還能預(yù)測(cè)較大蛋白質(zhì)(比如一個(gè)含有2180個(gè)氨基酸、無(wú)同源結(jié)構(gòu)的蛋白質(zhì))的結(jié)構(gòu)。該模型能根據(jù)每個(gè)氨基酸對(duì)其預(yù)測(cè)可靠性進(jìn)行精確預(yù)估,方便研究人員使用其預(yù)測(cè)結(jié)果。
AlphaFold2最終被Moult評(píng)價(jià)道,“在某種意義上,問(wèn)題已經(jīng)解決了”。
值得一提的是,在最新發(fā)布的論文中,DeepMind還簡(jiǎn)化了AlphaFold2。AlphaFold的首席研究員John Jumper說(shuō),“這個(gè)網(wǎng)絡(luò)需要幾天的計(jì)算時(shí)間來(lái)生成CASP的一些蛋白質(zhì)的結(jié)構(gòu),而開(kāi)源版本的速度要快16倍。根據(jù)蛋白質(zhì)的大小,它可以在幾分鐘到幾小時(shí)內(nèi)生成結(jié)構(gòu)。”
受AlphaFold2的啟發(fā),華盛頓大學(xué)醫(yī)學(xué)院生物化學(xué)家、蛋白質(zhì)設(shè)計(jì)研究所所長(zhǎng)David Baker等人開(kāi)發(fā)了RoseTTaFold。華盛頓大學(xué)醫(yī)學(xué)院官網(wǎng)對(duì)該研究的介紹稱,在高精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面,Baker等人“在很大程度上重現(xiàn)了DeepMind團(tuán)隊(duì)的表現(xiàn)。”
相較于AlphaFold2只解決了單個(gè)蛋白質(zhì)的結(jié)構(gòu),RoseTTaFold不僅適用于簡(jiǎn)單的蛋白質(zhì),也適用于蛋白質(zhì)復(fù)合物。據(jù)介紹,RoseTTaFold利用深度學(xué)習(xí)技術(shù),根據(jù)有限信息準(zhǔn)確、快速地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。從結(jié)構(gòu)上來(lái)看,RoseTTAFold 是一個(gè)三軌(three-track)神經(jīng)網(wǎng)絡(luò),它可以兼顧蛋白質(zhì)序列的模式、氨基酸如何相互作用以及蛋白質(zhì)可能的三維結(jié)構(gòu)。在這種結(jié)構(gòu)中,一維、二維、三維信息來(lái)回流動(dòng),使得網(wǎng)絡(luò)能夠集中推理蛋白質(zhì)的化學(xué)部分與它的折疊結(jié)構(gòu)。

巴塞爾大學(xué)的計(jì)算結(jié)構(gòu)生物學(xué)家Torsten Schwede對(duì)《科學(xué)》雜志說(shuō),許多生物功能依賴于蛋白質(zhì)之間的相互作用。“直接從序列信息中處理蛋白質(zhì)-蛋白質(zhì)復(fù)合物的能力使其對(duì)生物醫(yī)學(xué)研究中的許多問(wèn)題極具吸引力。”
Baker同時(shí)坦言,AlphaFold2的結(jié)構(gòu)更加準(zhǔn)確。但是根特大學(xué)的結(jié)構(gòu)生物學(xué)家Savvas Savvides說(shuō),Bake實(shí)驗(yàn)室的方法更好地捕捉到了“蛋白質(zhì)結(jié)構(gòu)的本質(zhì)和特性”,比如識(shí)別從蛋白質(zhì)側(cè)面伸出的原子串,這些特征是蛋白質(zhì)之間相互作用的關(guān)鍵。
紐約大學(xué)醫(yī)學(xué)院的細(xì)胞和結(jié)構(gòu)生物學(xué)家Gira Bhabha說(shuō),兩種方法都很有效。她表示,“DeepMind和Baker實(shí)驗(yàn)室的進(jìn)展都是驚人的,將改變我們利用蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)推進(jìn)生物學(xué)的方式。”
開(kāi)源代碼,如何促進(jìn)整個(gè)科學(xué)界?
相比于去年年底帶來(lái)的震撼,這次外界更感興趣的是上述兩支團(tuán)隊(duì)開(kāi)源代碼這一動(dòng)作。
此前的6月中旬,在Baker實(shí)驗(yàn)室發(fā)布RoseTTAFold預(yù)印本三天之后,DeepMind的Hassabis在推特上表示,AlphaFold2的細(xì)節(jié)正在接受一份出版物的審查,公司將“為科學(xué)界提供廣泛的免費(fèi)訪問(wèn)”。
而從6月1日開(kāi)始,Baker等人已經(jīng)開(kāi)始挑戰(zhàn)他們的方法,讓研究人員發(fā)送來(lái)他們最令人困惑的蛋白質(zhì)序列。加州大學(xué)舊金山分校的結(jié)構(gòu)生物物理學(xué)家David Agard的研究小組發(fā)送了一組沒(méi)有已知類(lèi)似蛋白質(zhì)的氨基酸序列,幾個(gè)小時(shí)內(nèi),他的團(tuán)隊(duì)就得到了一個(gè)蛋白質(zhì)模型,“這可能為我們節(jié)省了一年的工作。”Agard說(shuō)。
除了免費(fèi)提供RoseTTaFold的代碼外,Baker團(tuán)隊(duì)還建立了一個(gè)服務(wù)器,研究人員可以插入蛋白質(zhì)序列并得到預(yù)測(cè)的結(jié)構(gòu)。貝克說(shuō),自從上個(gè)月推出以來(lái),該服務(wù)器已經(jīng)預(yù)測(cè)了大約500人提交的5000多種蛋白質(zhì)的結(jié)構(gòu)。
不過(guò),上述兩支團(tuán)隊(duì)的源代碼都是免費(fèi)的,但也有觀點(diǎn)認(rèn)為,對(duì)于沒(méi)有技術(shù)專長(zhǎng)的研究人員來(lái)說(shuō),它可能還不是特別有用。不過(guò),DeepMind的科學(xué)人工智能負(fù)責(zé)人Pushmeet Kohli表示,DeepMind已經(jīng)與一些選定的研究人員和組織合作,以預(yù)測(cè)特定的目標(biāo),其中包括總部位于瑞士日內(nèi)瓦的非營(yíng)利組織“Drugs for ignored Diseases”。“在這個(gè)領(lǐng)域,我們還有很多想做的事情。”
Hassabis提到,去年在CASP14大會(huì)上我們揭曉了一個(gè)可以將蛋白質(zhì)3D結(jié)構(gòu)預(yù)測(cè)精確到原子水平的全新AlphaFold系統(tǒng),此后我們承諾會(huì)分享我們的方法,并為科學(xué)共同體提供廣泛、免費(fèi)的獲取途徑。“今天我們邁出了承諾的第一步,在《自然》期刊上分享AlphaFold的開(kāi)源代碼,并發(fā)表了系統(tǒng)的完整方法論,詳盡細(xì)致說(shuō)明AlphaFold是如何做到精確預(yù)測(cè)蛋白質(zhì)3D結(jié)構(gòu)的。作為一家致力于推動(dòng)科學(xué)進(jìn)步的公司,我們期待看到我們的方法將為科學(xué)界啟發(fā)出什么其他新的研究方法,也期待很快能和大家分享更多我們的新進(jìn)展。”
DeepMind團(tuán)隊(duì)認(rèn)為,這一精準(zhǔn)的預(yù)測(cè)算法可以讓蛋白質(zhì)結(jié)構(gòu)解析技術(shù)跟上基因組革命的發(fā)展步伐。
Baker團(tuán)隊(duì)也提到,“我們希望這個(gè)新工具將繼續(xù)造福整個(gè)研究界。”
中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院強(qiáng)磁場(chǎng)科學(xué)中心研究員謝燦對(duì)澎湃新聞(www.kxwhcb.com)記者表示,“總的來(lái)說(shuō),對(duì)學(xué)術(shù)界來(lái)肯定是好事,肯定會(huì)促進(jìn)結(jié)構(gòu)生物學(xué)和相關(guān)領(lǐng)域的發(fā)展。在承認(rèn)學(xué)術(shù)貢獻(xiàn)的基礎(chǔ)上的開(kāi)放和共享,本來(lái)就應(yīng)該是學(xué)術(shù)研究最基本的要求。”
結(jié)構(gòu)生物學(xué)是謝燦的“老本行”,“我當(dāng)年花了8年的時(shí)間去解析一個(gè)蛋白的晶體結(jié)構(gòu),我能切身體會(huì)如果有一個(gè)精準(zhǔn)預(yù)測(cè)蛋白結(jié)構(gòu)的算法出現(xiàn),對(duì)結(jié)構(gòu)生物學(xué)家意味著什么。”
但他認(rèn)為,不必要擔(dān)憂這些算法的出現(xiàn)會(huì)讓結(jié)構(gòu)生物學(xué)家失業(yè),在技術(shù)迭代之下,結(jié)構(gòu)生物學(xué)這些年受到的沖擊太多了,“而事實(shí)上,只不過(guò)是某一個(gè)領(lǐng)域某一個(gè)技術(shù)在某一個(gè)歷史階段更容易出工作出成績(jī)。”謝燦認(rèn)為,無(wú)論再精準(zhǔn)的預(yù)測(cè),終究也只是預(yù)測(cè),“AlphaFold2不是實(shí)驗(yàn),同樣也需要實(shí)驗(yàn)去證實(shí)。”
王宏偉在AlphaFold2剛出現(xiàn)之時(shí)也曾評(píng)價(jià)道,對(duì)于復(fù)雜的結(jié)構(gòu)生物學(xué)問(wèn)題,預(yù)測(cè)手段本身還不能號(hào)稱完全解決了問(wèn)題。實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)領(lǐng)域接下來(lái)需要做的一個(gè)事情是要擁抱變化,更好地與預(yù)測(cè)方法結(jié)合以及共同發(fā)展。
相關(guān)論文鏈接:
https://www.nature.com/articles/s41586-021-03819-2
https://science.sciencemag.org/content/early/2021/07/14/science.abj8754





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司