- +1
又一個(gè)卡脖子技術(shù):中國(guó)的AlphaFold在哪兒?
·DeepMind公司稱,AlphaFold預(yù)測(cè)出了2億多個(gè)蛋白質(zhì)結(jié)構(gòu)。
·“有人在說AlphaFold開源了,我們國(guó)家不用搞了,這是大錯(cuò)特錯(cuò)?!?/u>
在復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長(zhǎng)馬劍鵬教授看來,AlphaFold是又一個(gè)卡脖子的核心技術(shù)。
幾乎預(yù)測(cè)了整個(gè)蛋白質(zhì)宇宙
2022年7月28日,英國(guó)DeepMind公司表示,AlphaFold已經(jīng)預(yù)測(cè)了全球幾乎所有的蛋白質(zhì)結(jié)構(gòu),短短一年時(shí)間,他們的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)從200萬個(gè)擴(kuò)增到超2億個(gè)。
AlphaFold也是繼AlphaGo(阿爾法狗)之后,DeepMind重磅打造的一款智能人工系統(tǒng),主要被用來預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。那么,AlphaFold運(yùn)行基本原理是怎樣的?
它運(yùn)用了機(jī)器學(xué)習(xí)算法,配置了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),并且接受了蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(PDB)以及其他數(shù)據(jù)庫中數(shù)十萬個(gè)實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)和序列的訓(xùn)練。
經(jīng)過訓(xùn)練后,AlphaFold在面對(duì)一個(gè)新的基因序列時(shí),首先在數(shù)據(jù)庫中尋找相關(guān)基因序列,然后經(jīng)過大量的計(jì)算和比對(duì),對(duì)新基因序列對(duì)應(yīng)的蛋白質(zhì)3D結(jié)構(gòu)進(jìn)行預(yù)測(cè),它的預(yù)測(cè)結(jié)果具有非??捎^的精確度。
回溯到一年前,2021年7月,也就是AlphaFold發(fā)布蛋白質(zhì)數(shù)據(jù)庫和開源代碼初期,DeepMind就已經(jīng)用AlphaFold預(yù)測(cè)了98.5%的人類蛋白質(zhì)結(jié)構(gòu),相關(guān)結(jié)果發(fā)表在《自然》雜志上。
在很多專家看來,AlphaFold還只是對(duì)未來的“驚鴻一瞥”,它將生物學(xué)帶入了一個(gè)數(shù)字時(shí)代,并且它將改變?nèi)蛏镝t(yī)學(xué)研究現(xiàn)狀。
目前,DeepMind與被忽視疾病藥物倡議(DNDI)合作,來推進(jìn)他們的研究成果。同時(shí),DeepMind還對(duì)被世界衛(wèi)生組織(WHO)確定為高度優(yōu)先研究的生物體進(jìn)行了結(jié)構(gòu)預(yù)測(cè),幫助科學(xué)家進(jìn)一步研究麻風(fēng)病和血吸蟲病等頑疾。
DeepMind創(chuàng)始人Demis Hassabis。 視覺中國(guó) 資料圖
對(duì)此,DeepMind創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)發(fā)出感慨,“AlphaFold已經(jīng)對(duì)我們一些最大的全球挑戰(zhàn)產(chǎn)生了令人難以置信的影響。我們希望這個(gè)擴(kuò)展的數(shù)據(jù)庫將幫助無數(shù)科學(xué)家完成他們的重要工作,并為科學(xué)發(fā)現(xiàn)開辟全新的途徑?!?/p>
AlphaFold給全球生命科學(xué)領(lǐng)域?qū)W者的科研工作提供了便利,我國(guó)學(xué)者正在致力于探索“屬于中國(guó)的AlphaFold”。但做得怎么樣,有無自己的原創(chuàng)技術(shù)?
如何打造一款中國(guó)的AlphaFold?
國(guó)內(nèi)對(duì)AlphaFold的關(guān)注,是最近兩年的事。
2020年底,冰洲石生物科技(AccutarBio)宣布完成了近億美元融資,致力于運(yùn)用通過深度學(xué)習(xí)和物理建模的方式在海量數(shù)據(jù)上進(jìn)行訓(xùn)練得到的計(jì)算模型來替代生物學(xué)和化學(xué)實(shí)驗(yàn),以此來加速創(chuàng)新藥的研發(fā)。
AccutarBio創(chuàng)始人范捷博士表示,他們的愿景是用AI全面提升創(chuàng)新藥物研發(fā)的速度和效率,推出擁有全球?qū)@乃幬锂a(chǎn)品,致力于利用顛覆性技術(shù)的力量不斷去改變藥物發(fā)現(xiàn)行業(yè)。
致力于AI跨界融合的團(tuán)隊(duì)并非個(gè)例。2021年12月,北京深勢(shì)科技推出一款蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具Uni-Fold,并同時(shí)開源訓(xùn)練代碼和推理代碼,供各界科學(xué)家和企業(yè)家測(cè)試使用。
由于AlphaFold只是開源了模型推理代碼,并沒有開源訓(xùn)練代碼,因此科研人員只能按照AlphaFold設(shè)計(jì)好的流程進(jìn)行使用,而不能對(duì)其訓(xùn)練過程做出調(diào)整,來遷移至更多的應(yīng)用場(chǎng)景。
中科院院士、北京大學(xué)教授鄂維南表示,“盡管DeepMind開源了推理代碼,但模型的訓(xùn)練技術(shù)才是核心的競(jìng)爭(zhēng)力”。

復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長(zhǎng)馬劍鵬教授
同樣,2021年12月,復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長(zhǎng)馬劍鵬教授的團(tuán)隊(duì)和上海人工智能實(shí)驗(yàn)室合作,在《生物信息學(xué)簡(jiǎn)報(bào)》(Briefings in Bioinformatics)上發(fā)表了一篇名為“OPUS-Rota4: agradient-based protein side-chain modeling framework assisted by deeplearning-based predictors”的論文,簡(jiǎn)述了他們開發(fā)的算法成果。
研究團(tuán)隊(duì)研發(fā)出的具有自主知識(shí)產(chǎn)權(quán)的OPUS系列算法,這個(gè)算法可以用于預(yù)測(cè)蛋白質(zhì)主鏈和側(cè)鏈的三維結(jié)構(gòu),值得一提的是,其中的蛋白質(zhì)側(cè)鏈預(yù)測(cè)算法即OPUS-Rota4算法,精度比AlphaFold更勝一籌。
具體而言,研究人員使用AlphaFold得到了15個(gè)蛋白的預(yù)測(cè)結(jié)構(gòu),并利用不同方法根據(jù)預(yù)測(cè)出的主鏈結(jié)構(gòu)對(duì)其側(cè)鏈進(jìn)行重新建模。其結(jié)果顯示,OPUS-Rota4的結(jié)果顯著優(yōu)于其它側(cè)鏈建模方法,而且比AlphaFold預(yù)測(cè)的側(cè)鏈更接近天然構(gòu)象。

不同側(cè)鏈建模方法對(duì)CASP14-AF2(15)的性能。
就在前不久,又有一家國(guó)內(nèi)AI制藥企業(yè)華深智藥宣布,在AI和生命科學(xué)結(jié)合領(lǐng)域?qū)崿F(xiàn)了一個(gè)重要進(jìn)展,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面開發(fā)出新的技術(shù)——OmegaFold。
總的來說,利用AI推動(dòng)生命科學(xué)發(fā)展的研究正在國(guó)內(nèi)遍地開花。各大企業(yè)和高校團(tuán)隊(duì)在不斷推進(jìn)AI和生物制藥的跨界融合,他們正在努力趕超DeepMind公司的AlphaFold。很顯然,這一領(lǐng)域的源頭創(chuàng)新并不在我們手上,怎樣做才能保持優(yōu)勢(shì)呢?
“我們必須從底層技術(shù)做起”
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)早已不是一個(gè)新的領(lǐng)域,科學(xué)家已經(jīng)做了五十多年,但是直到AlphaFold的出現(xiàn),這一領(lǐng)域的研究才出現(xiàn)突破性成果。
在很多業(yè)內(nèi)專家看來,它的出現(xiàn)某種程度上是靠科學(xué)家個(gè)人去發(fā)揮他們的創(chuàng)造性。但我國(guó)在這一領(lǐng)域發(fā)展也有一定優(yōu)勢(shì),這就是計(jì)算機(jī)系統(tǒng)工程??茖W(xué)問題的工程化,AlphaFold也是非常典型的例子之一。
目前,我國(guó)還沒有能夠完全超越AlphaFold的核心技術(shù),要實(shí)現(xiàn)真正“從0到1”的突破,或許還需要一些時(shí)間。
馬劍鵬在受訪中表示,“有人在說AlphaFold開源了,我們國(guó)家不用搞了,這是大錯(cuò)特錯(cuò)。第一,他們所謂的開源只是表層結(jié)構(gòu)開源了,底層技術(shù)沒有開源。第二,你把它拿來你只能做他們的東西,你沒有辦法提高,就像航空發(fā)動(dòng)機(jī)你買來可以,你能往前再進(jìn)一步嗎?”
馬劍鵬認(rèn)為,我們必須從底層技術(shù)做起,掌握核心算法。
參考資料
1. 對(duì)標(biāo)AlphaFold2!深勢(shì)科技發(fā)布Uni-Fold蛋白結(jié)構(gòu)預(yù)測(cè)工具,并開源訓(xùn)練代碼.深勢(shì)科技.
https://mp.weixin.qq.com/s/Zhn3HJpLnznLM1bpu6D1ew
2. OPUS-Rota4: a gradient-based protein side-chain modeling framework assisted by deep learning-based predictors.Briefings in Bioinformatics.
https://academic.oup.com/bib/article/23/1/bbab529/6461160
3. 超越谷歌“AlphaFold2”,為新藥研發(fā)提供利器:復(fù)旦復(fù)雜體系多尺度研究院團(tuán)隊(duì)發(fā)表全新蛋白質(zhì)側(cè)鏈預(yù)測(cè)成果.復(fù)旦大學(xué).
https://mp.weixin.qq.com/s/idWh_IO66Nhry4LfeITmIA
https://www.sohu.com/a/510336879_629135
4. 全球首個(gè)! 華深智藥完成單條序列蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)最后一塊拼圖.華深智藥.
https://mp.weixin.qq.com/s/DY3I13k_9QsIpCmyvQBlPg
5. AlphaFold reveals the structure of the protein universe.DeepMind.
https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
6. 對(duì)話復(fù)旦復(fù)雜體系多尺度研究院院長(zhǎng):蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)為何突破.新浪科技.
https://finance.sina.com.cn/tech/2021-11-01/doc-iktzqtyu4671024.shtml
7. Finally, an answer to the question: AI — what is it good for?.VOX.
https://www.vox.com/future-perfect/2022/8/3/23288843/deepmind-alphafold-artificial-intelligence-biology-drugs-medicine-demis-hassabis
更正:本文稍早之前的版本,多處將“復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長(zhǎng)馬劍鵬教授”誤寫成“馬建鵬”,特此更正,并向馬劍鵬教授及讀者致以歉意。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司