- +1
《自然》封面:人工智能掀起材料革命,將顛覆人類科研方式

發(fā)現(xiàn)一種新的材料是非常艱難的過程,通常要經(jīng)歷無數(shù)次失敗,偶爾在機緣巧合之下取得成果,還要費勁功夫反向檢測這種新材料的性質(zhì)。但有一批材料科學(xué)家轉(zhuǎn)換思路,使用計算機模型和機器學(xué)習(xí)算法生成海量假想的材料,建立數(shù)據(jù)庫,從中篩選出值得合成的材料,再通過檢索這些材料可能擁有的性質(zhì)進行具體應(yīng)用測試,比如將這種材料用作導(dǎo)體表現(xiàn)如何、用作絕緣體性能又如何、這種材料是否具有磁性、那種材料的抗壓力是多少。
2016年5月5日,Nature 將一篇機器學(xué)習(xí)算法改變材料發(fā)現(xiàn)方式的論文放上封面,并提出“從失敗中學(xué)習(xí)”:美國研究者利用機器學(xué)習(xí)算法,用失敗或不成功的實驗數(shù)據(jù)預(yù)測了新材料的合成,并且在實驗中機器學(xué)習(xí)模型預(yù)測的準(zhǔn)確率超過了經(jīng)驗豐富的化學(xué)家,這意味著機器學(xué)習(xí)將改變傳統(tǒng)材料發(fā)現(xiàn)方式,發(fā)明新材料的可能性也大幅提高。
使用計算機模型和機器學(xué)習(xí)算法的好處在于,失敗的實驗數(shù)據(jù)也能用作下一輪的輸入,繼而不斷完善算法。倫敦帝國學(xué)院研究副院長、材料科學(xué)家 Neil Alford 以觀察者身份發(fā)表評論,這種做法代表了實驗科學(xué)和理論科學(xué)的真正融合。
加州大學(xué)伯克利分校的材料科學(xué)家 Gerbrand Ceder 在接受 Nature 記者采訪時說,使用機器學(xué)習(xí)算法有望大幅提高新材料發(fā)現(xiàn)的速度和效率。Ceder 是最早開始使用計算模型和機器學(xué)習(xí)生成假想材料的科學(xué)家之一,他以化合物磷酸鐵鋰為例:磷酸鐵鋰最初于 20 世紀(jì) 30 年代被合成,但當(dāng)時世人并不認(rèn)為這種材料會有多大用途,直到 1996 年科學(xué)家發(fā)現(xiàn)磷酸鐵鋰大有取代現(xiàn)有鋰離子電池的可能。
哈佛大學(xué)的研究者采用計算材料科學(xué)思路,使用“失敗”數(shù)據(jù),成功完成了這篇被選為本期 Nature 封面的論文。
有了機器學(xué)習(xí),再也不怕失敗了
論文標(biāo)題:Machine-learning-assisted materials discovery using failed experiments
作者:Paul Raccuglia、Katherine C. Elbert、Philip D. F. Adler、Casey Falk、Malia B. Wenny、Aurelio Mollo、Matthias Zeller、Sorelle A. Friedler、Joshua Schrier、Alexander J. Norquist
來源:Nature 533, 73–76 (05 May 2016) doi:10.1038/nature17439
使用失敗實驗在機器學(xué)習(xí)輔助下進行材料發(fā)現(xiàn)(摘譯)
對諸如有機模板合成的金屬氧化物、金屬有機骨架(MOF)和有機鹵化鈣鈦礦等無機-有機雜化材料的研究已經(jīng)持續(xù)了數(shù)十年。水熱法和(非水)溶劑熱合成已經(jīng)產(chǎn)生了數(shù)千種新材料,這些新材料幾乎包含了元素周期表中的所有元素。然而,我們?nèi)晕闯浞掷斫膺@些化合物的形成過程,對新化合物的開發(fā)主要依靠試探性合成。在Materials Genome Initiative的推動下,計算機模擬和數(shù)據(jù)驅(qū)動的方法成為對實驗試錯方法的替代選擇。三個主要的策略是:基于模擬來預(yù)測材料的電荷遷移率、光生伏打性質(zhì)、氣體吸附能力和鋰離子嵌入等物理性質(zhì),從而確定那些有前景的合成對象。通過整合高通量合成與測量工具,從大規(guī)模實驗數(shù)據(jù)中確定材料的結(jié)構(gòu)-性質(zhì)關(guān)系。基于諸如沸石結(jié)構(gòu)分類和氣體吸附性能等相似的晶體結(jié)構(gòu),對材料進行聚類。
在這里,我們展示了用反應(yīng)數(shù)據(jù)訓(xùn)練機器學(xué)習(xí)算法,繼而預(yù)測模板合成的釩亞硒酸鹽結(jié)晶過程的反應(yīng)結(jié)果。我們使用未發(fā)表的“黑暗”反應(yīng)信息,這些反應(yīng)信息來自那些失敗或未成功的水熱合成實驗。我們從實驗室的筆記本檔案中收集了這些信息,并運用化學(xué)信息學(xué)技術(shù)為筆記本中的原始數(shù)據(jù)添加了理化性質(zhì)描述。我們用由此產(chǎn)生的數(shù)據(jù)訓(xùn)練機器學(xué)習(xí)模型預(yù)測反應(yīng)能否成功。當(dāng)使用先前未經(jīng)測試的、市場有售的有機砌塊進行水熱合成實驗時,我們的機器學(xué)習(xí)模型獲得了比傳統(tǒng)人類策略更好的效果,并成功預(yù)測了有機模板合成的無機物的形成條件,成功率達 89%。對機器學(xué)習(xí)模型進行反演后,可以揭示出關(guān)于成功產(chǎn)物形成條件的嶄新假設(shè)。
實驗中機器學(xué)習(xí)模型反饋機制示意圖

機器學(xué)習(xí)模型超越傳統(tǒng)人類策略

支持向量決策樹

算法生成的假設(shè)及其化學(xué)三維結(jié)構(gòu)模型

我們的機器學(xué)習(xí)方法使我們能夠利用包含歷史反應(yīng)的化學(xué)信息,并闡明支配反應(yīng)結(jié)果的因素。機器學(xué)習(xí)模型對先前未經(jīng)測試的有機胺的預(yù)測準(zhǔn)確率,超過了依靠多年來形成的化學(xué)直覺所實現(xiàn)的準(zhǔn)確率。此外,我們的方法以可驗證的假設(shè)形式揭示了支配反應(yīng)結(jié)果的化學(xué)原理,它能更成功地制造新化合物,也能產(chǎn)生有用的化學(xué)信息,這代表了試探性反應(yīng)的革新性進步。
AI 真能發(fā)現(xiàn)神奇材料嗎?
計算材料科學(xué)還是一門新興的學(xué)科,其主要推動著就是上文提到的加州大學(xué)伯克利分校的材料科學(xué)家 Gerbrand Ceder 。受人類基因組計劃的啟發(fā),Ceder 想到了使用高通量數(shù)據(jù)驅(qū)動的方法進行材料發(fā)現(xiàn)。Ceder 認(rèn)為,人類基因組本身并非能作為疾病治療的方案,但卻可以為醫(yī)學(xué)提供研發(fā)疾病治療方案的海量基本定量數(shù)據(jù)——材料科學(xué)是不是也能借鑒遺傳科學(xué)的方法,用“材料基因組”(該詞為 Ceder 所創(chuàng))編碼各種化合物呢,就像 DNA 堿基對編碼蛋白質(zhì)等各種生物材料一樣?
2003 年,Ceder 研究組創(chuàng)建了一個量子力學(xué)計算數(shù)據(jù)庫,用于預(yù)測金屬合金最有可能形成的晶體結(jié)構(gòu),因為這是發(fā)明新材料的基礎(chǔ)。在過去,即使使用用超級計算機也需要通過多次反復(fù)長期大量試錯找到合金的基態(tài)。但在 Ceder 研究組 2003 年發(fā)表的一篇論文中,他們描述了一種捷徑:研究人員首先計算出一些常見二元合金晶體結(jié)構(gòu)的能量,建立小型數(shù)據(jù)庫,然后設(shè)計了一種機器學(xué)習(xí)算法,這種算法可以從上述數(shù)據(jù)庫中提取模式,繼而預(yù)測出新合金基態(tài)的可能值。結(jié)果表明,Ceder 研究組設(shè)計的這種機器學(xué)習(xí)算法表現(xiàn)良好,大大縮減了計算時間。
2006年,Ceder 在 MIT 開始了 Materials Genome Project,用改進后的機器學(xué)習(xí)算法預(yù)測能用作電動車電池的鋰材料。2010年,該計劃的數(shù)據(jù)庫里已經(jīng)包含了2萬種計算機預(yù)測的化合物。另一方面,Ceder 研究組成員 Stefano Curtarolo 在 2006 年去了杜克大學(xué)并在那里建立了自己的實驗室——Center for Materials Genomics,專門研究金屬合金,Curtarolo 研究組與其他兩家研究機構(gòu)合作,逐漸改進 2003 年的機器學(xué)習(xí)算法并拓展數(shù)據(jù)庫,構(gòu)建了 AFLOW 系統(tǒng),能計算已知的晶體結(jié)構(gòu)并且自動預(yù)測新的晶體結(jié)構(gòu)。
2011年6月,白宮宣布斥資幾億美元進行 Materials Genome Initiative(MGI),由此開始計算材料科學(xué)這門學(xué)科成為主流。如今,除了 Ceder 的 Materials Project,還有原 Ceder 研究組成員、現(xiàn)杜克大學(xué)材料科學(xué)家 Stefano Curtarolo 的數(shù)據(jù)庫 AFLOWlib,以及西北大學(xué)材料研究者 Chris Wolverton 在 Ceder 思路啟發(fā)下,用自己研發(fā)的算法和模型建立的數(shù)據(jù)庫 Open Quantum Materials Database(OQMD)。
這3大數(shù)據(jù)庫都含有從材料科學(xué)界廣泛使用的無機晶體結(jié)構(gòu)數(shù)據(jù)庫中提取的5萬種材料,這些都是曾經(jīng)被制造出來的固體,但其導(dǎo)電性和磁性尚未被徹底研究。其不同之處在于:Ceder 的 Materials Project 側(cè)重沸石、鋰電池相關(guān)以及金屬有機骨架結(jié)構(gòu)材料,并以較高的標(biāo)準(zhǔn)衡量是否將計算機預(yù)測的材料納入數(shù)據(jù)庫;Curtarolo 的 AFLOWlib 是最大的數(shù)據(jù)庫,包含 100 多萬種材料和幾十萬種假想材料,但相應(yīng)的里面也不乏只能存在一瞬間的材料;Wolverton 的 OQMD 有大約 40 萬種假想材料,其中鈣鈦礦相關(guān)的尤其豐富,此外正如名字中 Open 那樣,用戶可以下載整個數(shù)據(jù)庫。
目前這3大數(shù)據(jù)庫都在用各自的方法不斷補充數(shù)據(jù)、完善算法,但離理想還有很大距離。當(dāng)前的機器學(xué)習(xí)算法相對擅長預(yù)測某種晶體是否穩(wěn)定,但在預(yù)測吸光性和導(dǎo)電性時則會出現(xiàn)很大誤差。不過,Materials Project 已經(jīng)發(fā)現(xiàn)了幾種有望超越現(xiàn)有鋰離子電池陰極材料性能的材料,以及有可能提高太陽能電池能量轉(zhuǎn)化率的金屬氧化物。都柏林三一學(xué)院的研究人員使用 AFLOWlib 預(yù)測了 20 種可用于制作傳感器或計算機存儲器的磁性材料,并且成功合成了其中的兩種,同時經(jīng)實驗證明其磁性與預(yù)測非常接近,相關(guān)論文已經(jīng)在 Nature 發(fā)表。
歐洲也有類似的計算材料計劃:由瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)為首的一批計算材料科研機構(gòu)共同組建了 MARVEL,EPFL 的材料科學(xué)家 Nicola Marzari 是該項目的負(fù)責(zé)人。Marzari 正在使用新的計算平臺制作一個叫做 Materials Cloud 的數(shù)據(jù)庫,主要用于搜索石墨等由一層原子或分子組成的“二維”材料,這類材料可以在納米電子、生物醫(yī)學(xué)設(shè)備領(lǐng)域得到廣泛應(yīng)用。Marzari 的 Materials Cloud預(yù) 計今年晚些時候啟動,學(xué)界也對此表示了普遍的關(guān)注。據(jù) Mzrzari 預(yù)計,到 Materials Cloud 開放時,系統(tǒng)將會得出大約 1500 種有望進入試驗階段的二維材料結(jié)構(gòu)。

不過,計算材料的發(fā)現(xiàn)也不全是好的結(jié)果:EPFL 中心的計算化學(xué)家 Berend Smit 及其研究組篩選了計算機預(yù)測的 65 萬種材料后得出結(jié)論,當(dāng)前用于存儲甲烷的材料基本已經(jīng)是最好的了,縱使得到改善,存儲效率也只能微量提升,這說明美國寄希望于重大技術(shù)突破(如使用納米多孔材料存儲甲烷)而設(shè)定的能源目標(biāo)很可能是不現(xiàn)實的。
目前,Ceder 和 Curtarolo 都在努力開發(fā)更好的機器學(xué)習(xí)算法,從已知化合物合成過程中提取規(guī)律。Marzari 告訴 Nature 記者,材料科學(xué)已經(jīng)從手工時代進入了產(chǎn)業(yè)化階段,雖然現(xiàn)在市面上還沒有計算材料得到應(yīng)用,但他相信十年后不僅會有,而且可能會有很多。
不過,就連支持使用計算機和機器學(xué)習(xí)生成假想材料的科學(xué)家也指出,要從假想材料到現(xiàn)實落地還有很長一段距離。首先,現(xiàn)有數(shù)據(jù)庫所含有的材料數(shù)據(jù)本身就不多,連現(xiàn)有已知材料都沒有收錄完全,更被說計算機生成的材料了。其次,這種用數(shù)據(jù)驅(qū)動的發(fā)現(xiàn)方法并不適用于所有的材料(目前算法只能預(yù)測完美晶體)。再者,即使計算機生成了一種極有前景的材料,要在實驗室里將其合成、制為實物也仍然可能需要花費很長時間。Ceder 對 Nature 記者說,計算機隨時都在生成有趣的新材料,但有時候半年多時間都無法在實驗室里將其制造出來。換句話說,在理論上合成一種材料相對簡單,但要在實驗室里把它做出來很難。
但是,材料科學(xué)家對于發(fā)現(xiàn)新的化合物充滿信心,他們相信還有數(shù)不清的新材料有待合成,而這些新材料將對電子工業(yè)、能源產(chǎn)業(yè)、機器人產(chǎn)業(yè)、健康醫(yī)療和交通運輸帶來巨大改變。
本文經(jīng)新智元(微信號:AI_era)授權(quán)轉(zhuǎn)載。新智元是人工智能領(lǐng)域排名第一的社交平臺,專注報道人工智能領(lǐng)域的前沿資訊、產(chǎn)業(yè)分析和技術(shù)干貨。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司