- +1
專訪唐杰:萬(wàn)億參數(shù)大模型只是一個(gè)開始
原創(chuàng) 聞菲 機(jī)器之心
機(jī)器之心原創(chuàng)
作者:聞菲
智源悟道團(tuán)隊(duì)不僅會(huì)在「大」這條路上走下去,還將對(duì)構(gòu)建「神經(jīng)-符號(hào)結(jié)合模型」進(jìn)行更深入和底層的探索。
圖靈寫于 1950 年的論述《計(jì)算機(jī)器與智能》被譽(yù)為人工智能的開山之作,他在文中不僅提出了「機(jī)器會(huì)思考嗎?」這一經(jīng)典問題,還給出了著名的「圖靈測(cè)試」用以判斷一臺(tái)機(jī)器是否擁有「智能」。
但經(jīng)過詳細(xì)論證,在文章趨于收尾時(shí),他又補(bǔ)充說(shuō):「與其嘗試制作一個(gè)程序模擬成人的大腦(mind),何不嘗試制作一個(gè)模擬兒童大腦的程序呢?」
在題為「會(huì)學(xué)習(xí)的機(jī)器」(Learning Machines)這最后一小節(jié)中,圖靈寫道,兒童的大腦就好比剛從文具店里買來(lái)的筆記本,里面沒有任何結(jié)構(gòu)(mechanism),全是大量空白的表格(sheets)。從計(jì)算機(jī)科學(xué)研究者的角度看,這樣的形容簡(jiǎn)直再直白不過。
三四歲的孩子已經(jīng)能夠舉一反三,簡(jiǎn)單推理,模仿父母最細(xì)微的姿態(tài)和動(dòng)作,并且知道如何通過自己的行為影響他人。而這正是人工智能研究者迫切希望其構(gòu)建的AI系統(tǒng)所能具備的。
如今,機(jī)器學(xué)習(xí)不僅是人工智能領(lǐng)域研究的重點(diǎn),也正在成為整個(gè)計(jì)算機(jī)科學(xué)研究的熱點(diǎn)。2020 年 5 月,OpenAI 發(fā)布了無(wú)監(jiān)督轉(zhuǎn)化語(yǔ)言模型 GPT-3,其展現(xiàn)出的從海量未標(biāo)記數(shù)據(jù)中「學(xué)習(xí)」且不限于某一特定任務(wù)的「通用」能力,讓 AI 研究者看到了基于大規(guī)模預(yù)訓(xùn)練模型探索通用人工智能的可能。
2021 年 6 月,,以 1.75 萬(wàn)億的參數(shù)量成為迄今全球規(guī)模最大的預(yù)訓(xùn)練模型。不僅如此,悟道團(tuán)隊(duì)還基于 GPT 與 BERT 各自在自然語(yǔ)言生成(NLG)和自然語(yǔ)言理解(NLU)任務(wù)上的優(yōu)點(diǎn),成功將兩者融合并提出通用語(yǔ)言模型 GLM,將所有自然語(yǔ)言任務(wù)都化歸為生成任務(wù)進(jìn)行統(tǒng)一處理,GLM 也成為首個(gè)在 NLU、NLG、Seq2Seq、不定長(zhǎng)填空等任務(wù)中全部登頂?shù)恼Z(yǔ)言模型。
超大規(guī)模預(yù)訓(xùn)練模型是否代表了圖靈所說(shuō)的「會(huì)學(xué)習(xí)的機(jī)器」?不斷增大的模型(以及不斷增加的算力)最終能把我們帶到哪里?預(yù)訓(xùn)練模型究竟從數(shù)據(jù)中學(xué)到了什么?未來(lái)的機(jī)器智能是否會(huì)改變我們對(duì)數(shù)據(jù)、信息、知識(shí)乃至智慧的定義?帶著這些疑問,機(jī)器之心專訪了智源研究院學(xué)術(shù)副院長(zhǎng)、悟道項(xiàng)目負(fù)責(zé)人、清華大學(xué)計(jì)算機(jī)系教授唐杰。

智源研究院學(xué)術(shù)副院長(zhǎng)、悟道項(xiàng)目負(fù)責(zé)人、清華大學(xué)教授唐杰,在 2021 北京智源大會(huì)上發(fā)布悟道 2.0。來(lái)源:智源研究院
唐杰早先從事數(shù)據(jù)挖掘和知識(shí)工程方面的研究,他曾經(jīng)不愿意也不敢相信機(jī)器智能可以超越人,但大規(guī)模預(yù)訓(xùn)練模型改變了他的想法;如今,他開始反問為何機(jī)器智能不可以超越人。
唐杰表示,萬(wàn)億參數(shù)大模型只是一個(gè)開始,作為一種科學(xué)上的探索,智源悟道團(tuán)隊(duì)將堅(jiān)持在「大」這條路上走下去,探索其邊界,因?yàn)樗麄円呀?jīng)在大模型上觀察到了以往小模型上所不曾有過的現(xiàn)象。
但他同時(shí)也指出,單靠增加訓(xùn)練數(shù)據(jù)量或模型參數(shù)規(guī)模不足以實(shí)現(xiàn)「智能」,悟道團(tuán)隊(duì)目前踐行的「知識(shí)+數(shù)據(jù)雙輪驅(qū)動(dòng)」,正是嘗試將知識(shí)這種符號(hào)信息與神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建所謂的「神經(jīng)-符號(hào)結(jié)合模型」,從而賦予機(jī)器認(rèn)知能力。
在更遠(yuǎn)期的規(guī)劃中,唐杰希望讓悟道模型擁有自學(xué)習(xí)的能力,以及作為一個(gè)主體與現(xiàn)實(shí)世界交互的能力,正如人類兒童在成長(zhǎng)中所經(jīng)歷的那樣。
至于眼下,一個(gè)重點(diǎn)將是基于悟道 2.0 構(gòu)建一個(gè)平臺(tái)和生態(tài),讓企業(yè)、開發(fā)者和研究人員真正用起來(lái)——用他的話說(shuō)就是「大規(guī)模預(yù)訓(xùn)練模型不是用來(lái)作秀的」,并根據(jù)用戶的反饋優(yōu)化和迭代。不過,這方面的工作將由其他團(tuán)隊(duì)牽頭完成。
悟道團(tuán)隊(duì)將持續(xù)聚焦,這也是唐杰個(gè)人的研究風(fēng)格——專注、專注再專注,直到拿出嚴(yán)謹(jǐn)、可靠和有力的成果。
他說(shuō):「更重要的是各種任務(wù)精度的提升,算法的優(yōu)化,運(yùn)行效率,以及對(duì)整個(gè)人工智能軟件和硬件應(yīng)用及架構(gòu)的再考察。」
要讓機(jī)器從數(shù)據(jù)中學(xué)出所有的人類知識(shí),現(xiàn)在所謂的「大數(shù)據(jù)」根本少得可憐
深度學(xué)習(xí)常為人詬病的一點(diǎn)在于其不可解釋性。然而,存儲(chǔ)在人類大腦中的知識(shí)亦然,只不過我們能夠借助語(yǔ)言進(jìn)行表達(dá)。
但即便如此,還是有很多無(wú)法用言語(yǔ)描述進(jìn)而抽象為知識(shí)的東西。
英國(guó)皇家結(jié)構(gòu)工程師學(xué)會(huì)的某位大師曾在演講中自嘲:「結(jié)構(gòu)工程是這樣一門藝術(shù),將我們尚未充分理解的材料,做成我們無(wú)法精確分析的形狀,去承受我們無(wú)法正確評(píng)估的力,以致公眾沒有理由懷疑我們的無(wú)知程度。」據(jù)他自己所說(shuō),每次他在演講中提及這句話時(shí),都能從現(xiàn)場(chǎng)觀眾那里得到不錯(cuò)的反應(yīng)。果然懂的人都懂。
很大程度上,現(xiàn)階段的深度學(xué)習(xí)也是如此,大規(guī)模預(yù)訓(xùn)練模型確實(shí)從數(shù)據(jù)中學(xué)到了什么,但其具體過程或數(shù)理機(jī)制尚不明晰。
在擁有 1.75 萬(wàn)億參數(shù)的悟道 2.0 上,唐杰團(tuán)隊(duì)觀察到模型不需要訓(xùn)練數(shù)據(jù),可以自動(dòng)從未標(biāo)記的數(shù)據(jù)中學(xué)出一些人類知識(shí),有的機(jī)器學(xué)習(xí)出的知識(shí)圖譜比人工標(biāo)注的質(zhì)量還要好。
「只要模型足夠大,也許會(huì)達(dá)到一個(gè)奇點(diǎn),不需要人類知識(shí),機(jī)器只用數(shù)據(jù)就能學(xué)出人類有史以來(lái)所有的知識(shí),」唐杰說(shuō):「因?yàn)槿祟惖闹R(shí)也是經(jīng)過歷史慢慢演化,經(jīng)過案例學(xué)習(xí)和不斷試錯(cuò)總結(jié)歸納出來(lái)的。」
但他認(rèn)為,這種純數(shù)據(jù)驅(qū)動(dòng)的方法還有很長(zhǎng)的路要走,至少未來(lái)十年都難以見到突破。原因也很簡(jiǎn)單,就看一點(diǎn),如果真要讓機(jī)器從數(shù)據(jù)中學(xué)出所有的人類知識(shí),現(xiàn)在所謂的「大數(shù)據(jù)」根本少得可憐——計(jì)算機(jī)發(fā)明至今也不過 70 多年,物聯(lián)網(wǎng)數(shù)據(jù)才剛剛興起,還有其他各種類型的數(shù)據(jù),光是要收集那么多的數(shù)據(jù)就需要很長(zhǎng)的時(shí)間。
悟道團(tuán)隊(duì)采用「知識(shí)+數(shù)據(jù)雙輪驅(qū)動(dòng)」方法,因?yàn)槿祟愔R(shí)經(jīng)過高度抽象,不僅精度高且質(zhì)量好,利用好了能大幅加速機(jī)器學(xué)習(xí)的過程,有效提升訓(xùn)練效果。
或許有一天我們就從預(yù)訓(xùn)練模型中探索到類似牛頓三大定律這樣的東西呢?
不同于傳統(tǒng)意義上的知識(shí),存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)中的知識(shí)由模型的參數(shù)及架構(gòu)決定,一般難以被人理解。
唐杰與他在清華和智源的合作者將這種從數(shù)據(jù)中學(xué)習(xí)獲取,存儲(chǔ)于神經(jīng)網(wǎng)絡(luò)模型中的知識(shí)稱之為「連續(xù)型知識(shí)」,而他們則嘗試從「連續(xù)型知識(shí)的存儲(chǔ)和管理」角度來(lái)展開對(duì)超大規(guī)模預(yù)訓(xùn)練模型的探索。
換句話說(shuō),超大規(guī)模預(yù)訓(xùn)練模型就好比一種全新的知識(shí)庫(kù),只不過里面存儲(chǔ)的是不能直接被人所理解的連續(xù)型知識(shí)。這些連續(xù)型知識(shí)可以像 OpenAI 的 GPT 那樣,存在一個(gè)超強(qiáng)的大模型里,也可以像 Google AI 的 Switch Transformers 那樣,由多個(gè)混合專家模型(MoE)合并而成。但是,這兩種方法都對(duì)算力和存儲(chǔ)提出了巨大的需求,而且無(wú)論是數(shù)據(jù)還是知識(shí),都是在不斷增加和更新的。
對(duì)此,清華大學(xué)的研究人員提出了「通用連續(xù)型知識(shí)庫(kù)」的概念。這個(gè)通用連續(xù)型知識(shí)庫(kù)存儲(chǔ)的不是模型,而是模型中的連續(xù)型知識(shí)。通過將不同模型中的連續(xù)型知識(shí)都存儲(chǔ)在這樣一個(gè)庫(kù)里,一定程度上能減輕對(duì)計(jì)算和存儲(chǔ)的負(fù)擔(dān)。但這需要先把連續(xù)型知識(shí)從模型中分離出來(lái),還涉及不同模型的連續(xù)型知識(shí)的導(dǎo)入和導(dǎo)出。因此,通用連續(xù)型知識(shí)庫(kù)存儲(chǔ)架構(gòu)和接口的設(shè)計(jì),還有各種連續(xù)型知識(shí)的融合與區(qū)分,都需要更深入的探索。
對(duì)于超大規(guī)模預(yù)訓(xùn)練模型的發(fā)展,唐杰認(rèn)為有三個(gè)方面值得注意。首先,算法還有很大的改進(jìn)空間,包括效率的提升,如何將知識(shí)這種符號(hào)信息與神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建「神經(jīng)-符號(hào)結(jié)合模型」,以及如何更高效地從數(shù)據(jù)中提煉出連續(xù)型知識(shí)。
「GPT 本身是很簡(jiǎn)單的,但事實(shí)證明簡(jiǎn)單并不一定不好,或許有一天我們就從預(yù)訓(xùn)練模型中探索到了類似牛頓三大定律這樣的東西呢?然后再把這些喂給模型,不斷優(yōu)化,最終實(shí)現(xiàn)大一統(tǒng)也不是沒有可能。」他說(shuō)。
「雖然很多人反對(duì)這種大一統(tǒng)的模型架構(gòu),但算法本身是有很大探索空間的,也值得我們?nèi)ヌ剿鳌T谂nD三大定律出現(xiàn)之前,我們也在認(rèn)識(shí)這個(gè)世界,后來(lái)愛因斯坦的相對(duì)論出來(lái)推翻了前者,我們又重新認(rèn)識(shí)了世界,算法也是這樣,會(huì)經(jīng)歷一個(gè)長(zhǎng)期演化的過程,而且不一定非得達(dá)到終點(diǎn)才能使用。」
二是預(yù)訓(xùn)練模型走向更多的應(yīng)用,把信息和人、車、物等等都聯(lián)系起來(lái),尤其是加入人的動(dòng)態(tài),由此帶來(lái)的復(fù)雜度和搜索空間都會(huì)指數(shù)級(jí)提升,這就要求研究人員在構(gòu)建模型時(shí)考慮更多的維度。
在更長(zhǎng)遠(yuǎn)的未來(lái),唐杰認(rèn)為模型需要具有自學(xué)習(xí)的能力,因?yàn)槿耸菚?huì)不斷反思、不斷復(fù)盤的,模型也要能夠自我優(yōu)化,并且作為一個(gè)主體與世界交互,通過外界的反饋不斷改進(jìn)和持續(xù)學(xué)習(xí)。
悟道團(tuán)隊(duì)會(huì)在一直往「大」做上去,直至其邊界
從悟道 1.0 到 2.0,歷時(shí)不到 3 個(gè)月,模型參數(shù)量增長(zhǎng)了千倍,規(guī)模也做到了全球引領(lǐng)。
有人問唐杰為什么他們能在這么短的時(shí)間內(nèi)拿出這么多成果,「因?yàn)槲覀冊(cè)缇烷_始做了呀」,他笑著說(shuō)。
「作為一種科學(xué)研究,悟道團(tuán)隊(duì)會(huì)在一直往『大』做上去,直至其邊界,以探索人工智能所能達(dá)到的極致。」
不過,他認(rèn)為沒有必要在「大」這件事情上過分糾結(jié)。模型并非越大越好,尤其在實(shí)際應(yīng)用場(chǎng)景,要優(yōu)先考慮成本和速度,而最關(guān)鍵的是精度,如何用 10 億級(jí)別的小模型在某些任務(wù)上取得更優(yōu)的性能,加快實(shí)際部署,也是悟道團(tuán)隊(duì)當(dāng)前的一個(gè)研究重點(diǎn)。
對(duì)于悟道 2.0 做平臺(tái)化跟產(chǎn)業(yè)界對(duì)接,唐杰表示大力支持,「因?yàn)榇笠?guī)模預(yù)訓(xùn)練模型不是用來(lái)作秀的,要把模型真正用起來(lái),我們需要業(yè)界的反饋」。
悟道 2.0 也確實(shí)在產(chǎn)業(yè)界引起了反響,作為一個(gè)證明,唐杰告訴機(jī)器之心:「1.0 發(fā)布的時(shí)候很多企業(yè)都在觀望,今天 2.0 發(fā)布,我臺(tái)上剛講完,就有好幾家公司表示愿意加入,積極性很強(qiáng)。」
不過,企業(yè)也并非完全沒有門檻,,所有參與方都是帶著資源與情懷參與到悟道項(xiàng)目中來(lái),本著開源開放,合作共享的精神與理念。目前,悟道團(tuán)隊(duì)大約百人,對(duì)于這樣一個(gè)大型科研項(xiàng)目而言,在人手和資源上其實(shí)并不算多。因此,應(yīng)用開發(fā)和產(chǎn)業(yè)化落地相關(guān)的工作,將由合作企業(yè)和智源的其他團(tuán)隊(duì)牽頭完成。
從悟道 1.0 到 2.0,唐杰作為項(xiàng)目負(fù)責(zé)人,感受最深的地方是如今科研試錯(cuò)的成本更大了,因此戰(zhàn)略布局的眼光也要更精準(zhǔn)。例如,以前模型有了問題可以重頭再來(lái),而現(xiàn)在不管是時(shí)間成本還是經(jīng)濟(jì)成本都不允許方向性的誤判。在什么階段決定做什么也很重要,一方面是預(yù)判技術(shù)或產(chǎn)業(yè)的發(fā)展,另一方面是資源有限,什么都做很可能什么都做不好。
此外,悟道 2.0 全部在國(guó)產(chǎn) CPU 上完成訓(xùn)練,唐杰認(rèn)為這也表明了超大規(guī)模預(yù)訓(xùn)練模型從應(yīng)用層面拉動(dòng)了對(duì)超算和智能計(jì)算的探索,從某種程度上補(bǔ)齊了我國(guó)在超算應(yīng)用方面的短板,也有助于未來(lái)智能超算中心的規(guī)劃和建設(shè)。
他并不擔(dān)心國(guó)內(nèi)其他團(tuán)隊(duì)在超大規(guī)模預(yù)訓(xùn)練模型上的跟進(jìn),對(duì)于眼下大模型頻出的狀況也十分理解。「當(dāng)你從事一個(gè)方向,有人跟進(jìn)總比沒人跟進(jìn)要好,對(duì)吧?」唐杰反問說(shuō):「而且大部分的事情發(fā)展都這樣,起先熱一點(diǎn),然后有些太過了,就自然會(huì)冷靜下來(lái),往回收一些。」
悟道出現(xiàn)在北京并非偶然,「因?yàn)檫@里有最高的人工智能軟件和硬件人才密度」,與建設(shè)超算中心一樣,構(gòu)建超大規(guī)模預(yù)訓(xùn)練模型也要因地制宜,量力而行。「要想清楚為什么做,你的條件適不適合做。」唐杰說(shuō)。
2020年,ACM SIGKDD 將「時(shí)間檢驗(yàn)應(yīng)用科學(xué)獎(jiǎng)」授予了唐杰等人在 2008 年寫的論文「ArnetMiner」。經(jīng)過十幾年的發(fā)展,這個(gè)最初跑在唐杰筆記本上的算法,已經(jīng)成為如今的在線科技情報(bào)挖掘平臺(tái) AMiner。
接下來(lái),唐杰將專注于超大規(guī)模預(yù)訓(xùn)練模型的研究,至于是否能由此實(shí)現(xiàn)通用人工智能,有一點(diǎn)可以肯定,只要我們對(duì)「通過計(jì)算能夠?qū)崿F(xiàn)智能」這個(gè)大前提沒有弄錯(cuò)的話,剩下的應(yīng)該只是時(shí)間問題。
? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
原標(biāo)題:《專訪唐杰:萬(wàn)億參數(shù)大模型只是一個(gè)開始》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司