- +1
李飛飛巴黎AI峰會(huì)演講:現(xiàn)在是真正的“第一個(gè)AI時(shí)代”
“人工智能的未來(lái)應(yīng)建立在科學(xué)基礎(chǔ)之上,而不是夸大其詞的科幻情節(jié)。當(dāng)前,無(wú)論是大街小巷還是華爾街,關(guān)于AI的話題中都充斥著夸張炒作和聳人聽(tīng)聞的描述,往往導(dǎo)致對(duì)AI的治理政策被各種誤導(dǎo)?!?月10日,在法國(guó)巴黎大皇宮舉行的“人工智能行動(dòng)峰會(huì)上”, AI學(xué)者、斯坦福大學(xué)教授李飛飛發(fā)表開(kāi)幕演講。
以下是李飛飛演講內(nèi)容,略有刪減:
AI三大關(guān)鍵要素:感知算法的突破、認(rèn)知科學(xué)的啟發(fā)、計(jì)算能力的躍升
我們當(dāng)今所處的現(xiàn)代AI時(shí)代,正是三項(xiàng)極其重要又各自獨(dú)立的技術(shù)與科學(xué)進(jìn)步匯聚而成的成果。
第一項(xiàng)是對(duì)感知算法的研究——即生物(包括動(dòng)物乃至人類)如何理解周圍世界,并最終創(chuàng)造出讓機(jī)器也能具備類似能力的數(shù)學(xué)模型。在達(dá)特茅斯AI夏季研討會(huì)上延續(xù)了圖靈的大膽假設(shè)之后,神經(jīng)生理學(xué)家戴維·休伯爾(David Hubel)和托斯坦·維厄瑟爾(Torsten Wiesel)率先揭示了哺乳動(dòng)物視覺(jué)皮層中神經(jīng)處理的層次結(jié)構(gòu),這為他們贏得了諾貝爾獎(jiǎng),也徹底改變了我們對(duì)視覺(jué)處理的認(rèn)知。大約在同一時(shí)期,心理學(xué)家弗蘭克·羅森布拉特
(Frank Rosenblatt)搭建了最早的神經(jīng)網(wǎng)絡(luò)原型之一——感知器(Perceptron)。這項(xiàng)工作啟發(fā)了數(shù)十年后無(wú)數(shù)計(jì)算機(jī)科學(xué)家,尤其是早期先驅(qū)者,如福島邦彥(Kunihiko Fukushima)、杰弗里·辛頓(Jeff Hinton)、楊立昆(Yann LeCun)、約書亞·本吉奧(Yoshua Bengio)等,去設(shè)計(jì)愈發(fā)先進(jìn)的模型,最終形成了我們今天所熟知的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,讓機(jī)器擁有了自身近乎神奇的感知和分析能力。
與此同時(shí),第二條研究脈絡(luò)也開(kāi)始出現(xiàn)——認(rèn)知科學(xué)家轉(zhuǎn)而研究人類自身的大腦,揭示我們對(duì)周圍環(huán)境進(jìn)行感知時(shí)所擁有的驚人深度和復(fù)雜性。他們的研究明確指出,無(wú)法將我們的腦與其所處的進(jìn)化環(huán)境分割開(kāi)來(lái)。大腦不過(guò)是一個(gè)被禁錮在顱骨黑暗之中的機(jī)器,卻又從生命最初時(shí)刻開(kāi)始,就急切地向外部學(xué)習(xí),通過(guò)每一次光線的照射、每一次觸覺(jué)刺激、每一聲細(xì)語(yǔ)來(lái)獲取信息。
對(duì)我個(gè)人而言,作為在21世紀(jì)初成長(zhǎng)起來(lái)的科學(xué)家,當(dāng)時(shí)感知算法幾乎是我所在領(lǐng)域的唯一關(guān)注點(diǎn),而認(rèn)知科學(xué)帶給我的啟示在于“規(guī)模”。演化與發(fā)育能如此有效地塑造人類智慧,是因?yàn)樗鼈兡芾么罅繑?shù)據(jù)來(lái)驅(qū)動(dòng)我們的學(xué)習(xí)。我和我的合作者、學(xué)生們推測(cè),同樣的規(guī)律也適用于機(jī)器,只不過(guò)這一次,數(shù)據(jù)來(lái)自現(xiàn)代數(shù)字設(shè)備和互聯(lián)網(wǎng),而不再是依靠生物感官。由此激發(fā)了我所在實(shí)驗(yàn)室發(fā)起的ImageNet項(xiàng)目——它是第一個(gè)針對(duì)人工智能的大規(guī)?;ヂ?lián)網(wǎng)訓(xùn)練與評(píng)測(cè)數(shù)據(jù)集。我們提出了一個(gè)關(guān)鍵假設(shè):數(shù)據(jù)是讓神經(jīng)網(wǎng)絡(luò)等高容量算法真正“活起來(lái)”的關(guān)鍵。這個(gè)理念讓神經(jīng)網(wǎng)絡(luò)煥發(fā)新生,開(kāi)啟了利用海量數(shù)據(jù)來(lái)推動(dòng)AI進(jìn)步的全球趨勢(shì),也成為如今所說(shuō)的AI“規(guī)模定律”(scaling law)的一部分。
最后,如果沒(méi)有極其強(qiáng)大的運(yùn)算能力來(lái)支撐,以上所有成就都不會(huì)發(fā)生,或者根本連起點(diǎn)都無(wú)法跨越。最初的里程碑包括馮·諾依曼(von Neumann)在20世紀(jì)40年代提出的計(jì)算機(jī)體系結(jié)構(gòu)理論,它一直沿用至今,并在70年代初催生了第一批微處理器??捎腥さ氖牵嬲尮栊酒歼\(yùn)算速度獲得飛躍的,竟是電子游戲。為追求更逼真的游戲畫面,上世紀(jì)90年代初誕生了一個(gè)小型產(chǎn)業(yè),但在短短二十年迅速膨脹為全球巨頭——以英偉達(dá)(NVIDIA)等公司為代表,開(kāi)發(fā)出了越來(lái)越強(qiáng)大的圖形處理器(GPU)。結(jié)果證明,這恰恰是讓神經(jīng)網(wǎng)絡(luò)算法得以利用互聯(lián)網(wǎng)規(guī)模大數(shù)據(jù)進(jìn)行學(xué)習(xí)的最后一塊拼圖。所以,如果現(xiàn)場(chǎng)有游戲玩家,那我們要感謝你們。
大語(yǔ)言模型將三大要素推向更極致的規(guī)模
后面的故事不僅僅是“歷史”,更是建構(gòu)未來(lái)的“配方”。2012年,在ImageNet挑戰(zhàn)賽上,我的實(shí)驗(yàn)室率先將算法、數(shù)據(jù)和計(jì)算這三大要素首次大規(guī)模結(jié)合在一起,幾乎在一夜之間就改變了我們整個(gè)領(lǐng)域。那是機(jī)器首次能夠理解并準(zhǔn)確地描述海量圖像——成百上千萬(wàn)張之多。如今我們對(duì)此已經(jīng)習(xí)以為常,但在當(dāng)時(shí),這是一項(xiàng)前所未有的壯舉,甚至有些像科幻小說(shuō)里的場(chǎng)景。它就像推倒了第一塊多米諾骨牌,隨后的一系列突破接連不斷,并且來(lái)得越來(lái)越快。
如今,十多年過(guò)去了,我們依然在探索這一切的意義。當(dāng)初只是學(xué)術(shù)界的一個(gè)好奇心驅(qū)動(dòng)的研究,如今卻年復(fù)一年地吸引著商界領(lǐng)袖、創(chuàng)業(yè)者、行業(yè)分析師,甚至政治家們的熱切關(guān)注。如今,十多年過(guò)去了,我們依然看不到盡頭。毫無(wú)疑問(wèn),歷史學(xué)家今后一定會(huì)把這段時(shí)間稱作“真正的第一個(gè)AI時(shí)代”。

高校、資本對(duì)AI的熱情 來(lái)源:李飛飛演講截圖
從任何一個(gè)你能想到的指標(biāo)來(lái)看——無(wú)論是計(jì)算機(jī)專業(yè)中人工智能方向的學(xué)生人數(shù)、投資金額、新創(chuàng)企業(yè)數(shù)量,還是其他方面——AI都是一場(chǎng)在深度和廣度上不斷擴(kuò)大的革命。我想在座的各位都不需要我來(lái)重復(fù),過(guò)去幾年里,人工智能又迎來(lái)了更驚人的躍進(jìn)——也就是大型語(yǔ)言模型的出現(xiàn)。
這些大型語(yǔ)言模型把現(xiàn)代AI所依賴的三大要素——算法、數(shù)據(jù)和計(jì)算力——都推向了更極致的規(guī)模。它們采用了一種名為“Transformer”的新型模型架構(gòu),訓(xùn)練數(shù)據(jù)幾乎覆蓋了整個(gè)互聯(lián)網(wǎng),并在數(shù)量驚人的最新、最強(qiáng)大芯片上運(yùn)行。正如我們所見(jiàn),其結(jié)果是在機(jī)器能力上比過(guò)去十年來(lái)的任何一次突破都更為迅猛?,F(xiàn)在我們幾乎將“AI可以用自然語(yǔ)言流暢地跟我們對(duì)話”視為理所當(dāng)然,AI能回答我們提出的幾乎任何領(lǐng)域的問(wèn)題,甚至能夠生成各種復(fù)雜形式的內(nèi)容——從圖像、聲音、音樂(lè)到視頻,無(wú)所不包。ChatGPT所取得的驚人成就是這項(xiàng)創(chuàng)新如何影響我們?nèi)粘I畹淖罴牙C,因其創(chuàng)造了用戶采用速度的歷史新紀(jì)錄。
而且,這些能力并不只是表面上看著“會(huì)說(shuō)話”而已。
現(xiàn)在AI模型在各種基準(zhǔn)測(cè)試(從手寫識(shí)別到博士水平的科學(xué)問(wèn)答)上的表現(xiàn)近幾年都在飛速攀升;其中一些難度極高、對(duì)人類來(lái)說(shuō)具有挑戰(zhàn)性的任務(wù),AI的成績(jī)簡(jiǎn)直像坐火箭一樣往上躥,幾乎呈垂直上升的趨勢(shì)。
大模型正朝著更具“主動(dòng)性”方向發(fā)展
不僅如此,從能夠流暢使用語(yǔ)言開(kāi)始,大型語(yǔ)言模型還在朝更具“主動(dòng)性”的方向發(fā)展——它們學(xué)會(huì)了將復(fù)雜任務(wù)分解成若干步驟,并逐步規(guī)劃如何實(shí)現(xiàn)目標(biāo)。人們目前將這種趨勢(shì)稱作“具備代理能力(agentic)的AI”。而在2025年,這似乎正成為這場(chǎng)深遠(yuǎn)技術(shù)演進(jìn)的新篇章。對(duì)許多用戶和企業(yè)而言,這些能力已經(jīng)非常實(shí)用,而它們還遠(yuǎn)不止于此,后續(xù)的發(fā)展?jié)摿Ω遣豢晒懒俊?/p>
我們目前所討論的還大多停留在“語(yǔ)言智能”層面,但人類之所以為人,是因?yàn)槲覀儞碛懈?、更完整的智能。從“被?dòng)感知”到“主動(dòng)行動(dòng)”的新階段正在到來(lái)。在我自己的研究領(lǐng)域——涉及攝像頭和機(jī)器人時(shí),我看到AI正逐漸具備“創(chuàng)造、理解、推理和交互”這些維度,進(jìn)而在數(shù)字或物理的三維空間里與人和環(huán)境相互作用。我們稱之為“空間智能(spatial intelligence)”和“具身智能(embodied intelligence)”。
舉個(gè)例子:假設(shè)你看到這樣一張圖片,視覺(jué)智能很容易讓我們識(shí)別出里面的所有物品:那只貓、那盆植物、那張桌子,以及那杯牛奶。但是,這就代表我們感知系統(tǒng)的全部功能了嗎?我敢打賭,其中不少人不僅僅“看懂了”那張圖,還會(huì)產(chǎn)生“哎呀,快伸手把那杯牛奶抓住,別讓它掉到地上打碎了!”的沖動(dòng)。這只是個(gè)小例子,但它清楚展示了“從觀察到行動(dòng)”之間多么巨大的差別,也說(shuō)明了我認(rèn)為我們?nèi)缃袼幍墓拯c(diǎn):AI正從觀察者變成與我們并肩行動(dòng)的“執(zhí)行者”。
實(shí)際上,就連我一直崇拜的圖靈先生,他對(duì)于未來(lái)的預(yù)見(jiàn)在這一點(diǎn)上也可能有些“過(guò)于狹隘”或“向內(nèi)看”了。因?yàn)檫M(jìn)化本身已經(jīng)一再告訴我們:智能的真正強(qiáng)大之處,不僅僅在于“思考”,而在于讓思考能驅(qū)動(dòng)行動(dòng)。想想看,人類的空間智能讓我們得以建立燦爛的文明:從古老的金字塔到工業(yè)革命,從科學(xué)發(fā)現(xiàn)到藝術(shù)創(chuàng)作。如今,當(dāng)AI逐漸拓展我們的空間和具身智能,這將如何進(jìn)一步改變我們與周遭世界的關(guān)系?它又能幫助我們創(chuàng)造和發(fā)現(xiàn)些什么?可以預(yù)見(jiàn),我們已經(jīng)在打造某種面向未來(lái)的新形態(tài)了。
以人為本的AI的核心價(jià)值:尊嚴(yán)、能動(dòng)性、社區(qū)
這個(gè)問(wèn)題其實(shí)一直在指引我的研究工作。雖然我肯定,想要找到簡(jiǎn)單答案幾乎不可能,但有一個(gè)主線在我多年的探索中始終貫穿,那就是我所說(shuō)的“以人為本的AI(Human-Centered AI)”,并且它包含三個(gè)核心價(jià)值:尊嚴(yán)(dignity)、能動(dòng)性(agency)和社區(qū)(community)。
首先是尊嚴(yán)。當(dāng)面對(duì)越來(lái)越強(qiáng)大的技術(shù)時(shí),我們?nèi)祟惓3?huì)反思:到底是什么在定義“我們是誰(shuí)”?如果把我們能做的所有事情都一一剝離,剩下的、那份能夠自主決策并親自行動(dòng)的尊嚴(yán)感,依然是我們作為人的本質(zhì)之一。如果AI這項(xiàng)技術(shù)能幫助我們守護(hù)并且“找回”這份尊嚴(yán),尤其是能幫助到最脆弱的人群,那將是讓我最激動(dòng)的事情。
在這一點(diǎn)上,我想給各位看一個(gè)例子:如何讓機(jī)器人和AI技術(shù)幫助那些嚴(yán)重癱瘓患者重新獲得自主行動(dòng)的可能。在這項(xiàng)斯坦福大學(xué)的研究中,我的學(xué)生利用完全“非侵入式”腦電波(EEG)記錄獲取使用者的思維信號(hào),通過(guò)AI算法對(duì)這些信號(hào)進(jìn)行解碼并發(fā)送指令給機(jī)械手臂。最終,機(jī)械手臂在患者“意念”的控制下做出包括烹制日式壽喜燒在內(nèi)的一整套烹飪動(dòng)作。這便是AI幫助人們重新贏得自主與尊嚴(yán)的一個(gè)示例。
其次是能動(dòng)性(agency)。我所在實(shí)驗(yàn)室多年來(lái)的核心理念,就是探索如何讓AI“增強(qiáng)(augment)”人類的能力,而不是取代人類。毫無(wú)疑問(wèn),每一次重大的技術(shù)變革都會(huì)對(duì)勞動(dòng)力市場(chǎng)產(chǎn)生沖擊,AI也不例外。然而,我相信AI可以幫助我們從創(chuàng)造力到醫(yī)療保健、從科研到制造業(yè),在方方面面獲得新的能力。因?yàn)樵谠S多方面,AI的技能與人類的技能其實(shí)是互補(bǔ)關(guān)系。我們完全可以利用這個(gè)“數(shù)字或物理上的合作者”來(lái)強(qiáng)化自身能力。
過(guò)去十年里,我的實(shí)驗(yàn)室一直在研究AI如何改進(jìn)醫(yī)療服務(wù),這讓我見(jiàn)識(shí)到許多能讓AI幫助提高醫(yī)療質(zhì)量、同時(shí)減輕醫(yī)護(hù)人員負(fù)擔(dān)的機(jī)會(huì)。這里給大家展示三個(gè)例子:利用搭載AI的智能攝像頭來(lái)協(xié)助醫(yī)院監(jiān)督醫(yī)護(hù)人員的洗手規(guī)范,輔助記錄病人復(fù)健時(shí)的移動(dòng)訓(xùn)練情況,以及跟蹤手術(shù)器械的使用狀況。
最后是社區(qū)(community)。過(guò)去十年里,科技也常常被詬病“把人們?cè)嚼竭h(yuǎn)”,催生了各種“信息繭房”和“狂熱話題誘餌”等。如今,AI又一次走到了十字路口:一條路是讓AI主導(dǎo)很多社交體驗(yàn),甚至為每個(gè)人極度定制并強(qiáng)化他們?cè)镜钠?jiàn);另一條路則可能幫助我們構(gòu)建更健康、更強(qiáng)大并具有包容性的社區(qū),比如借助AI教育助手,讓更多人(包括孩子和成人)獲得學(xué)習(xí)的機(jī)會(huì)。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司