- +1
李飛飛巴黎AI峰會演講:現在是真正的“第一個AI時代”
“人工智能的未來應建立在科學基礎之上,而不是夸大其詞的科幻情節。當前,無論是大街小巷還是華爾街,關于AI的話題中都充斥著夸張炒作和聳人聽聞的描述,往往導致對AI的治理政策被各種誤導。”2月10日,在法國巴黎大皇宮舉行的“人工智能行動峰會上”, AI學者、斯坦福大學教授李飛飛發表開幕演講。
以下是李飛飛演講內容,略有刪減:
AI三大關鍵要素:感知算法的突破、認知科學的啟發、計算能力的躍升
我們當今所處的現代AI時代,正是三項極其重要又各自獨立的技術與科學進步匯聚而成的成果。
第一項是對感知算法的研究——即生物(包括動物乃至人類)如何理解周圍世界,并最終創造出讓機器也能具備類似能力的數學模型。在達特茅斯AI夏季研討會上延續了圖靈的大膽假設之后,神經生理學家戴維·休伯爾(David Hubel)和托斯坦·維厄瑟爾(Torsten Wiesel)率先揭示了哺乳動物視覺皮層中神經處理的層次結構,這為他們贏得了諾貝爾獎,也徹底改變了我們對視覺處理的認知。大約在同一時期,心理學家弗蘭克·羅森布拉特
(Frank Rosenblatt)搭建了最早的神經網絡原型之一——感知器(Perceptron)。這項工作啟發了數十年后無數計算機科學家,尤其是早期先驅者,如福島邦彥(Kunihiko Fukushima)、杰弗里·辛頓(Jeff Hinton)、楊立昆(Yann LeCun)、約書亞·本吉奧(Yoshua Bengio)等,去設計愈發先進的模型,最終形成了我們今天所熟知的深度學習神經網絡算法,讓機器擁有了自身近乎神奇的感知和分析能力。
與此同時,第二條研究脈絡也開始出現——認知科學家轉而研究人類自身的大腦,揭示我們對周圍環境進行感知時所擁有的驚人深度和復雜性。他們的研究明確指出,無法將我們的腦與其所處的進化環境分割開來。大腦不過是一個被禁錮在顱骨黑暗之中的機器,卻又從生命最初時刻開始,就急切地向外部學習,通過每一次光線的照射、每一次觸覺刺激、每一聲細語來獲取信息。
對我個人而言,作為在21世紀初成長起來的科學家,當時感知算法幾乎是我所在領域的唯一關注點,而認知科學帶給我的啟示在于“規?!?。演化與發育能如此有效地塑造人類智慧,是因為它們能利用大量數據來驅動我們的學習。我和我的合作者、學生們推測,同樣的規律也適用于機器,只不過這一次,數據來自現代數字設備和互聯網,而不再是依靠生物感官。由此激發了我所在實驗室發起的ImageNet項目——它是第一個針對人工智能的大規模互聯網訓練與評測數據集。我們提出了一個關鍵假設:數據是讓神經網絡等高容量算法真正“活起來”的關鍵。這個理念讓神經網絡煥發新生,開啟了利用海量數據來推動AI進步的全球趨勢,也成為如今所說的AI“規模定律”(scaling law)的一部分。
最后,如果沒有極其強大的運算能力來支撐,以上所有成就都不會發生,或者根本連起點都無法跨越。最初的里程碑包括馮·諾依曼(von Neumann)在20世紀40年代提出的計算機體系結構理論,它一直沿用至今,并在70年代初催生了第一批微處理器??捎腥さ氖?,真正讓硅芯片原始運算速度獲得飛躍的,竟是電子游戲。為追求更逼真的游戲畫面,上世紀90年代初誕生了一個小型產業,但在短短二十年迅速膨脹為全球巨頭——以英偉達(NVIDIA)等公司為代表,開發出了越來越強大的圖形處理器(GPU)。結果證明,這恰恰是讓神經網絡算法得以利用互聯網規模大數據進行學習的最后一塊拼圖。所以,如果現場有游戲玩家,那我們要感謝你們。
大語言模型將三大要素推向更極致的規模
后面的故事不僅僅是“歷史”,更是建構未來的“配方”。2012年,在ImageNet挑戰賽上,我的實驗室率先將算法、數據和計算這三大要素首次大規模結合在一起,幾乎在一夜之間就改變了我們整個領域。那是機器首次能夠理解并準確地描述海量圖像——成百上千萬張之多。如今我們對此已經習以為常,但在當時,這是一項前所未有的壯舉,甚至有些像科幻小說里的場景。它就像推倒了第一塊多米諾骨牌,隨后的一系列突破接連不斷,并且來得越來越快。
如今,十多年過去了,我們依然在探索這一切的意義。當初只是學術界的一個好奇心驅動的研究,如今卻年復一年地吸引著商界領袖、創業者、行業分析師,甚至政治家們的熱切關注。如今,十多年過去了,我們依然看不到盡頭。毫無疑問,歷史學家今后一定會把這段時間稱作“真正的第一個AI時代”。

高校、資本對AI的熱情 來源:李飛飛演講截圖
從任何一個你能想到的指標來看——無論是計算機專業中人工智能方向的學生人數、投資金額、新創企業數量,還是其他方面——AI都是一場在深度和廣度上不斷擴大的革命。我想在座的各位都不需要我來重復,過去幾年里,人工智能又迎來了更驚人的躍進——也就是大型語言模型的出現。
這些大型語言模型把現代AI所依賴的三大要素——算法、數據和計算力——都推向了更極致的規模。它們采用了一種名為“Transformer”的新型模型架構,訓練數據幾乎覆蓋了整個互聯網,并在數量驚人的最新、最強大芯片上運行。正如我們所見,其結果是在機器能力上比過去十年來的任何一次突破都更為迅猛。現在我們幾乎將“AI可以用自然語言流暢地跟我們對話”視為理所當然,AI能回答我們提出的幾乎任何領域的問題,甚至能夠生成各種復雜形式的內容——從圖像、聲音、音樂到視頻,無所不包。ChatGPT所取得的驚人成就是這項創新如何影響我們日常生活的最佳例證,因其創造了用戶采用速度的歷史新紀錄。
而且,這些能力并不只是表面上看著“會說話”而已。
現在AI模型在各種基準測試(從手寫識別到博士水平的科學問答)上的表現近幾年都在飛速攀升;其中一些難度極高、對人類來說具有挑戰性的任務,AI的成績簡直像坐火箭一樣往上躥,幾乎呈垂直上升的趨勢。
大模型正朝著更具“主動性”方向發展
不僅如此,從能夠流暢使用語言開始,大型語言模型還在朝更具“主動性”的方向發展——它們學會了將復雜任務分解成若干步驟,并逐步規劃如何實現目標。人們目前將這種趨勢稱作“具備代理能力(agentic)的AI”。而在2025年,這似乎正成為這場深遠技術演進的新篇章。對許多用戶和企業而言,這些能力已經非常實用,而它們還遠不止于此,后續的發展潛力更是不可估量。
我們目前所討論的還大多停留在“語言智能”層面,但人類之所以為人,是因為我們擁有更全面、更完整的智能。從“被動感知”到“主動行動”的新階段正在到來。在我自己的研究領域——涉及攝像頭和機器人時,我看到AI正逐漸具備“創造、理解、推理和交互”這些維度,進而在數字或物理的三維空間里與人和環境相互作用。我們稱之為“空間智能(spatial intelligence)”和“具身智能(embodied intelligence)”。
舉個例子:假設你看到這樣一張圖片,視覺智能很容易讓我們識別出里面的所有物品:那只貓、那盆植物、那張桌子,以及那杯牛奶。但是,這就代表我們感知系統的全部功能了嗎?我敢打賭,其中不少人不僅僅“看懂了”那張圖,還會產生“哎呀,快伸手把那杯牛奶抓住,別讓它掉到地上打碎了!”的沖動。這只是個小例子,但它清楚展示了“從觀察到行動”之間多么巨大的差別,也說明了我認為我們如今所處的拐點:AI正從觀察者變成與我們并肩行動的“執行者”。
實際上,就連我一直崇拜的圖靈先生,他對于未來的預見在這一點上也可能有些“過于狹隘”或“向內看”了。因為進化本身已經一再告訴我們:智能的真正強大之處,不僅僅在于“思考”,而在于讓思考能驅動行動。想想看,人類的空間智能讓我們得以建立燦爛的文明:從古老的金字塔到工業革命,從科學發現到藝術創作。如今,當AI逐漸拓展我們的空間和具身智能,這將如何進一步改變我們與周遭世界的關系?它又能幫助我們創造和發現些什么?可以預見,我們已經在打造某種面向未來的新形態了。
以人為本的AI的核心價值:尊嚴、能動性、社區
這個問題其實一直在指引我的研究工作。雖然我肯定,想要找到簡單答案幾乎不可能,但有一個主線在我多年的探索中始終貫穿,那就是我所說的“以人為本的AI(Human-Centered AI)”,并且它包含三個核心價值:尊嚴(dignity)、能動性(agency)和社區(community)。
首先是尊嚴。當面對越來越強大的技術時,我們人類常常會反思:到底是什么在定義“我們是誰”?如果把我們能做的所有事情都一一剝離,剩下的、那份能夠自主決策并親自行動的尊嚴感,依然是我們作為人的本質之一。如果AI這項技術能幫助我們守護并且“找回”這份尊嚴,尤其是能幫助到最脆弱的人群,那將是讓我最激動的事情。
在這一點上,我想給各位看一個例子:如何讓機器人和AI技術幫助那些嚴重癱瘓患者重新獲得自主行動的可能。在這項斯坦福大學的研究中,我的學生利用完全“非侵入式”腦電波(EEG)記錄獲取使用者的思維信號,通過AI算法對這些信號進行解碼并發送指令給機械手臂。最終,機械手臂在患者“意念”的控制下做出包括烹制日式壽喜燒在內的一整套烹飪動作。這便是AI幫助人們重新贏得自主與尊嚴的一個示例。
其次是能動性(agency)。我所在實驗室多年來的核心理念,就是探索如何讓AI“增強(augment)”人類的能力,而不是取代人類。毫無疑問,每一次重大的技術變革都會對勞動力市場產生沖擊,AI也不例外。然而,我相信AI可以幫助我們從創造力到醫療保健、從科研到制造業,在方方面面獲得新的能力。因為在許多方面,AI的技能與人類的技能其實是互補關系。我們完全可以利用這個“數字或物理上的合作者”來強化自身能力。
過去十年里,我的實驗室一直在研究AI如何改進醫療服務,這讓我見識到許多能讓AI幫助提高醫療質量、同時減輕醫護人員負擔的機會。這里給大家展示三個例子:利用搭載AI的智能攝像頭來協助醫院監督醫護人員的洗手規范,輔助記錄病人復健時的移動訓練情況,以及跟蹤手術器械的使用狀況。
最后是社區(community)。過去十年里,科技也常常被詬病“把人們越拉越遠”,催生了各種“信息繭房”和“狂熱話題誘餌”等。如今,AI又一次走到了十字路口:一條路是讓AI主導很多社交體驗,甚至為每個人極度定制并強化他們原本的偏見;另一條路則可能幫助我們構建更健康、更強大并具有包容性的社區,比如借助AI教育助手,讓更多人(包括孩子和成人)獲得學習的機會。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司