- +1
想做好智駕,必須要做基座大模型|對話小鵬智駕負(fù)責(zé)人

文|劉俊宏
編|王一粟
“AI大模型讓我們看到自動駕駛,比任何時候都接近于落地。”
在中國汽車智駕能力競爭愈發(fā)激烈的今天,小鵬汽車自動駕駛副總裁李力耘找到了智駕通往自動駕駛的大門。
針對去年車企們熱衷的端到端的智駕訓(xùn)練模式,李力耘認(rèn)為智駕模型還能做得更大,要突破過去端到端模型的“一畝三分地”。
端到端的模型做智駕的好處,李力耘解釋說,“用端到端的模型做自動駕駛,我覺得無非兩個重要的點(diǎn):一是保持信息的無損。另一個是降低整個車輛的延時,讓自動駕駛的功能更加敏捷、高效和擬人。”
但直接學(xué)習(xí)人類行為的端到端,其上限只是接近人類。在大量的數(shù)據(jù)和訓(xùn)練中,智駕逐漸形成類似于人類日常駕駛的能力和習(xí)慣。但真正遇到極端場景時,智駕廠商幾乎拿不到這部分?jǐn)?shù)據(jù)。一方面是因?yàn)閳鼍鞍l(fā)生的頻次非常少,另一方面是人類自己都反應(yīng)不過來,根本就沒有“可以參考的答案”。
如何讓端到端智駕變得更強(qiáng)?小鵬給出的答案是用云端大模型蒸餾并輔以強(qiáng)化學(xué)習(xí)的方式,跳出之前車端思路做智駕模型的“一畝三分地”。
事實(shí)上,過往的自動駕駛其實(shí)并沒有真正用到“大模型”。參考去年云端模型的進(jìn)化,AI成長的基本邏輯,遵循Scaling Law的“規(guī)模越大,能力越大”。
“基于當(dāng)前主流的車端芯片,車端模型的尺寸一般在1億到5億之間。最近非常受到業(yè)界關(guān)注的VLA模型,參數(shù)規(guī)模一般在20億左右。這是因?yàn)樽詣玉{駛的模型其實(shí)是一個非常復(fù)雜的,既需要兼顧視覺,也需要兼顧推理,最后還需要有動作輸出的一個大模型。但是云端大模型可以真正突破這樣的限制,整個參數(shù)量可以達(dá)到主流車端模型的35倍以上。”李力耘介紹道。
為了搭建云端足夠強(qiáng)的大模型,本次小鵬首次披露了正在研發(fā)的720億參數(shù)的超大規(guī)模自動駕駛大模型,即“小鵬世界基座模型”。
未來,小鵬將通過云端蒸餾小模型的方式將基模部署到車端,給“AI汽車”配備全新的大腦。
針對算力優(yōu)化,小鵬從2024年開始搭建AI基礎(chǔ)設(shè)施(AI Infra),當(dāng)前已建立起萬卡規(guī)模的智能算力集群,是目前國內(nèi)汽車行業(yè)最大的自動駕駛算力集群。
如今,小鵬的算力儲備達(dá)到10EFLOPS,集群利用率常年高達(dá)90%以上,高峰時期的運(yùn)行效率甚至達(dá)到98%。

“我們?yōu)槭裁匆度刖薮蟮馁Y源去做云端的基座模型呢?如果我們只局限在車端算力的一畝三分地,我們模型大小是受限的,能真正消化的數(shù)據(jù)也是受限的。只有超越車端芯片算力的限制,真正用更大的模型、更海量的數(shù)據(jù),去大道至簡地把駕駛這件事做好,我們才能真正實(shí)現(xiàn)車端的智能。”李力耘介紹說。
如何讓車端模型擁有云端大模型的能力?李力耘借用了去年云端模型的兩個最重要的進(jìn)化,“一個是知識的蒸餾,另一個是強(qiáng)化學(xué)習(xí)”。
Deepseek在數(shù)字世界證明了蒸餾和強(qiáng)化學(xué)習(xí)能夠大幅增強(qiáng)大模型的能力,小鵬現(xiàn)在在具身物理世界嘗試執(zhí)行和落地。
其中,知識的蒸餾是先讓云端大模型擁有深度思考(CoT思維鏈)的能力,然后再將這些能力蒸餾到車端模型上。在云端訓(xùn)練中,大模型形成對每一個場景會做出一系列符合邏輯,但又可能超越訓(xùn)練數(shù)據(jù)本身的思維鏈條。然后再將這些思維通過訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為操作,并以一個合適的頻率操縱自動駕駛。
引入思維鏈之后,智駕大模型展現(xiàn)出了極強(qiáng)的泛化能力。“在香港其實(shí)我們并沒有正式開放XNGP功能,但我們的用戶發(fā)現(xiàn)在這里XNGP也可按照導(dǎo)航駕駛我們的車。說明了在真正大模型能力賦能下,通過蒸餾是可以期待自動駕駛真正具備自己的靈魂、自己的大腦的。”李力耘介紹說。
在蒸餾之后,接下來是利用強(qiáng)化學(xué)習(xí)來打破智駕大模型的上限,進(jìn)而達(dá)到比人駕更安全的效果。在危急場景下,人類會緊張,會受到思維慣性的影響,但AI不會。針對AI強(qiáng)化學(xué)習(xí),本質(zhì)上就是允許AI利用一切操作,突破人類固有的認(rèn)知,找到危險場景的可行解,從而最大化保障行車安全。
對于強(qiáng)化學(xué)習(xí),根據(jù)小鵬世界基座模型負(fù)責(zé)人劉博士介紹,小鵬選擇從三個方面入手搭建整個獎勵機(jī)制。
首先是設(shè)計獎勵函數(shù)。小鵬在這部分使用的是最簡單的規(guī)則,例如合規(guī)、安全、舒適等,這些參數(shù)直接決定了行車體驗(yàn)。這些規(guī)則的設(shè)計和出發(fā)點(diǎn),來自小鵬過往智駕研發(fā)過程中積累的大量經(jīng)驗(yàn)。以這些規(guī)則作為大模型強(qiáng)化學(xué)習(xí)的開始,小鵬的智駕大模型在起步之初就打好了基礎(chǔ)能力。
其次是設(shè)計獎勵模型。獎勵模型的設(shè)計目的,是讓智駕模型獲得更連續(xù)、更泛化、更多維的獎勵信息。簡單來說就是告訴智駕“什么是好的”,并以此讓智駕想辦法達(dá)成這些表現(xiàn)。這部分小鵬更重視智駕接管和市場的反饋數(shù)據(jù),獎勵模型就會讓智駕盡量避免接管,或按照市場建議來改進(jìn)“開車習(xí)慣”。
最后是世界模型。作為當(dāng)前智駕最前沿的技術(shù)方案,行業(yè)內(nèi)主要用世界模型來進(jìn)行仿真,從而讓端到端智駕持續(xù)獲得泛化能力。在小鵬看來,世界模型不只是現(xiàn)實(shí)世界的“模擬器”。要想用好世界模型,就得將它作為智駕模型的閉環(huán)“訓(xùn)練場”。世界模型要有能力根據(jù)智駕模型的動作輸入,模擬出真實(shí)的場景,并且生成其他智能體的響應(yīng),從而構(gòu)建閉環(huán)的訓(xùn)練網(wǎng)絡(luò)。
如何理解世界模型應(yīng)該具有的能力?劉博士舉了這樣一個例子,假設(shè)智駕看到前面有輛車,隨后選擇了繞行。對過的車輛看見我們正在繞行,它也會稍微避開一點(diǎn)空間,而不是繼續(xù)保持直行。世界模型本身的運(yùn)行,應(yīng)該符合常識,而非“生硬死板”的模擬空間。“世界模型更像是一個生成式的想象系統(tǒng),要理解這個世界以及如何去完成動作”,劉博士總結(jié)說。
“在今天真的是非常幸運(yùn),在大模型的賦能下,我們真正看到自動駕駛離我們前所未有的近。”
回想起從事自動駕駛開發(fā)的經(jīng)歷,李力耘唏噓不已。一路走來,小鵬汽車經(jīng)歷了硬件算力稀缺的時期,走過了不停寫規(guī)則完善智駕的艱辛,也體驗(yàn)了端到端加速智駕研發(fā)的驚喜。面對自動駕駛的“高峰”,李力耘在研發(fā)中越來越有信心。
“功成不必在我,功成必定有我。我們小鵬汽車自動駕駛團(tuán)隊(duì)一定會在這條路上持續(xù)深耕,一定會把真正的自動駕駛帶給大家。”
以下為小鵬AI大模型技術(shù)溝通會問答環(huán)節(jié)實(shí)錄(經(jīng)光錐智能編輯整理)。受訪者為小鵬汽車自動駕駛副總裁李力耘與小鵬汽車自動駕駛產(chǎn)品高級總監(jiān)袁婷婷。
Q:小鵬的AI模型開發(fā)與特斯拉有什么相同與不同?世界模型與其他友商有什么區(qū)別?
李力耘:我覺得應(yīng)該是“英雄所見略同”。首先我們都是面向C端的公司,都有C端落地的產(chǎn)品,所以我們都有海量的數(shù)據(jù)。其次,我們都有非常高的算力儲備和AI能力。我覺得很多東西可能就不言自明了,如果AI能力只是為了從車端訓(xùn)練小的模型的話,肯定不是一個終極方案。區(qū)別部分是小鵬的基座模型不僅僅是對世界的理解,更重要的是需要它像人一樣大小腦兼并,可快可慢,進(jìn)而實(shí)現(xiàn)與現(xiàn)實(shí)世界的交互。
袁婷婷:現(xiàn)在可能大部分人想要用世界模型做仿真,但很顯然它不僅僅是只能做仿真。我們還在用模型來調(diào)教Agent(智能體)的反饋,和它之間的博弈以及接下來要做哪些動作。
Q:基于以往的規(guī)則,可以理解為是一種托底嗎?世界模型生成的規(guī)則是否可能與以往設(shè)定的規(guī)則產(chǎn)生沖突?很多人都在提基座模型、VLA,看起來好像都是語言、視覺或者說動態(tài)的、多模態(tài)的概念,這些區(qū)別到底在哪里?
李力耘:我覺得最重要的區(qū)別是超越車端芯片算力的“一畝三分地”,我們的模型真的就是“大道至簡”。不需要考慮部署的問題,就是先通過最簡單的模型、最純粹的模型架構(gòu)、最海量的優(yōu)質(zhì)數(shù)據(jù),達(dá)到超越的、未曾想到的能力涌現(xiàn)效果。
關(guān)于語言,語言是一種表征形式。不是說所有語言都應(yīng)該以人類語言的形式表示。我們基于大語言模型加上獨(dú)特的多模態(tài)視頻編碼器的輸入,再加上我們動作解碼器的輸出,最后進(jìn)行強(qiáng)化學(xué)習(xí)。我們的基座模型的目的,是為了做好物理世界交互。語言模型的預(yù)訓(xùn)練是一個起點(diǎn),讓模型有初步的推理能力,但更重要的還是讓模型體現(xiàn)出推理和思維能力。在云端驗(yàn)證了這些能力之后,這才是我們值得去蒸餾的東西。
回到規(guī)則,在規(guī)則時代小鵬無疑是領(lǐng)先的,我們的規(guī)則積累很深。這些規(guī)則,以前可能算是一個負(fù)擔(dān),但現(xiàn)在非常自豪和高興,因?yàn)檫@些規(guī)則正在轉(zhuǎn)化成我們的資本。我們成功完成了很多核心研發(fā)同學(xué)從規(guī)則化到AI化的轉(zhuǎn)型,尤其在強(qiáng)化學(xué)習(xí)的初期,規(guī)則其實(shí)算是積累好的經(jīng)驗(yàn)和老師,規(guī)則不斷沉淀,AI才能更高效地成長。沒有以前規(guī)則的積累,可能會不知道如何去教AI。只有規(guī)則和強(qiáng)化學(xué)習(xí)的積累到一定程度,我們才能實(shí)現(xiàn)從Reward Model(獎勵模型)到World Model(世界模型)的轉(zhuǎn)變。
袁婷婷:我認(rèn)為我們的云端的基座大模型和別人的云端訓(xùn)練至少有三處不同。
第一是我們的訓(xùn)練方式。我們在去年11月份就提出,先在云端訓(xùn)練一個非常巨大的模型,再蒸餾到車端的流程。今年1月我們看到DeepSeek公開的論文顯示,他們也在用蒸餾方式時,我們感覺真的是英雄所見略同。通過這樣的方式,可以突破車端模型的能力上限,改變云端參照車端算力來搭設(shè)模型規(guī)模的做法。
第二點(diǎn)是架構(gòu)和性能表現(xiàn)不同。我們正在訓(xùn)練的模型已經(jīng)達(dá)到了72B的參數(shù)。更大的模型能夠支撐更大的訓(xùn)練數(shù)據(jù)量,我們現(xiàn)在用到的是2000萬Clips,預(yù)計年底會達(dá)到2億Clips。這些領(lǐng)先行業(yè)數(shù)量級的訓(xùn)練數(shù)據(jù)量,將轉(zhuǎn)化成模型性能上的巨大優(yōu)勢。
第三點(diǎn)是我們的基礎(chǔ)能力。我們從0開始建了AI Infra,這些AI基礎(chǔ)設(shè)施不可能是一天忽然從0到1生成的。我們還建成了整個自動駕駛行業(yè)內(nèi)首個萬卡集群。如何把這些算力訓(xùn)練的效率發(fā)揮到最大化,以及如何12小時就能訓(xùn)練一版模型出來,這些都體現(xiàn)了我們今天領(lǐng)先于行業(yè)的一些特點(diǎn)。
Q:LLM的幻覺問題怎么解決,需要規(guī)則兜底嗎?模型蒸餾到自研芯片上,其效率與使用常見芯片相比如何?
李力耘:確實(shí)大模型的預(yù)訓(xùn)上有時候會有一些幻覺或者偶爾有一些模態(tài)坍塌。這些情況很難針對出問題的case用類似寫Loss-Function(損失函數(shù))的方式解決。但我們通過后訓(xùn)練微調(diào)和強(qiáng)化學(xué)習(xí)進(jìn)行打磨,最終目標(biāo)是讓AI不僅達(dá)到非常高的上限,而且還能對下限進(jìn)行兜底。我們跟現(xiàn)在的車端端到端不一樣,車端的端到端模型很小,有時候有一些東西確實(shí)很難學(xué)進(jìn)去。但云端大模型是有能力掌握真正的靈魂和智能的,這是我們篤定的方向。
關(guān)于第二個問題。在云端的世界模型、仿真、實(shí)車驗(yàn)證了能力之后,是可以蒸餾到車端不同芯片上的。在確認(rèn)云端的能力之后,車端的芯片決定了承載能力。我們希望用自研的芯片和軟硬一體的優(yōu)化給大家?guī)硎掳牍Ρ兜男Ч?/p>
袁婷婷:我認(rèn)為第二個問題關(guān)鍵就兩點(diǎn)。第一是用蒸餾的方法一定能提高上限。所以,我們用云端的基座模型蒸餾到車端的方式,是遠(yuǎn)勝于現(xiàn)在直接訓(xùn)車端的雙Orin或以后我們自己的芯片的。無論哪個都是加碼,這是一個確定性的答案。
第二點(diǎn),我們馬上要發(fā)新車了。新的芯片算力一定比現(xiàn)在車端的算力有數(shù)倍提高。假設(shè)自動駕駛是一個人,需要有非常聰明的大腦、有非常銳利的眼睛,來面對這個世界并做出判斷。這個過程中,最核心的部分一定是聰明的大腦。大腦越大,轉(zhuǎn)的速度越快,一定更加厲害,我覺得這也是一個很簡單的常識性問題。所以,無論是今天的雙Orin車型還是來自研芯片的車型,都遵循ScalingLaw的進(jìn)化。
Q:安全對汽車來講是生命線,AI技術(shù)未來在安全中如何發(fā)揮更大的作用,在當(dāng)下我們這套系統(tǒng)中我們有沒有一些最新的思考?會再加一些規(guī)則或什么樣的方式再去把控底線嗎?
李力耘:我們認(rèn)為安全最重要的是要有雪亮的眼睛,要有聰明的大腦,以及靈敏的身手和反應(yīng)。安全作為我們最重要的一環(huán),我們也在往這三個方向努力。
雪亮的眼睛,就是我們眼觀六路,耳聽八方,比如在傳感器的覆蓋上,我們是非常重視的。當(dāng)然,更重要的是,我們認(rèn)為你要有聰明的大腦,這樣才能做到很多預(yù)防性的安全。最后,身手也需要好,無論是整個車端的端到端,還是通過云端的基座模型蒸餾出來的端到端,都是一體式的,所以會有最小的延時,使用最多的信息,以最敏捷的方法去幫我們把安全做到更好。
袁婷婷:第一,AI汽車一定是安全汽車。AI汽車一定代表了AI安全,這是確定性的,而且AI的安全在整個小鵬核心戰(zhàn)略里是關(guān)鍵的,是決不會退讓的一步。
第二,從端到端走向L3、L4的過程中,AI的第一步是端到端,它是極致人類行為的模擬。人類怎么開我就怎么開,可以和人類開得一樣好,它顯示出了你的舒適性、體驗(yàn)、靈活性都非常高。但要超越人類的時候,強(qiáng)化學(xué)習(xí)一定會帶來新的驚喜。這也是為什么我們會用云端基座模型蒸餾的方式突破云端的上限,用強(qiáng)化學(xué)習(xí)既突破云端基座的上限,也突破車端的上限。
大家都非常擔(dān)心AI的幻覺,擔(dān)心下限守不住。首先,我想說我們現(xiàn)在可以看到的是隨著AI介入越來越多,其實(shí)安全性的表現(xiàn)是越來越好的,而未來這個表現(xiàn)應(yīng)該還會持續(xù)得更好,并且會遠(yuǎn)遠(yuǎn)超出人類現(xiàn)在駕駛行為能夠帶來的安全。所以會給大家超出預(yù)期外的安全,在更多的極限場景,如果你要達(dá)到L3、L4,就一定要在會遇到概率0.0001%的情況下也能夠發(fā)揮出更好的實(shí)力。
Q:自研基座模型的必要性?為什么其他基座模型蒸餾的效果做不到小鵬這樣?對模型開源有什么理解?
袁婷婷:其實(shí)大家首先需要LLM作為骨干,做自動駕駛就需要往上疊加大量現(xiàn)實(shí)世界數(shù)據(jù)。物理的AI世界非常復(fù)雜,跟文本的比特世界不一樣。物理世界會遇到現(xiàn)實(shí)的速度、操控,人類、運(yùn)動等非常不一樣的狀況。我們添加了自動駕駛數(shù)據(jù)以后,還用CoT推理鏈去一步步理解,推導(dǎo)出整個現(xiàn)實(shí)世界的脈絡(luò)和物體的運(yùn)動。這些都是區(qū)別,當(dāng)然我們也有一個LLM的底層骨干網(wǎng)。
我認(rèn)為小鵬自動駕駛也好、智能座艙也好,其實(shí)在AI開源浪潮中是受益的。無論是通義千問還是DeepSeek這些非常棒的、非常優(yōu)秀的AI公司,都讓我們有所受益,我們對未來的發(fā)展也抱著開放的態(tài)度。也許有一天大家也可以看到我們的自動駕駛有一部分也可以通過開放的方式,給世界和行業(yè)一些反饋,這也是我們對未來的期待,但今天肯定還沒有到這個時候。
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司