下載客戶端

登錄

想做好智駕，必須要做基座大模型｜對話小鵬智駕負責(zé)人

2025-04-21 12:37

來源：澎湃新聞·澎湃號·湃客

文｜劉俊宏

編｜王一粟

“AI大模型讓我們看到自動駕駛，比任何時候都接近于落地。”

在中國汽車智駕能力競爭愈發(fā)激烈的今天，小鵬汽車自動駕駛副總裁李力耘找到了智駕通往自動駕駛的大門。

針對去年車企們熱衷的端到端的智駕訓(xùn)練模式，李力耘認為智駕模型還能做得更大，要突破過去端到端模型的“一畝三分地”。

端到端的模型做智駕的好處，李力耘解釋說，“用端到端的模型做自動駕駛，我覺得無非兩個重要的點：一是保持信息的無損。另一個是降低整個車輛的延時，讓自動駕駛的功能更加敏捷、高效和擬人。”

但直接學(xué)習(xí)人類行為的端到端，其上限只是接近人類。在大量的數(shù)據(jù)和訓(xùn)練中，智駕逐漸形成類似于人類日常駕駛的能力和習(xí)慣。但真正遇到極端場景時，智駕廠商幾乎拿不到這部分數(shù)據(jù)。一方面是因為場景發(fā)生的頻次非常少，另一方面是人類自己都反應(yīng)不過來，根本就沒有“可以參考的答案”。

如何讓端到端智駕變得更強？小鵬給出的答案是用云端大模型蒸餾并輔以強化學(xué)習(xí)的方式，跳出之前車端思路做智駕模型的“一畝三分地”。

事實上，過往的自動駕駛其實并沒有真正用到“大模型”。參考去年云端模型的進化，AI成長的基本邏輯，遵循Scaling Law的“規(guī)模越大，能力越大”。

“基于當前主流的車端芯片，車端模型的尺寸一般在1億到5億之間。最近非常受到業(yè)界關(guān)注的VLA模型，參數(shù)規(guī)模一般在20億左右。這是因為自動駕駛的模型其實是一個非常復(fù)雜的，既需要兼顧視覺，也需要兼顧推理，最后還需要有動作輸出的一個大模型。但是云端大模型可以真正突破這樣的限制，整個參數(shù)量可以達到主流車端模型的35倍以上。”李力耘介紹道。

為了搭建云端足夠強的大模型，本次小鵬首次披露了正在研發(fā)的720億參數(shù)的超大規(guī)模自動駕駛大模型，即“小鵬世界基座模型”。

未來，小鵬將通過云端蒸餾小模型的方式將基模部署到車端，給“AI汽車”配備全新的大腦。

針對算力優(yōu)化，小鵬從2024年開始搭建AI基礎(chǔ)設(shè)施（AI Infra），當前已建立起萬卡規(guī)模的智能算力集群，是目前國內(nèi)汽車行業(yè)最大的自動駕駛算力集群。

如今，小鵬的算力儲備達到10EFLOPS，集群利用率常年高達90%以上，高峰時期的運行效率甚至達到98%。

“我們?yōu)槭裁匆度刖薮蟮馁Y源去做云端的基座模型呢？如果我們只局限在車端算力的一畝三分地，我們模型大小是受限的，能真正消化的數(shù)據(jù)也是受限的。只有超越車端芯片算力的限制，真正用更大的模型、更海量的數(shù)據(jù)，去大道至簡地把駕駛這件事做好，我們才能真正實現(xiàn)車端的智能。”李力耘介紹說。

如何讓車端模型擁有云端大模型的能力？李力耘借用了去年云端模型的兩個最重要的進化，“一個是知識的蒸餾，另一個是強化學(xué)習(xí)”。

Deepseek在數(shù)字世界證明了蒸餾和強化學(xué)習(xí)能夠大幅增強大模型的能力，小鵬現(xiàn)在在具身物理世界嘗試執(zhí)行和落地。

其中，知識的蒸餾是先讓云端大模型擁有深度思考（CoT思維鏈）的能力，然后再將這些能力蒸餾到車端模型上。在云端訓(xùn)練中，大模型形成對每一個場景會做出一系列符合邏輯，但又可能超越訓(xùn)練數(shù)據(jù)本身的思維鏈條。然后再將這些思維通過訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為操作，并以一個合適的頻率操縱自動駕駛。

引入思維鏈之后，智駕大模型展現(xiàn)出了極強的泛化能力。“在香港其實我們并沒有正式開放XNGP功能，但我們的用戶發(fā)現(xiàn)在這里XNGP也可按照導(dǎo)航駕駛我們的車。說明了在真正大模型能力賦能下，通過蒸餾是可以期待自動駕駛真正具備自己的靈魂、自己的大腦的。”李力耘介紹說。

在蒸餾之后，接下來是利用強化學(xué)習(xí)來打破智駕大模型的上限，進而達到比人駕更安全的效果。在危急場景下，人類會緊張，會受到思維慣性的影響，但AI不會。針對AI強化學(xué)習(xí)，本質(zhì)上就是允許AI利用一切操作，突破人類固有的認知，找到危險場景的可行解，從而最大化保障行車安全。

對于強化學(xué)習(xí)，根據(jù)小鵬世界基座模型負責(zé)人劉博士介紹，小鵬選擇從三個方面入手搭建整個獎勵機制。

首先是設(shè)計獎勵函數(shù)。小鵬在這部分使用的是最簡單的規(guī)則，例如合規(guī)、安全、舒適等，這些參數(shù)直接決定了行車體驗。這些規(guī)則的設(shè)計和出發(fā)點，來自小鵬過往智駕研發(fā)過程中積累的大量經(jīng)驗。以這些規(guī)則作為大模型強化學(xué)習(xí)的開始，小鵬的智駕大模型在起步之初就打好了基礎(chǔ)能力。

其次是設(shè)計獎勵模型。獎勵模型的設(shè)計目的，是讓智駕模型獲得更連續(xù)、更泛化、更多維的獎勵信息。簡單來說就是告訴智駕“什么是好的”，并以此讓智駕想辦法達成這些表現(xiàn)。這部分小鵬更重視智駕接管和市場的反饋數(shù)據(jù)，獎勵模型就會讓智駕盡量避免接管，或按照市場建議來改進“開車習(xí)慣”。

最后是世界模型。作為當前智駕最前沿的技術(shù)方案，行業(yè)內(nèi)主要用世界模型來進行仿真，從而讓端到端智駕持續(xù)獲得泛化能力。在小鵬看來，世界模型不只是現(xiàn)實世界的“模擬器”。要想用好世界模型，就得將它作為智駕模型的閉環(huán)“訓(xùn)練場”。世界模型要有能力根據(jù)智駕模型的動作輸入，模擬出真實的場景，并且生成其他智能體的響應(yīng)，從而構(gòu)建閉環(huán)的訓(xùn)練網(wǎng)絡(luò)。

如何理解世界模型應(yīng)該具有的能力？劉博士舉了這樣一個例子，假設(shè)智駕看到前面有輛車，隨后選擇了繞行。對過的車輛看見我們正在繞行，它也會稍微避開一點空間，而不是繼續(xù)保持直行。世界模型本身的運行，應(yīng)該符合常識，而非“生硬死板”的模擬空間。“世界模型更像是一個生成式的想象系統(tǒng)，要理解這個世界以及如何去完成動作”，劉博士總結(jié)說。

“在今天真的是非常幸運，在大模型的賦能下，我們真正看到自動駕駛離我們前所未有的近。”

回想起從事自動駕駛開發(fā)的經(jīng)歷，李力耘唏噓不已。一路走來，小鵬汽車經(jīng)歷了硬件算力稀缺的時期，走過了不停寫規(guī)則完善智駕的艱辛，也體驗了端到端加速智駕研發(fā)的驚喜。面對自動駕駛的“高峰”，李力耘在研發(fā)中越來越有信心。

“功成不必在我，功成必定有我。我們小鵬汽車自動駕駛團隊一定會在這條路上持續(xù)深耕，一定會把真正的自動駕駛帶給大家。”

以下為小鵬AI大模型技術(shù)溝通會問答環(huán)節(jié)實錄（經(jīng)光錐智能編輯整理）。受訪者為小鵬汽車自動駕駛副總裁李力耘與小鵬汽車自動駕駛產(chǎn)品高級總監(jiān)袁婷婷。

Q：小鵬的AI模型開發(fā)與特斯拉有什么相同與不同？世界模型與其他友商有什么區(qū)別？

李力耘：我覺得應(yīng)該是“英雄所見略同”。首先我們都是面向C端的公司，都有C端落地的產(chǎn)品，所以我們都有海量的數(shù)據(jù)。其次，我們都有非常高的算力儲備和AI能力。我覺得很多東西可能就不言自明了，如果AI能力只是為了從車端訓(xùn)練小的模型的話，肯定不是一個終極方案。區(qū)別部分是小鵬的基座模型不僅僅是對世界的理解，更重要的是需要它像人一樣大小腦兼并，可快可慢，進而實現(xiàn)與現(xiàn)實世界的交互。

袁婷婷：現(xiàn)在可能大部分人想要用世界模型做仿真，但很顯然它不僅僅是只能做仿真。我們還在用模型來調(diào)教Agent（智能體）的反饋，和它之間的博弈以及接下來要做哪些動作。

Q：基于以往的規(guī)則，可以理解為是一種托底嗎？世界模型生成的規(guī)則是否可能與以往設(shè)定的規(guī)則產(chǎn)生沖突？很多人都在提基座模型、VLA，看起來好像都是語言、視覺或者說動態(tài)的、多模態(tài)的概念，這些區(qū)別到底在哪里？

李力耘：我覺得最重要的區(qū)別是超越車端芯片算力的“一畝三分地”，我們的模型真的就是“大道至簡”。不需要考慮部署的問題，就是先通過最簡單的模型、最純粹的模型架構(gòu)、最海量的優(yōu)質(zhì)數(shù)據(jù)，達到超越的、未曾想到的能力涌現(xiàn)效果。

關(guān)于語言，語言是一種表征形式。不是說所有語言都應(yīng)該以人類語言的形式表示。我們基于大語言模型加上獨特的多模態(tài)視頻編碼器的輸入，再加上我們動作解碼器的輸出，最后進行強化學(xué)習(xí)。我們的基座模型的目的，是為了做好物理世界交互。語言模型的預(yù)訓(xùn)練是一個起點，讓模型有初步的推理能力，但更重要的還是讓模型體現(xiàn)出推理和思維能力。在云端驗證了這些能力之后，這才是我們值得去蒸餾的東西。

回到規(guī)則，在規(guī)則時代小鵬無疑是領(lǐng)先的，我們的規(guī)則積累很深。這些規(guī)則，以前可能算是一個負擔(dān)，但現(xiàn)在非常自豪和高興，因為這些規(guī)則正在轉(zhuǎn)化成我們的資本。我們成功完成了很多核心研發(fā)同學(xué)從規(guī)則化到AI化的轉(zhuǎn)型，尤其在強化學(xué)習(xí)的初期，規(guī)則其實算是積累好的經(jīng)驗和老師，規(guī)則不斷沉淀，AI才能更高效地成長。沒有以前規(guī)則的積累，可能會不知道如何去教AI。只有規(guī)則和強化學(xué)習(xí)的積累到一定程度，我們才能實現(xiàn)從Reward Model（獎勵模型）到World Model（世界模型）的轉(zhuǎn)變。

袁婷婷：我認為我們的云端的基座大模型和別人的云端訓(xùn)練至少有三處不同。

第一是我們的訓(xùn)練方式。我們在去年11月份就提出，先在云端訓(xùn)練一個非常巨大的模型，再蒸餾到車端的流程。今年1月我們看到DeepSeek公開的論文顯示，他們也在用蒸餾方式時，我們感覺真的是英雄所見略同。通過這樣的方式，可以突破車端模型的能力上限，改變云端參照車端算力來搭設(shè)模型規(guī)模的做法。

第二點是架構(gòu)和性能表現(xiàn)不同。我們正在訓(xùn)練的模型已經(jīng)達到了72B的參數(shù)。更大的模型能夠支撐更大的訓(xùn)練數(shù)據(jù)量，我們現(xiàn)在用到的是2000萬Clips，預(yù)計年底會達到2億Clips。這些領(lǐng)先行業(yè)數(shù)量級的訓(xùn)練數(shù)據(jù)量，將轉(zhuǎn)化成模型性能上的巨大優(yōu)勢。

第三點是我們的基礎(chǔ)能力。我們從0開始建了AI Infra，這些AI基礎(chǔ)設(shè)施不可能是一天忽然從0到1生成的。我們還建成了整個自動駕駛行業(yè)內(nèi)首個萬卡集群。如何把這些算力訓(xùn)練的效率發(fā)揮到最大化，以及如何12小時就能訓(xùn)練一版模型出來，這些都體現(xiàn)了我們今天領(lǐng)先于行業(yè)的一些特點。

Q：LLM的幻覺問題怎么解決，需要規(guī)則兜底嗎？模型蒸餾到自研芯片上，其效率與使用常見芯片相比如何？

李力耘：確實大模型的預(yù)訓(xùn)上有時候會有一些幻覺或者偶爾有一些模態(tài)坍塌。這些情況很難針對出問題的case用類似寫Loss-Function（損失函數(shù)）的方式解決。但我們通過后訓(xùn)練微調(diào)和強化學(xué)習(xí)進行打磨，最終目標是讓AI不僅達到非常高的上限，而且還能對下限進行兜底。我們跟現(xiàn)在的車端端到端不一樣，車端的端到端模型很小，有時候有一些東西確實很難學(xué)進去。但云端大模型是有能力掌握真正的靈魂和智能的，這是我們篤定的方向。

關(guān)于第二個問題。在云端的世界模型、仿真、實車驗證了能力之后，是可以蒸餾到車端不同芯片上的。在確認云端的能力之后，車端的芯片決定了承載能力。我們希望用自研的芯片和軟硬一體的優(yōu)化給大家?guī)硎掳牍Ρ兜男Ч?/p>

袁婷婷：我認為第二個問題關(guān)鍵就兩點。第一是用蒸餾的方法一定能提高上限。所以，我們用云端的基座模型蒸餾到車端的方式，是遠勝于現(xiàn)在直接訓(xùn)車端的雙Orin或以后我們自己的芯片的。無論哪個都是加碼，這是一個確定性的答案。

第二點，我們馬上要發(fā)新車了。新的芯片算力一定比現(xiàn)在車端的算力有數(shù)倍提高。假設(shè)自動駕駛是一個人，需要有非常聰明的大腦、有非常銳利的眼睛，來面對這個世界并做出判斷。這個過程中，最核心的部分一定是聰明的大腦。大腦越大，轉(zhuǎn)的速度越快，一定更加厲害，我覺得這也是一個很簡單的常識性問題。所以，無論是今天的雙Orin車型還是來自研芯片的車型，都遵循ScalingLaw的進化。

Q：安全對汽車來講是生命線，AI技術(shù)未來在安全中如何發(fā)揮更大的作用，在當下我們這套系統(tǒng)中我們有沒有一些最新的思考？會再加一些規(guī)則或什么樣的方式再去把控底線嗎？

李力耘：我們認為安全最重要的是要有雪亮的眼睛，要有聰明的大腦，以及靈敏的身手和反應(yīng)。安全作為我們最重要的一環(huán)，我們也在往這三個方向努力。

雪亮的眼睛，就是我們眼觀六路，耳聽八方，比如在傳感器的覆蓋上，我們是非常重視的。當然，更重要的是，我們認為你要有聰明的大腦，這樣才能做到很多預(yù)防性的安全。最后，身手也需要好，無論是整個車端的端到端，還是通過云端的基座模型蒸餾出來的端到端，都是一體式的，所以會有最小的延時，使用最多的信息，以最敏捷的方法去幫我們把安全做到更好。

袁婷婷：第一，AI汽車一定是安全汽車。AI汽車一定代表了AI安全，這是確定性的，而且AI的安全在整個小鵬核心戰(zhàn)略里是關(guān)鍵的，是決不會退讓的一步。

第二，從端到端走向L3、L4的過程中，AI的第一步是端到端，它是極致人類行為的模擬。人類怎么開我就怎么開，可以和人類開得一樣好，它顯示出了你的舒適性、體驗、靈活性都非常高。但要超越人類的時候，強化學(xué)習(xí)一定會帶來新的驚喜。這也是為什么我們會用云端基座模型蒸餾的方式突破云端的上限，用強化學(xué)習(xí)既突破云端基座的上限，也突破車端的上限。

大家都非常擔(dān)心AI的幻覺，擔(dān)心下限守不住。首先，我想說我們現(xiàn)在可以看到的是隨著AI介入越來越多，其實安全性的表現(xiàn)是越來越好的，而未來這個表現(xiàn)應(yīng)該還會持續(xù)得更好，并且會遠遠超出人類現(xiàn)在駕駛行為能夠帶來的安全。所以會給大家超出預(yù)期外的安全，在更多的極限場景，如果你要達到L3、L4，就一定要在會遇到概率0.0001%的情況下也能夠發(fā)揮出更好的實力。

Q：自研基座模型的必要性？為什么其他基座模型蒸餾的效果做不到小鵬這樣？對模型開源有什么理解？

袁婷婷：其實大家首先需要LLM作為骨干，做自動駕駛就需要往上疊加大量現(xiàn)實世界數(shù)據(jù)。物理的AI世界非常復(fù)雜，跟文本的比特世界不一樣。物理世界會遇到現(xiàn)實的速度、操控，人類、運動等非常不一樣的狀況。我們添加了自動駕駛數(shù)據(jù)以后，還用CoT推理鏈去一步步理解，推導(dǎo)出整個現(xiàn)實世界的脈絡(luò)和物體的運動。這些都是區(qū)別，當然我們也有一個LLM的底層骨干網(wǎng)。

我認為小鵬自動駕駛也好、智能座艙也好，其實在AI開源浪潮中是受益的。無論是通義千問還是DeepSeek這些非常棒的、非常優(yōu)秀的AI公司，都讓我們有所受益，我們對未來的發(fā)展也抱著開放的態(tài)度。也許有一天大家也可以看到我們的自動駕駛有一部分也可以通過開放的方式，給世界和行業(yè)一些反饋，這也是我們對未來的期待，但今天肯定還沒有到這個時候。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#小鵬汽車 #智能駕駛