面壁智能首席科學家劉知遠：大模型的“摩爾定律”是模型知識密度持續增強

澎湃新聞記者喻琰

2024-07-08 12:10

來源：澎湃新聞

? 未來2% >

·從2023年下半年開始，很多國內一線大模型公司水平已經達到了GPT3.5，現在則達到了接近GPT4.0的水平，但更應該關注的是國外尚未公布的模型。

·未來高效大模型第一性原理的關鍵詞便是知識密度。模型的知識密度增強將呈現出每8個月提升一倍的規律。

“OpenAI推出的ChatGPT拉開了通用人工智能的序幕，影響力堪比2000年左右興起的互聯網。未來5-10年里，大模型及通用人工智能技術將給整個產業和人類社會帶來無限想象空間”。

7月5日上午，清華大學長聘副教授，北京面壁智能科技有限責任公司（簡稱面壁智能）聯合創始人、首席科學家劉知遠在WAIC2024分論壇上做了一場題為《大模型時代的“摩爾定律”》主題分享。

2022年，身為清華大學計算機系自然語言處理實驗室的副教授劉知遠帶頭成立面壁智能，成為國內最早研發大模型的團隊之一。

清華大學長聘副教授，北京面壁智能科技有限責任公司聯合創始人、首席科學家劉知遠

今年6月，斯坦福學生AI團隊訓練出的開源多模態模型，被傳“套殼”了面壁智能的MiniCPM-Llama3-V2.5后，這家清華系大模型創業公司受到了社會關注。

當前中國大模型水平到底怎么樣？大模型商業化落地會面臨哪些問題？澎湃科技（www.kxwhcb.com）在劉知遠演講結束后對他進行了專訪。

中美大模型存在一年代差

在劉知遠的觀察中，從全球范圍看，OpenAI推出的大模型仍處于世界一級水平，但中國大模型追趕能力超強。從2023年下半年開始，很多國內一線大模型公司水平已經達到了GPT3.5，現在則達到了接近GPT4.0的水平。

“單看已發布的模型能力，基本上會認為中美大模型存在一年左右的代差。”但劉知遠強調，關注模型更應該關注的是國外尚未公布的模型——比如美國一些科技公司完全具有持續不斷推出模型的能力。

劉知遠對中國大模型技術水平的發展保持積極樂觀的態度，“我認為國內AI大模型水平已經形成了有高原但無高峰”的狀態。據他透露，面壁智能將在半年或一年內把GPT3.5水平的模型能力放到端側運行，爭取未來兩年內在端側實現GPT4.0能力。

但他也向澎湃科技感慨，盡管國內大模型企業用近一年半的時間追趕美國，但國內的大模型公司整體情況基本上還是“太卷”，大家太注重短期利益，整體大的創新性仍不足，“很難做出特別前沿的產品。”

在劉知遠看來，未來大模型發展主要會有三個戰場：一是大模型會往更科學化的方向發展，高校會有一套推進大模型實力增強的技術路線；二是未來大模型一定會跟計算系統結合，比如會有智能操作系統、智能數據庫等，各類計算系統負責各行各業；其三，未來廣泛應用會在企業端、產業界。

回看過去，劉知遠判斷，“我們經歷了符號智能、專用智能，今天還是大模型的序幕，從OpenAI提出ChatGPT的第一個版本開始，到現在不過五六年時間。目前，我們正在加速邁向更加通用的人工智能，而大模型技術就是非常重要的技術基礎。”

未來大模型的競爭是知識密度的競爭

產業界似乎默認，OpenAI訓練出的Sora和GPT，都是典型的“大力出奇跡”的效果，在大模型領域，當前依然是典型的暴力美學模式，大算力是造就大選手的基礎門檻。

劉知遠在WAIC2024“模型即服務(Mass) 加速大模型應用落地”論壇上演講

對此，劉知遠也分享了他的研究思路。他認為，大模型時代會擁有自己的“摩爾定律”，即模型知識密度的持續增強，“如果說芯片制程會帶來終端算力持續增強，模型制程也將帶來模型知識密度的持續增長。”知識密度即每一次的計算所需要參與的參數以及對應能力所需要消耗的算力，劉知遠進一步解釋說，“一個知識密度越強的模型意味著能力越強，每一次計算所需要的參數規模越小。”據劉知遠觀察，模型的知識密度增強將呈現出每8個月提升一倍的規律。

劉知遠認為，未來高效大模型第一性原理的關鍵詞便是知識密度。如果大模型數據驅動技術方向大致確定，那么模型的架構、算法、數據等技術方案卻仍在高速迭代，持續改進模型制程、極致提升知識密度成為行業努力的方向。在這個邏輯之下，就可以打破“大模型算力越大，參數越大，準確率就會越高”的刻板印象。

WAIC2024顯現的三大趨勢

談及此次世界人工智能大會，劉知遠表示，可以看出三大發展趨勢：

其一，具身智能是未來的趨勢之一。他認為，當前產業界正快速地往具身方向靠近，尤其人形機器人的核心功能對應的是具身智能，模型需要具備越來越強大的多模態能力。不過人形機器人雖然很火，但他認為人形機器人最終是否能夠實現商業化落地依然是行業難題。面向未來，在他看來，人形機器人的發展大概率會經過過渡階段，期間會出現各種不同形態的機器人，可以把大模型變得更加智能，這樣機器人會擁有更強大的大腦。

其二，未來AI將賦能各個專業垂直領域中，比如教育行業、司法領域等。“為什么法律領域的大模型落地速度快？”劉知遠認為，一個原因在于借助AI技術可以幫助法官提質增效，從大量重復性的勞動中解放出來。面對案多人少的突出矛盾，法院擁抱AI的積極性非常高。另一個重要原因是信息化程度高。“它們的數據是天然的，所以大模型用起來很順。”在劉知遠看來，“現在限制大模型廣泛應用的瓶頸不在于技術，而在于相關的信息化、數據化的準備上。”

其三，對于大模型的探索不應僅停留在云上運用，端上運用大模型的意義或價值更大。他認為，未來的大模型是端云協同的模式。出于隱私保護、算力等考慮，把模型放在離用戶更近的地方，具有重要的價值和意義。

責任編輯：宦艷紅

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#大模型 #WAIC2024