下載客戶端

登錄

馬斯克推出Grok-3，欲與ChatGPT和DeepSeek角逐｜甲子光年

2025-02-19 16:42

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 蘇霍伊甲子光年

— Hi everyone. My name is Igor, lead engineering at X.

— I'm Jimmy, leading research.

— I'm Tony, working on the recent team.

— All right. I'm Elon. I don't do anything. I just show up occasionally.

作者｜蘇霍伊

DeepSeek攪動的混天綾，又一次在人工智能的海域卷起了巨浪。讓OpenAI、xAI等一眾公司都坐不住了。

美西時間2月17號，埃隆·馬斯克（Elon Musk）的人工智能初創(chuàng)公司xAI推出Grok-3模型，并十分高調地宣稱，這是“地表最聰明的AI”。

馬斯克與三位工程師共同完成了演示，其中左一的工程團隊負責人伊戈爾?巴布什金（Igor Babuschkin），原是DeepMind 的高級研究員；左二的研究負責人Jimmy Ba是杰弗里·辛頓 (Geoffrey Hinton) 的學生；右二的Tony吳宇懷（Yuhuai Wu）是近期加入團隊的成員。

團隊透露，Grok-3的計算能力是前代產(chǎn)品的“10倍以上”。據(jù)悉，Grok-3是在今年1月初完成預訓練，目前還在不斷優(yōu)化中。馬斯克表示：“我們每天都在改進模型，所以24小時內(nèi)能看到進步。”

他也在直播中表示，“Grok”的名字來自羅伯特·海因萊因（Robert Anson Heinlein）的小說《異鄉(xiāng)異客》，主角是在火星上長大的人類，“Grok”也是一個“火星詞”，代表充分而深刻地理解事物。

隨后他說道，xAI和 Grok的使命就是理解宇宙。“我們希望解答最宏大的問題：外星人在哪里？生命的意義是什么？宇宙如何終結？”

根據(jù)xAI數(shù)據(jù)，Grok-3在數(shù)學（AIME’24）、科學（GPQA）以及編程（LCB Oct-Feb）三大基準測試中的表現(xiàn)還不錯。數(shù)據(jù)上是超越了所有主流模型，包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。

各大模型在Chatbot Arena成績比較

以數(shù)學測試為例，Grok-3取得了52分的最高成績，而同屬xAI陣營的Grok-3 mini則拿到40分，DeepSeek-V3以39分緊隨其后；Gemini-2 Pro拿到36分，Claude 3.5 Sonnet和GPT-4o分別只有16分和9分。

科學和編程測試的情況也大同小異。Grok-3都以較大優(yōu)勢領先其他模型，Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet以及GPT-4o各自分列二至六名。

Grok-3與其他模型在數(shù)學、科學和編程基準測試的比較

除了Grok-3，xAI還推出了一款名為DeepSearch的新型智能搜索引擎。DeepSearch基于Grok-3開發(fā)，具備推理能力，并提供完整地思考過程。在演示中，DeepSearch展示了其在研究、頭腦風暴和數(shù)據(jù)分析等場景中的應用潛力。

Grok-3依托由20萬塊NVIDIA H100 GPU構建的Colossus超算集群，計算能力是前代Grok-2的10倍，預訓練階段的消耗相當于一座核電站7%的月發(fā)電量。Colossus從籌建到上線僅用了122天，xAI計劃將Colossus的規(guī)模擴大十倍，整合超過100萬塊GPU，用以超越谷歌、OpenAI等競爭對手。

相比之下，DeepSeek-V3的算法優(yōu)化路徑僅使用了2048塊英偉達H800 GPU，耗費了557.6萬美元就完成了訓練，比同等規(guī)模的模型（如GPT-4、GPT-4o、Llama 3.1），訓練成本大幅降低。同時，Grok 3還是非開源模型，需要付費。

DeepSeek-V3的訓練成本（假設H800的租賃價格為2美元/GPU小時），圖片來源：DeepSeek-V3技術報告

1.Grok 3 聰明在哪兒？

xAI表示，Grok-3聰明的原因是它背后依托了Colossus，通過“突破光速”的研發(fā)模式實現(xiàn)了技術飛躍。

“最優(yōu)秀的人工智能不僅依賴大規(guī)模預訓練，更需要具備類人推理能力，即能夠獨立思考解決方案、自我批判、驗證、回溯，并從第一性原理出發(fā)。”根據(jù)這一思路，xAI在預訓練模型的基礎上引入了強化學習，希望進一步推進模型的推理能力。

在Chatbot Arena LMSYS基準測試中，Grok-3獲得了1400分的最高成績，遠超競爭對手——Claude 3約1360分，GPT-4約1340分。

據(jù)xAI最新公開資料顯示，在一場針對AGI核心引擎的純粹盲測中，用戶在不知答案來源的情況下提交同一查詢，并對兩個不同模型的回答進行投票。結果顯示，Grok-3的早期版本在這一測試中獲得了1,400 ELO分，遠超其他競爭對手，如Claude 3和GPT-4等。這一盲測方式僅考察模型本身的推理能力，而非依賴外部數(shù)據(jù)或提示。

除了Grok-3和Grok-3 mini，xAI團隊還推出了兩個專門用于推理的模型。其中，Grok-3 mini Reasoning已經(jīng)相對成熟，而Grok-3 Reasoning Beta仍處于測試階段。

在直播演示中，馬斯克和研發(fā)團隊測試了物理和游戲兩個案例。

首先團隊僅輸入一行指令，讓Grok-3編寫代碼，生成一段模擬火箭從地球發(fā)射、降落火星，并在合適的發(fā)射窗口返回地球的3D動畫。Grok-3在考慮了開普勒定律后，不但生成了可以繪制出動畫的代碼，還生成了一段模擬火箭發(fā)射軌跡的3D動畫。

馬斯克解釋道：“Grok正在模擬兩個不同的行星——地球和火星。綠色的球體代表飛船，在地球與火星之間穿梭。你可以看到從地球到火星的旅程，最終宇航員安全返回。”

同時他也插播了一句：“如果一切順利，SpaceX 將在未來兩年把星艦火箭送往火星，搭載Optimus機器人和Grok。”

給Grok-3的第二個問題是：設計一個結合俄羅斯方塊和寶石迷陣玩法的混合游戲。并提示代碼可能較長，還要“insanely great”。經(jīng)過思考，Grok 3設計出了既有俄羅斯方塊的消除機制，又有寶石迷陣特點的游戲。

xAI也讓Grok-3去做了AIME 2025競賽。最終Grok-3 Reasoning Beta以93分的高分拔得頭籌，Grok-3 mini Reasoning也取得了90分，均領先于其他參賽模型。相比之下，o3mini（高精度版）得分為87，o1為79，DeepSeek-R1為75，而Gemini-2 Flash Thinking僅獲得54分。

乍一看，Grok-3似乎已經(jīng)坐穩(wěn)了數(shù)學推理領域的“頭把交椅”。但仔細推敲，這些成績是否真的能證明Grok-3的絕對領先地位？或許還不能輕易下結論，畢竟測試環(huán)境和數(shù)據(jù)集的選擇可能對結果產(chǎn)生影響，單一測試并不能全面反映模型的綜合性能。同時Grok-3 Reasoning Beta仍處于測試階段，穩(wěn)定性和可靠性尚未經(jīng)過廣泛驗證。

此外，xAI還推出了一款名為DeepSearch的新型智能搜索引擎。它能搜索網(wǎng)頁、查找資料和推測用戶意圖并思考，并在交叉比對后確保返回正確的信息。

馬斯克表示：“Grok-3能減少AI幻覺。”實現(xiàn)方式是反復檢查數(shù)據(jù)并確保邏輯一致，他也透露，Grok-3訓練時使用的算力遠超之前版本，并大量采用了合成數(shù)據(jù)。自2023年7月成立xAI以來，xAI先后于2023年11月和2024年8月發(fā)布了Grok-1和Grok-2，前者擁有3140億參數(shù)，成為當時參數(shù)量最大的開源大模型。

xAI宣布，Grok-3將于美國當?shù)刂芤徽酵瞥觯着w驗者為X的Premium Plus訂閱用戶，同時還推出了名為Super Grok的獨立訂閱服務，為忠實粉絲提供先進功能和最新特性訪問權限。

發(fā)布后最后，馬斯克預告，或許一周后Grok-3將推出語音模式。后面Grok-3將通過xAI的企業(yè)API提供和DeepSearch功能。

2.馬斯克最近很忙

馬斯克近期又多了一個身份，即現(xiàn)任“政府效率部”（DOGE）部長。

馬斯克發(fā)布政府效率部（DOGE）LOGO

自上任以來，馬斯克一個接一個地錘向國際開發(fā)署、教育部和國土安全部等機構。不僅睡在辦公室，還帶領為數(shù)不多的手下每天工作17小時。其網(wǎng)站稱，DOGE近期宣布削減550億美元開支。

同時，他在與OpenAI的“恩怨”上也沒閑著。

就在這個月，馬斯克領導的投資財團向OpenAI提出了974億美元的收購要約，表示要“將OpenAI重新定位為非營利性研究機構”。根據(jù)收購計劃，交易后OpenAI會與xAI合并。

OpenAI首席執(zhí)行官薩姆·奧爾特曼（Samuel Altman）隨后便在X上隔空回懟：“不了，謝謝。不過如果你愿意的話，我們愿意以97.4億美元的價格收購推特。”

馬斯克與奧爾特曼已經(jīng)有過多輪法律戰(zhàn)和公關戰(zhàn)。去年馬斯克起訴了奧爾特曼，OpenAI隨后便發(fā)布了一篇名為《OpenAI與埃隆·馬斯克》的博文回應了指控。馬斯克也不甘示弱，在社交媒體上表示如果OpenAI將名稱更改為“ClosedAI”，他將撤回對其的訴訟。

高端的商戰(zhàn)往往就是這么樸實無華。

在Grok-3發(fā)布之際，不知是否有意為之，奧特曼也在同一日宣布GPT4.5已經(jīng)進入測試階段，AGI 的時刻即將來臨，正式發(fā)布也指日可待。

與此同時，Anthropic也宣布即將發(fā)布Claude-4系列。隨著OpenAI、Anthropic、Meta和Google等不斷推出更先進的AI產(chǎn)品，未來的競爭只會越發(fā)激烈。

近年來，人工智能領域的每一次突破似乎都被冠以“世界第一”、“革命性”、“顛覆性”等夸張的標簽。從OpenAI的GPT系列到Google的Gemini，再到xAI的Grok-3，每一款新模型的發(fā)布都被媒體包裝成“改變游戲規(guī)則”的里程碑。但真正的科技創(chuàng)新是需要被客觀思考的，只有這樣才能深入理解其背后的復雜性和實際應用價值。

其實不加“世界第一”“地表最聰明AI”等定語，也可以開產(chǎn)品開發(fā)布會。而當AI被“世界第一”淹沒，我們是否迷失在華麗辭藻中？

至于誰能否真正脫穎而出、成為行業(yè)領軍者，還需時間和市場來驗證。

（文中未備注圖片皆來自xAI或X）

END.

原標題：《馬斯克推出Grok-3，欲與ChatGPT和DeepSeek角逐｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Grok-3 #ChatGPT #DeepSeek