- +1
20萬塊英偉達芯片練出Grok 3:測試得分均高于競爭對手,運算能力是上代10倍
預熱許久的“地表最聰明AI”Grok 3正式亮相。
2月18日,特斯拉創始人埃隆·馬斯克旗下xAI推出最新大模型Grok 3,并在直播中進行了現場演示。馬斯克稱,非常高興能夠推出 Grok3,它的能力將在短時間內比Grok2強大了十倍。“xAI和Grok的目的是理解宇宙的本質。”
功能完整的Grok 3將在一周后正式上線,不過用戶依舊需要“鈔能力”才能體驗到最新版本的Grok。
直播介紹,Grok 3測試版現已面向馬斯克旗下X平臺的X Premium訂閱用戶開放,“我們今天將推出Grok3,首先從X上的Premium Plus訂閱者開始,他們將是第一批獲得訪問權限的人。請確保更新您的X應用程序以探索所有高級功能,因為我們剛剛發布了更新。如果您有興趣盡早使用Grok 3,請注冊Premium Plus。”
xAI還針對Grok 3開發了新的訂閱功能。“此外,我們還將為想要獲得最先進功能和盡早使用新功能的忠實粉絲推出一項名為Super Grok的單獨訂閱。這項服務適用于Grok應用程序和新網站grok.com。”據報道,
馬斯克表示,預計一周之后Grok 3的所有功能將正式上線。他說,“如果你想要一個更完善的版本,可能值得等待一周,但每天都會有所改進。我們還在開發語音交互功能,以便你可以擁有對話體驗。我今天早些時候試過了,效果很好,盡管它仍然需要一些完善。我們的目標是讓你可以像和人交談一樣和它交談。我認為這將是Grok3最好的體驗之一,但這應該還要一周左右的時間。”
馬斯克說,計劃在每次發布新版本時,對上一版本進行開源,也就是說,幾個月后Grok 2即將開源。
xAI工程師介紹,雖然Grok起步較晚,但在MMLU(大規模多任務語言理解基準測試)得分上以超快地速度追上了ChatGPT,Grok 3和輕量化的Grok 3 mini在多方面性能上都超過或媲美Gemini、DeepSeek和GPT-4o等對手。

據介紹,Grok 3在數學推理、科學邏輯推理和代碼寫作等項目的Benchmark測試(基準測試)中均取得了比DeepSeek-v3、GPT-4o、Gemini-2 Pro更優的效果。Grok 3分別得分為52、75和57。Grok 3 mini分別得分為40、65和41。這兩個模型的得分都高于Gemini、DeepSeek、Claude和GPT。

工程師說,“大約五天前,AIME2025競賽結束了,高中生們在一個特定的基準上競爭。然后我們讓兩個模型在同一場考試中在同一基準上競爭。有趣的是,更大的Grok3推理模型在這場考試中表現更好。這表明,與較小的模型相比,較大的模型具有更強的泛化能力。然而,在去年的考試中,較小的模型表現更好,因為它更有效地學習了以前的考試。”

在加州大學伯克利分校推出的Chatbot Arena (LMSYS)盲測中,早期版本的Grok 3化名“巧克力”打榜,一舉奪魁并成為唯一一個得分超1400的模型,其在代碼、指令響應等各個方面排名均為第一。
據馬斯克此前介紹,Grok 3是在大量的合成數據上訓練的。它會反復檢查數據,試圖達到邏輯一致性。如果有錯誤的數據,它會反思并刪除錯誤數據。
值得一提的是,有工程師還透露了xAI旗下超算中心算力已經翻倍,英偉達GPU數量已達到20萬塊。
據介紹,去年4月,馬斯克認為xAI若想成功打造出最佳AI,唯一途徑是自建數據中心。由于想盡快推出Grok 3,時間緊迫,于是決定在四個月內建成數據中心。最終,團隊耗時122天讓第一批10萬個GPU啟動并運行。
不過要構建理想中的AI需將集群規模翻倍。發布會上透露,這也是團隊首次公開談論此事,團隊僅用92天就已經實現了超算集群的算力翻倍,也就是GPU數量已達20萬塊。如今,xAI正利用這些強大的計算能力持續改進產品。

團隊還透露,xAI已經開始研究下一個集群,為了能夠帶動更為強大的AI,其功率將提高約五倍,達到大約1.2千兆瓦。
現場,馬斯克和工程師們演示了Grok 3的多種能力。在演示中,Grok 3為太空發射生成動畫3D,以及開發了一款將俄羅斯方塊和寶石迷陣結合的游戲。

Grok 3為太空發射生成動畫3D

Grok 3開發的游戲
此外,xAI的游戲工作室也正式得到官宣。馬斯克表示,“我們將在xAI推出一個人工智能游戲工作室。如果你有興趣加入我們并開發人工智能驅動的游戲,請加入我們。”





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司