- +1
xAI發(fā)布Grok 3模型,全球最大十萬卡集群再現(xiàn)“力大磚飛”

大模型之家訊 北京時間 2 月 13 日中午 12 點(太平洋時間 2 月 12 日晚上 8 點),馬斯克旗下的人工智能公司xAI正式發(fā)布了最新一代大模型——Grok 3,并進行了現(xiàn)場演示。馬斯克曾稱GroK 3為“地球上最聰明的人工智能”,而此次發(fā)布會展示了其在推理能力、代碼生成以及多項基準測試中的卓越表現(xiàn)。這次發(fā)布會不僅吸引了大量的關(guān)注,直播觀看人數(shù)迅速突破百萬,反映出市場對Grok 3的巨大期待。


Grok 3 在多個關(guān)鍵測試中展現(xiàn)出顯著優(yōu)勢:
AIME'24 數(shù)學能力測試:Grok 3 取得 52 分,遠超 DeepSeek-V3 的 39 分。
GPQA 科學知識評估:Grok 3 以 75 分 領(lǐng)先 DeepSeek-V3 的 65 分。
LCB Oct-Feb 編程能力測試:Grok 3 獲得 57 分,大幅超越 DeepSeek-V3 的 36 分。
MMLU 評測:Grok 3 在多領(lǐng)域知識測試中的得分正快速追趕 ChatGPT 等主要競爭對手。

發(fā)布會現(xiàn)場,xAI的工程師團隊展示了Grok 3和其輕量版Grok-3 Mini的強大功能,表明其在多方面的能力已超越或接近了Gemini、DeepSeek和ChatGPT等競爭產(chǎn)品。在實時演示中,Grok 3表現(xiàn)出了驚人的代碼生成和推理能力。當團隊要求Grok 3生成一段太空發(fā)射的3D動畫代碼時,它迅速完成了任務(wù),并呈現(xiàn)出飛船往返地球與火星的動畫,這不僅展現(xiàn)了其在復(fù)雜代碼生成方面的能力,還證明了它對物理原理的理解。

在接下來的任務(wù)中,Grok 3又被要求設(shè)計一個類似俄羅斯方塊的游戲,并在短時間內(nèi)提供了切實可行的解決方案,進一步驗證了其在游戲開發(fā)領(lǐng)域的潛力。
Grok 3核心技術(shù)突破之一是“思維鏈”(Chain of Thought)推理機制,使得GroK 3能夠像人類一樣分步驟處理復(fù)雜問題,大幅提升了邏輯推理和連貫性。馬斯克表示,Grok 3在邏輯推理測試中的表現(xiàn)已經(jīng)優(yōu)于ChatGPT-5和谷歌的Gemini Ultra,并且它具備更強的創(chuàng)造性思維和問題解決能力。
Grok 3的成功不僅得益于全新技術(shù)架構(gòu)的加持,更離不開強大的算力支持。通過在訓練過程中使用10萬塊Nvidia H100 GPU,相較于前代1.5萬塊GPU,實現(xiàn)了算力的跨越式提升。這種規(guī)模化的計算能力證明,即便是像DeepSeek這樣的現(xiàn)有大模型,借助大規(guī)模強化學習技術(shù),只需少量標注數(shù)據(jù)便能顯著提升模型性能。這一進步不僅降低了對海量標注數(shù)據(jù)的依賴,也大幅提高了訓練效率和降低了訓練及推理成本,為業(yè)界帶來了一種更高性價比的解決方案。
同時,Grok 3的表現(xiàn)也驗證了全球最大的GPU計算集群在訓練模型時仍然能帶來卓越的性能,這說明Scaling Law尺度法則依然成立,盡管適用場景更為限定。10萬塊H100的算力優(yōu)勢依舊不容小覷,充分展示了在大模型時代,強大算力依然是實現(xiàn)突破性進展的關(guān)鍵因素。這一現(xiàn)象無疑將推動整個行業(yè)在AI研發(fā)上的進一步探索和投資。
x.AI稱,Grok 3已經(jīng)接入馬斯克旗下的社交平臺X,用戶可以在該平臺體驗到這一最新AI技術(shù)。然而大模型之家注意到,截至發(fā)稿,X平臺尚未正式Grok 3大模型。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司