xAI發(fā)布Grok 3模型，全球最大十萬卡集群再現(xiàn)“力大磚飛”

2025-02-18 14:58

來源：澎湃新聞·澎湃號·湃客

大模型之家訊北京時間 2 月 13 日中午 12 點（太平洋時間 2 月 12 日晚上 8 點），馬斯克旗下的人工智能公司xAI正式發(fā)布了最新一代大模型——Grok 3，并進行了現(xiàn)場演示。馬斯克曾稱GroK 3為“地球上最聰明的人工智能”，而此次發(fā)布會展示了其在推理能力、代碼生成以及多項基準測試中的卓越表現(xiàn)。這次發(fā)布會不僅吸引了大量的關(guān)注，直播觀看人數(shù)迅速突破百萬，反映出市場對Grok 3的巨大期待。

Grok 3 在多個關(guān)鍵測試中展現(xiàn)出顯著優(yōu)勢：

AIME'24 數(shù)學能力測試：Grok 3 取得 52 分，遠超 DeepSeek-V3 的 39 分。

GPQA 科學知識評估：Grok 3 以 75 分領(lǐng)先 DeepSeek-V3 的 65 分。

LCB Oct-Feb 編程能力測試：Grok 3 獲得 57 分，大幅超越 DeepSeek-V3 的 36 分。

MMLU 評測：Grok 3 在多領(lǐng)域知識測試中的得分正快速追趕 ChatGPT 等主要競爭對手。

發(fā)布會現(xiàn)場，xAI的工程師團隊展示了Grok 3和其輕量版Grok-3 Mini的強大功能，表明其在多方面的能力已超越或接近了Gemini、DeepSeek和ChatGPT等競爭產(chǎn)品。在實時演示中，Grok 3表現(xiàn)出了驚人的代碼生成和推理能力。當團隊要求Grok 3生成一段太空發(fā)射的3D動畫代碼時，它迅速完成了任務(wù)，并呈現(xiàn)出飛船往返地球與火星的動畫，這不僅展現(xiàn)了其在復(fù)雜代碼生成方面的能力，還證明了它對物理原理的理解。

在接下來的任務(wù)中，Grok 3又被要求設(shè)計一個類似俄羅斯方塊的游戲，并在短時間內(nèi)提供了切實可行的解決方案，進一步驗證了其在游戲開發(fā)領(lǐng)域的潛力。

Grok 3核心技術(shù)突破之一是“思維鏈”（Chain of Thought）推理機制，使得GroK 3能夠像人類一樣分步驟處理復(fù)雜問題，大幅提升了邏輯推理和連貫性。馬斯克表示，Grok 3在邏輯推理測試中的表現(xiàn)已經(jīng)優(yōu)于ChatGPT-5和谷歌的Gemini Ultra，并且它具備更強的創(chuàng)造性思維和問題解決能力。

Grok 3的成功不僅得益于全新技術(shù)架構(gòu)的加持，更離不開強大的算力支持。通過在訓練過程中使用10萬塊Nvidia H100 GPU，相較于前代1.5萬塊GPU，實現(xiàn)了算力的跨越式提升。這種規(guī)模化的計算能力證明，即便是像DeepSeek這樣的現(xiàn)有大模型，借助大規(guī)模強化學習技術(shù)，只需少量標注數(shù)據(jù)便能顯著提升模型性能。這一進步不僅降低了對海量標注數(shù)據(jù)的依賴，也大幅提高了訓練效率和降低了訓練及推理成本，為業(yè)界帶來了一種更高性價比的解決方案。

同時，Grok 3的表現(xiàn)也驗證了全球最大的GPU計算集群在訓練模型時仍然能帶來卓越的性能，這說明Scaling Law尺度法則依然成立，盡管適用場景更為限定。10萬塊H100的算力優(yōu)勢依舊不容小覷，充分展示了在大模型時代，強大算力依然是實現(xiàn)突破性進展的關(guān)鍵因素。這一現(xiàn)象無疑將推動整個行業(yè)在AI研發(fā)上的進一步探索和投資。

x.AI稱，Grok 3已經(jīng)接入馬斯克旗下的社交平臺X，用戶可以在該平臺體驗到這一最新AI技術(shù)。然而大模型之家注意到，截至發(fā)稿，X平臺尚未正式Grok 3大模型。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#AI #人工智能 #X #馬斯克