20萬塊英偉達芯片練出Grok 3：測試得分均高于競爭對手，運算能力是上代10倍

澎湃新聞記者吳遇利

2025-02-18 17:53

來源：澎湃新聞

? 10%公司 >

預熱許久的“地表最聰明AI”Grok 3正式亮相。

2月18日，特斯拉創始人埃隆·馬斯克旗下xAI推出最新大模型Grok 3，并在直播中進行了現場演示。馬斯克稱，非常高興能夠推出 Grok3，它的能力將在短時間內比Grok2強大了十倍。“xAI和Grok的目的是理解宇宙的本質。”

功能完整的Grok 3將在一周后正式上線，不過用戶依舊需要“鈔能力”才能體驗到最新版本的Grok。

直播介紹，Grok 3測試版現已面向馬斯克旗下X平臺的X Premium訂閱用戶開放，“我們今天將推出Grok3，首先從X上的Premium Plus訂閱者開始，他們將是第一批獲得訪問權限的人。請確保更新您的X應用程序以探索所有高級功能，因為我們剛剛發布了更新。如果您有興趣盡早使用Grok 3，請注冊Premium Plus。”

xAI還針對Grok 3開發了新的訂閱功能。“此外，我們還將為想要獲得最先進功能和盡早使用新功能的忠實粉絲推出一項名為Super Grok的單獨訂閱。這項服務適用于Grok應用程序和新網站grok.com。”據報道，

馬斯克表示，預計一周之后Grok 3的所有功能將正式上線。他說，“如果你想要一個更完善的版本，可能值得等待一周，但每天都會有所改進。我們還在開發語音交互功能，以便你可以擁有對話體驗。我今天早些時候試過了，效果很好，盡管它仍然需要一些完善。我們的目標是讓你可以像和人交談一樣和它交談。我認為這將是Grok3最好的體驗之一，但這應該還要一周左右的時間。”

馬斯克說，計劃在每次發布新版本時，對上一版本進行開源，也就是說，幾個月后Grok 2即將開源。

xAI工程師介紹，雖然Grok起步較晚，但在MMLU（大規模多任務語言理解基準測試）得分上以超快地速度追上了ChatGPT，Grok 3和輕量化的Grok 3 mini在多方面性能上都超過或媲美Gemini、DeepSeek和GPT-4o等對手。

據介紹，Grok 3在數學推理、科學邏輯推理和代碼寫作等項目的Benchmark測試（基準測試）中均取得了比DeepSeek-v3、GPT-4o、Gemini-2 Pro更優的效果。Grok 3分別得分為52、75和57。Grok 3 mini分別得分為40、65和41。這兩個模型的得分都高于Gemini、DeepSeek、Claude和GPT。

工程師說，“大約五天前，AIME2025競賽結束了，高中生們在一個特定的基準上競爭。然后我們讓兩個模型在同一場考試中在同一基準上競爭。有趣的是，更大的Grok3推理模型在這場考試中表現更好。這表明，與較小的模型相比，較大的模型具有更強的泛化能力。然而，在去年的考試中，較小的模型表現更好，因為它更有效地學習了以前的考試。”