▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

馬斯克推出Grok-3,欲與ChatGPT和DeepSeek角逐|甲子光年

2025-02-19 16:42
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) 蘇霍伊 甲子光年

— Hi everyone. My name is Igor, lead engineering at X.

— I'm Jimmy, leading research.

— I'm Tony, working on the recent team.

— All right. I'm Elon. I don't do anything. I just show up occasionally.

作者|蘇霍伊

DeepSeek攪動的混天綾,又一次在人工智能的海域卷起了巨浪。讓OpenAI、xAI等一眾公司都坐不住了。

美西時間2月17號,埃隆·馬斯克(Elon Musk)的人工智能初創(chuàng)公司xAI推出Grok-3模型,并十分高調地宣稱,這是“地表最聰明的AI”。

馬斯克與三位工程師共同完成了演示,其中左一的工程團隊負責人伊戈爾?巴布什金(Igor Babuschkin),原是DeepMind 的高級研究員;左二的研究負責人Jimmy Ba是杰弗里·辛頓 (Geoffrey Hinton) 的學生;右二的Tony吳宇懷(Yuhuai Wu)是近期加入團隊的成員。

團隊透露,Grok-3的計算能力是前代產(chǎn)品的“10倍以上”。據(jù)悉,Grok-3是在今年1月初完成預訓練,目前還在不斷優(yōu)化中。馬斯克表示:“我們每天都在改進模型,所以24小時內(nèi)能看到進步。”

他也在直播中表示,“Grok”的名字來自羅伯特·海因萊因(Robert Anson Heinlein)的小說《異鄉(xiāng)異客》,主角是在火星上長大的人類,“Grok”也是一個“火星詞”,代表充分而深刻地理解事物。

隨后他說道,xAI和 Grok的使命就是理解宇宙。“我們希望解答最宏大的問題:外星人在哪里?生命的意義是什么?宇宙如何終結?”

根據(jù)xAI數(shù)據(jù),Grok-3在數(shù)學(AIME’24)、科學(GPQA)以及編程(LCB Oct-Feb)三大基準測試中的表現(xiàn)還不錯。數(shù)據(jù)上是超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。

各大模型在Chatbot Arena成績比較

以數(shù)學測試為例,Grok-3取得了52分的最高成績,而同屬xAI陣營的Grok-3 mini則拿到40分,DeepSeek-V3以39分緊隨其后;Gemini-2 Pro拿到36分,Claude 3.5 Sonnet和GPT-4o分別只有16分和9分。

科學和編程測試的情況也大同小異。Grok-3都以較大優(yōu)勢領先其他模型,Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet以及GPT-4o各自分列二至六名。

Grok-3與其他模型在數(shù)學、科學和編程基準測試的比較

除了Grok-3,xAI還推出了一款名為DeepSearch的新型智能搜索引擎。DeepSearch基于Grok-3開發(fā),具備推理能力,并提供完整地思考過程。在演示中,DeepSearch展示了其在研究、頭腦風暴和數(shù)據(jù)分析等場景中的應用潛力。

Grok-3依托由20萬塊NVIDIA H100 GPU構建的Colossus超算集群,計算能力是前代Grok-2的10倍,預訓練階段的消耗相當于一座核電站7%的月發(fā)電量。Colossus從籌建到上線僅用了122天,xAI計劃將Colossus的規(guī)模擴大十倍,整合超過100萬塊GPU,用以超越谷歌、OpenAI等競爭對手。

相比之下,DeepSeek-V3的算法優(yōu)化路徑僅使用了2048塊英偉達H800 GPU,耗費了557.6萬美元就完成了訓練,比同等規(guī)模的模型(如GPT-4、GPT-4o、Llama 3.1),訓練成本大幅降低。同時,Grok 3還是非開源模型,需要付費。

DeepSeek-V3的訓練成本(假設H800的租賃價格為2美元/GPU小時),圖片來源:DeepSeek-V3技術報告

1.Grok 3 聰明在哪兒?

xAI表示,Grok-3聰明的原因是它背后依托了Colossus,通過“突破光速”的研發(fā)模式實現(xiàn)了技術飛躍。

“最優(yōu)秀的人工智能不僅依賴大規(guī)模預訓練,更需要具備類人推理能力,即能夠獨立思考解決方案、自我批判、驗證、回溯,并從第一性原理出發(fā)。”根據(jù)這一思路,xAI在預訓練模型的基礎上引入了強化學習,希望進一步推進模型的推理能力。

在Chatbot Arena LMSYS基準測試中,Grok-3獲得了1400分的最高成績,遠超競爭對手——Claude 3約1360分,GPT-4約1340分。

據(jù)xAI最新公開資料顯示,在一場針對AGI核心引擎的純粹盲測中,用戶在不知答案來源的情況下提交同一查詢,并對兩個不同模型的回答進行投票。結果顯示,Grok-3的早期版本在這一測試中獲得了1,400 ELO分,遠超其他競爭對手,如Claude 3和GPT-4等。這一盲測方式僅考察模型本身的推理能力,而非依賴外部數(shù)據(jù)或提示。

除了Grok-3和Grok-3 mini,xAI團隊還推出了兩個專門用于推理的模型。其中,Grok-3 mini Reasoning已經(jīng)相對成熟,而Grok-3 Reasoning Beta仍處于測試階段。

在直播演示中,馬斯克和研發(fā)團隊測試了物理和游戲兩個案例。

首先團隊僅輸入一行指令,讓Grok-3編寫代碼,生成一段模擬火箭從地球發(fā)射、降落火星,并在合適的發(fā)射窗口返回地球的3D動畫。Grok-3在考慮了開普勒定律后,不但生成了可以繪制出動畫的代碼,還生成了一段模擬火箭發(fā)射軌跡的3D動畫。

馬斯克解釋道:“Grok正在模擬兩個不同的行星——地球和火星。綠色的球體代表飛船,在地球與火星之間穿梭。你可以看到從地球到火星的旅程,最終宇航員安全返回。”

同時他也插播了一句:“如果一切順利,SpaceX 將在未來兩年把星艦火箭送往火星,搭載Optimus機器人和Grok。”

給Grok-3的第二個問題是:設計一個結合俄羅斯方塊和寶石迷陣玩法的混合游戲。并提示代碼可能較長,還要“insanely great”。經(jīng)過思考,Grok 3設計出了既有俄羅斯方塊的消除機制,又有寶石迷陣特點的游戲。

xAI也讓Grok-3去做了AIME 2025競賽。最終Grok-3 Reasoning Beta以93分的高分拔得頭籌,Grok-3 mini Reasoning也取得了90分,均領先于其他參賽模型。相比之下,o3mini(高精度版)得分為87,o1為79,DeepSeek-R1為75,而Gemini-2 Flash Thinking僅獲得54分。

乍一看,Grok-3似乎已經(jīng)坐穩(wěn)了數(shù)學推理領域的“頭把交椅”。但仔細推敲,這些成績是否真的能證明Grok-3的絕對領先地位?或許還不能輕易下結論,畢竟測試環(huán)境和數(shù)據(jù)集的選擇可能對結果產(chǎn)生影響,單一測試并不能全面反映模型的綜合性能。同時Grok-3 Reasoning Beta仍處于測試階段,穩(wěn)定性和可靠性尚未經(jīng)過廣泛驗證。

此外,xAI還推出了一款名為DeepSearch的新型智能搜索引擎。它能搜索網(wǎng)頁、查找資料和推測用戶意圖并思考,并在交叉比對后確保返回正確的信息。

馬斯克表示:“Grok-3能減少AI幻覺。”實現(xiàn)方式是反復檢查數(shù)據(jù)并確保邏輯一致,他也透露,Grok-3訓練時使用的算力遠超之前版本,并大量采用了合成數(shù)據(jù)。自2023年7月成立xAI以來,xAI先后于2023年11月和2024年8月發(fā)布了Grok-1和Grok-2,前者擁有3140億參數(shù),成為當時參數(shù)量最大的開源大模型。

xAI宣布,Grok-3將于美國當?shù)刂芤徽酵瞥觯着w驗者為X的Premium Plus訂閱用戶,同時還推出了名為Super Grok的獨立訂閱服務,為忠實粉絲提供先進功能和最新特性訪問權限。

發(fā)布后最后,馬斯克預告,或許一周后Grok-3將推出語音模式。后面Grok-3將通過xAI的企業(yè)API提供和DeepSearch功能。

2.馬斯克最近很忙

馬斯克近期又多了一個身份,即現(xiàn)任“政府效率部”(DOGE)部長。

馬斯克發(fā)布政府效率部(DOGE)LOGO

自上任以來,馬斯克一個接一個地錘向國際開發(fā)署、教育部和國土安全部等機構。不僅睡在辦公室,還帶領為數(shù)不多的手下每天工作17小時。其網(wǎng)站稱,DOGE近期宣布削減550億美元開支。

同時,他在與OpenAI的“恩怨”上也沒閑著。

就在這個月,馬斯克領導的投資財團向OpenAI提出了974億美元的收購要約,表示要“將OpenAI重新定位為非營利性研究機構”。根據(jù)收購計劃,交易后OpenAI會與xAI合并。

OpenAI首席執(zhí)行官薩姆·奧爾特曼(Samuel Altman)隨后便在X上隔空回懟:“不了,謝謝。不過如果你愿意的話,我們愿意以97.4億美元的價格收購推特。”

馬斯克與奧爾特曼已經(jīng)有過多輪法律戰(zhàn)和公關戰(zhàn)。去年馬斯克起訴了奧爾特曼,OpenAI隨后便發(fā)布了一篇名為《OpenAI與埃隆·馬斯克》的博文回應了指控。馬斯克也不甘示弱,在社交媒體上表示如果OpenAI將名稱更改為“ClosedAI”,他將撤回對其的訴訟。

高端的商戰(zhàn)往往就是這么樸實無華。

在Grok-3發(fā)布之際,不知是否有意為之,奧特曼也在同一日宣布GPT4.5已經(jīng)進入測試階段,AGI 的時刻即將來臨,正式發(fā)布也指日可待。

與此同時,Anthropic也宣布即將發(fā)布Claude-4系列。隨著OpenAI、Anthropic、Meta和Google等不斷推出更先進的AI產(chǎn)品,未來的競爭只會越發(fā)激烈。

近年來,人工智能領域的每一次突破似乎都被冠以“世界第一”、“革命性”、“顛覆性”等夸張的標簽。從OpenAI的GPT系列到Google的Gemini,再到xAI的Grok-3,每一款新模型的發(fā)布都被媒體包裝成“改變游戲規(guī)則”的里程碑。但真正的科技創(chuàng)新是需要被客觀思考的,只有這樣才能深入理解其背后的復雜性和實際應用價值。

其實不加“世界第一”“地表最聰明AI”等定語,也可以開產(chǎn)品開發(fā)布會。而當AI被“世界第一”淹沒,我們是否迷失在華麗辭藻中?

至于誰能否真正脫穎而出、成為行業(yè)領軍者,還需時間和市場來驗證。

(文中未備注圖片皆來自xAI或X)

END.

原標題:《馬斯克推出Grok-3,欲與ChatGPT和DeepSeek角逐|甲子光年》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            主站蜘蛛池模板: 安丘市| 安徽省| 大荔县| 巍山| 平罗县| 子长县| 延津县| 蒲江县| 马鞍山市| 讷河市| 剑阁县| 嫩江县| 内黄县| 乌兰察布市| 徐闻县| 时尚| 鹤壁市| 渝中区| 洪泽县| 邻水| 土默特右旗| 安乡县| 台中市| 桐城市| 永平县| 通道| 冷水江市| 同心县| 五峰| 博湖县| 包头市| 郑州市| 宜川县| 循化| 通渭县| 鄂尔多斯市| 肇州县| 安徽省| 大冶市| 钟祥市| 郴州市|