▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

20萬顆GPU“燒出”Grok3:業(yè)界稱“大力出奇跡”仍可行,算力仍是護城河

澎湃新聞記者 吳遇利
2025-02-20 17:59
來源:澎湃新聞
? 10%公司 >
字號

Grok 3表明依靠算力堆積的“大力出奇跡”路徑目前依舊可行。

2月18日,特斯拉創(chuàng)始人埃隆·馬斯克旗下xAI推出最新大模型Grok 3。據(jù)介紹,雖然Grok起步較晚,但MMLU(大規(guī)模多任務(wù)語言理解基準(zhǔn)測試)得分已追上ChatGPT,Grok 3和輕量化的Grok 3 mini在多個性能上都超過或媲美Gemini、DeepSeek和GPT-4o等對手。

Grok 3在xAI位于孟菲斯的Colossus超算中心進行訓(xùn)練。xAI透露,這一超算中心的算力已經(jīng)翻倍,擁有的英偉達(dá)GPU數(shù)量已達(dá)到20萬顆。

本以為是馬斯克又在虛張聲勢,但這次Grok 3的確沒有令人失望。

基于Grok 3的優(yōu)秀表現(xiàn),不少業(yè)內(nèi)人士再度表露了對算力堆積這種“大力出奇跡”路徑的認(rèn)可。更有分析人士指出,Grok 3證明了縮放法則(scaling law)在達(dá)到上限之前仍有發(fā)展空間——這對整個行業(yè)來說是一個令人鼓舞的信號。

AI大牛、前OpenAI 研究員、前特斯拉AI負(fù)責(zé)人Andrej Karpathy在成為Grok 3首批用戶后,在社交媒體上發(fā)布了一份詳細(xì)的測評總結(jié)。他稱贊了Grok 3 的邏輯推理能力,并指出其性能可與OpenAI的o1-pro模型相媲美,后者的月度費用為200美元。他還認(rèn)為,Grok 3的推理能力略優(yōu)于DeepSeek-R1、谷歌的Gemini 2.0 Flash Thinking。

不過,他也指出了Grok 3的一些局限性,包括搜索功能DeepSearch中偶爾出現(xiàn)的幻覺和事實錯誤。

“考慮到該團隊大約1年前才從零開始,這真是令人難以置信,他們以前所未有的速度達(dá)到了幾乎業(yè)內(nèi)最高水平。”Karpathy表示。

不少科技領(lǐng)域的分析人士表明,Grok 3的成功,在很大程度上就是依靠算力堆積。

人工智能服務(wù)網(wǎng)站Maginative創(chuàng)始人兼主編Chris McKay認(rèn)為,xAI自成立以來,僅用了一年多的時間就迅速開發(fā)出了具有競爭力的AI技術(shù),其成功很大程度上得益于創(chuàng)新的計算基礎(chǔ)設(shè)施和對大量計算資源的訪問。隨著更多超算集群的規(guī)劃,xAI似乎有望繼續(xù)提升模型能力。

沃頓商學(xué)院人工智能教授Ethan Mollick認(rèn)為Grok 3完全符合預(yù)期。他指出,人工智能仍在加速發(fā)展,速度和算力都是護城河,“人才和芯片就是打造前沿模型的公開秘訣”。

“護城河可能不深,但足以淹死初創(chuàng)企業(yè)。”雪城大學(xué)公共傳播學(xué)院教授、咨詢公司The Palmer Group首席執(zhí)行官Shelly Palmer評論說。在他看來,Grok 3的護城河“已經(jīng)被金錢填滿”。英偉達(dá)H100 GPU的價格在3萬至4萬美元之間,即使馬斯克拿到了折扣,這仍然是一項30億到50億美元的龐大投資。

公開信息顯示,OpenAI訓(xùn)練GPT-4用了大約2.5萬張A100 GPU,而H100的訓(xùn)練吞吐量遠(yuǎn)高于A100;據(jù)DeepSeek公布的信息,DeepSeek-V3模型預(yù)訓(xùn)練費用僅為557.6萬美元,在2048塊英偉達(dá)H800 GPU(針對中國市場的低配版GPU)集群上耗時55天完成。

隨著DeepSeek的橫空出世,不少人提出縮放法則(scaling law)可能會失效或者不再完全適用。縮放法則是AI研究中的一個重要指導(dǎo)原則,它認(rèn)為,在大多數(shù)情況下,增加規(guī)模(模型參數(shù)、數(shù)據(jù)量、算力)都能提高模型的表現(xiàn),但效益遞減。

科技領(lǐng)域博主Zain Kahn表示,近幾個月來,有觀點認(rèn)為,向大模型投入更多數(shù)據(jù)和算力將不再奏效,但Grok 3證明了這種懷疑并不正確。xAI才進入這個領(lǐng)域兩年,就已經(jīng)與頂尖公司展開了激烈競爭,甚至擊敗了頂尖公司。

Kahn強調(diào)說,xAI龐大的Colossus超算集群將大模型推向了新的高度,“預(yù)訓(xùn)練縮放法則在達(dá)到上限之前仍有發(fā)展空間——這對整個行業(yè)來說是一個令人鼓舞的信號。”

機構(gòu)也對算力的作用給出了肯定,指出算力堆積仍是模型進步的關(guān)鍵變量。

華泰證券在2月20日發(fā)布的研報中提出,Grok 3證明預(yù)訓(xùn)練在算力提升下仍能突破。雖然目前在預(yù)訓(xùn)練數(shù)據(jù)上存在瓶頸,但是合成數(shù)據(jù)、RL(強化學(xué)習(xí))數(shù)據(jù)、工程能力優(yōu)化,甚至Transformer架構(gòu)迭代,或能逐步打破瓶頸,Grok 3已經(jīng)證明預(yù)訓(xùn)練依然有突破空間。

國泰君安也提到,xAI算力資源儲備與開源策略的平衡,凸顯算力與算法的同等重要性。高昂的算力投入已經(jīng)形成了顯著的技術(shù)門檻。

中信證券指出,Grok 3作為全球首個在十萬卡集群上訓(xùn)練的大模型,綜合能力較前代模型Grok 2提升顯著,意味著算力堆積仍是模型進步的關(guān)鍵變量之一。

    責(zé)任編輯:孫扶
    圖片編輯:陳飛燕
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            主站蜘蛛池模板: 梁河县| 宝兴县| 黄平县| 商洛市| 丹棱县| 通许县| 察哈| 同心县| 改则县| 阳泉市| 湘潭市| 武功县| 元江| 嵩明县| 澄江县| 兰州市| 方城县| 五常市| 社会| 五指山市| 涪陵区| 樟树市| 呼伦贝尔市| 剑川县| 宜兰县| 澄城县| 柞水县| 隆林| 吉木乃县| 龙游县| 牡丹江市| 荔浦县| 教育| 吉木乃县| 大石桥市| 南川市| 玛沁县| 炎陵县| 改则县| 高清| 利津县|