Anthropic發(fā)布首款混合推理模型：擅長解決實際問題，得分遠超OpenAI

澎湃新聞記者胡含嫣

2025-02-25 21:14

來源：澎湃新聞

? 10%公司 >

被視為OpenAI競爭對手的美國AI（人工智能）初創(chuàng)公司Anthropic宣布推出“迄今為止最智能的首款混合推理模型”。

當(dāng)?shù)貢r間2月24日，由美國科技巨頭亞馬遜投資支持的Anthropic宣布推出新模型Claude 3.7 Sonnet，并將其稱為“市面上首款混合推理模型”。根據(jù)用戶的選擇，Claude 3.7 Sonnet既可以快速地給出回應(yīng)，也可以向用戶提供擴展后的分步思考。用戶可以免費使用Claude 3.7 Sonnet，但擴展思考模式僅向付費用戶開放。同時，公司還推出了代理編碼工具Claude Code。

據(jù)官方介紹，Claude 3.7 Sonnet 在編碼和前端Web開發(fā)方面表現(xiàn)出了“特別顯著的改進”，在升級后，Claude模型的價格與前代產(chǎn)品相同，每百萬輸入token（文本中的最小單位）定價3美元，每百萬輸出token定價15美元。而OpenAI的o1模型定價分別為每百萬輸入token花費15美元和每百萬輸出token花費60美元。

Anthropic方面強調(diào)，團隊開發(fā)新模型的理念不同于市場上的其他推理模型：“正如人類使用單個大腦進行快速反應(yīng)和深度思考一樣，我們認(rèn)為推理應(yīng)該體現(xiàn)前沿模型的綜合能力，而不是完全獨立的模型。這種統(tǒng)一的方法也為用戶創(chuàng)造了更加無縫的體驗。”

因此，公司將新模型定義為“市面上首款混合推理模型”。在標(biāo)準(zhǔn)模式下，Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版；而在擴展思維模式下，模型會在回答前進行自我反思，從而提高其在數(shù)學(xué)、物理和編碼等任務(wù)上的表現(xiàn)。

此外，當(dāng)用戶通過API（應(yīng)用程序編程接口）使用Claude 3.7 Sonnet時，用戶可以通過命令Claude思考不超過多少token來控制“思考預(yù)算”，該數(shù)值需要小于模型輸出限制的12.8萬個token，以便于用戶在速度、成本和答案質(zhì)量之間進行權(quán)衡。

Anthropic方面還指出，新模型最大的優(yōu)勢是“更擅長現(xiàn)實世界中的任務(wù)”，而不是針對“數(shù)學(xué)和計算機科學(xué)競賽問題進行優(yōu)化”。在評估AI模型解決實際軟件問題的能力的編碼測試SWE-Bench Verified中，Claude 3.7 Sonnet的得分從Claude 3.5 Sonnet的49.0%提升至62.3%，在經(jīng)過特定框架調(diào)整后最高得分可至70.3%。OpenAI o3-mini和DeepSeek R1在該項測試上的得分分別為49.3%和49.2%。

在指令遵循、一般推理、多模態(tài)能力和代理編碼方面，Claude 3.7 Sonnet都取得了出色的表現(xiàn)，擴展思維模式則在數(shù)學(xué)和科學(xué)方面展現(xiàn)出了顯著提升。Anthropic表示，除了傳統(tǒng)的基準(zhǔn)測試之外，Claude 3.7 Sonnet甚至還在《精靈寶可夢：紅》的游戲測試中超越了Claude系列過去的所有模型。

Claude 3.7 Sonnet（開啟或關(guān)閉擴展思維模式）在各大基準(zhǔn)測試中的得分。來源：Anthropic

同時，Anthropic宣布推出旗下第一款代理編碼工具Claude Code，可以搜索和讀取代碼、編輯文件、編寫和運行測試、提交和推送代碼到GitHub，以及使用命令行工具。據(jù)介紹，在早期測試中，Claude Code一次性完成了通常需要45分鐘以上手動操作才能完成的任務(wù)。目前，該工具已開放預(yù)覽版，將在未來幾周內(nèi)不斷改進。

另據(jù)外媒報道，24日當(dāng)天，Anthropic即將完成一輪35億美元的融資，公司估值將達到615億美元。公司本輪融資的最初目標(biāo)為20億美元，但在談判期間成功說服投資者增加投資。本輪融資的參與者包括Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners，總部位于阿布扎比的投資公司MGX正在洽談參與事宜。

不過，Anthropic依然面對較大的競爭壓力。據(jù)知情人士透露，Anthropic的年化收入（根據(jù)近期銷售額推斷未來12個月的收入）在近期達到約12億美元，公司仍在虧損，將利用最新融資的現(xiàn)金支持訓(xùn)練更強大的AI模型。亞馬遜已向Anthropic累計投資80億美元，而谷歌母公司Alphabet已向其投資20億美元。

此前，1月20日，中國AI初創(chuàng)公司深度求索（DeepSeek）推出開源推理模型DeepSeek-R1，憑借其性能表現(xiàn)引發(fā)全球AI界轟動，各家AI大模型企業(yè)也紛紛宣布推出自己的推理模型。例如，OpenAI發(fā)布推理模型o3-mini，谷歌也在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking實驗版。

此外，2月25日，阿里通義Qwen發(fā)布基于旗艦?zāi)Ｐ蚎wen2.5-Max構(gòu)建的推理模型QwQ-Max-Preview預(yù)覽版，會和DeepSeek以及Kimi的推理模型一樣展現(xiàn)思考過程，目前用戶可在通義千問網(wǎng)頁版進行體驗。通義千問團隊表示，QWQ-Max的官方版本將在近日發(fā)布，會同步發(fā)布安卓和iOS版應(yīng)用程序，以及規(guī)模更小的可在本地設(shè)備部署的模型。

責(zé)任編輯：王杰

圖片編輯：李晶昀

校對：姚易琪

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#Anthropic #AI #人工智能 #Claude