▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

Anthropic發(fā)布首款混合推理模型:擅長解決實際問題,得分遠超OpenAI

澎湃新聞記者 胡含嫣
2025-02-25 21:14
來源:澎湃新聞
? 10%公司 >
字號

被視為OpenAI競爭對手的美國AI(人工智能)初創(chuàng)公司Anthropic宣布推出“迄今為止最智能的首款混合推理模型”。

當(dāng)?shù)貢r間2月24日,由美國科技巨頭亞馬遜投資支持的Anthropic宣布推出新模型Claude 3.7 Sonnet,并將其稱為“市面上首款混合推理模型”。根據(jù)用戶的選擇,Claude 3.7 Sonnet既可以快速地給出回應(yīng),也可以向用戶提供擴展后的分步思考。用戶可以免費使用Claude 3.7 Sonnet,但擴展思考模式僅向付費用戶開放。同時,公司還推出了代理編碼工具Claude Code。

據(jù)官方介紹,Claude 3.7 Sonnet 在編碼和前端Web開發(fā)方面表現(xiàn)出了“特別顯著的改進”,在升級后,Claude模型的價格與前代產(chǎn)品相同,每百萬輸入token(文本中的最小單位)定價3美元,每百萬輸出token定價15美元。而OpenAI的o1模型定價分別為每百萬輸入token花費15美元和每百萬輸出token花費60美元。

Anthropic方面強調(diào),團隊開發(fā)新模型的理念不同于市場上的其他推理模型:“正如人類使用單個大腦進行快速反應(yīng)和深度思考一樣,我們認(rèn)為推理應(yīng)該體現(xiàn)前沿模型的綜合能力,而不是完全獨立的模型。這種統(tǒng)一的方法也為用戶創(chuàng)造了更加無縫的體驗。”

因此,公司將新模型定義為“市面上首款混合推理模型”。在標(biāo)準(zhǔn)模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版;而在擴展思維模式下,模型會在回答前進行自我反思,從而提高其在數(shù)學(xué)、物理和編碼等任務(wù)上的表現(xiàn)。

此外,當(dāng)用戶通過API(應(yīng)用程序編程接口)使用Claude 3.7 Sonnet時,用戶可以通過命令Claude思考不超過多少token來控制“思考預(yù)算”,該數(shù)值需要小于模型輸出限制的12.8萬個token,以便于用戶在速度、成本和答案質(zhì)量之間進行權(quán)衡。

Anthropic方面還指出,新模型最大的優(yōu)勢是“更擅長現(xiàn)實世界中的任務(wù)”,而不是針對“數(shù)學(xué)和計算機科學(xué)競賽問題進行優(yōu)化”。在評估AI模型解決實際軟件問題的能力的編碼測試SWE-Bench Verified中,Claude 3.7 Sonnet的得分從Claude 3.5 Sonnet的49.0%提升至62.3%,在經(jīng)過特定框架調(diào)整后最高得分可至70.3%。OpenAI o3-mini和DeepSeek R1在該項測試上的得分分別為49.3%和49.2%。

在指令遵循、一般推理、多模態(tài)能力和代理編碼方面,Claude 3.7 Sonnet都取得了出色的表現(xiàn),擴展思維模式則在數(shù)學(xué)和科學(xué)方面展現(xiàn)出了顯著提升。Anthropic表示,除了傳統(tǒng)的基準(zhǔn)測試之外,Claude 3.7 Sonnet甚至還在《精靈寶可夢:紅》的游戲測試中超越了Claude系列過去的所有模型。

Claude 3.7 Sonnet(開啟或關(guān)閉擴展思維模式)在各大基準(zhǔn)測試中的得分。來源:Anthropic

同時,Anthropic宣布推出旗下第一款代理編碼工具Claude Code,可以搜索和讀取代碼、編輯文件、編寫和運行測試、提交和推送代碼到GitHub,以及使用命令行工具。據(jù)介紹,在早期測試中,Claude Code一次性完成了通常需要45分鐘以上手動操作才能完成的任務(wù)。目前,該工具已開放預(yù)覽版,將在未來幾周內(nèi)不斷改進。

另據(jù)外媒報道,24日當(dāng)天,Anthropic即將完成一輪35億美元的融資,公司估值將達到615億美元。公司本輪融資的最初目標(biāo)為20億美元,但在談判期間成功說服投資者增加投資。本輪融資的參與者包括Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners,總部位于阿布扎比的投資公司MGX正在洽談參與事宜。

不過,Anthropic依然面對較大的競爭壓力。據(jù)知情人士透露,Anthropic的年化收入(根據(jù)近期銷售額推斷未來12個月的收入)在近期達到約12億美元,公司仍在虧損,將利用最新融資的現(xiàn)金支持訓(xùn)練更強大的AI模型。亞馬遜已向Anthropic累計投資80億美元,而谷歌母公司Alphabet已向其投資20億美元。

此前,1月20日,中國AI初創(chuàng)公司深度求索(DeepSeek)推出開源推理模型DeepSeek-R1,憑借其性能表現(xiàn)引發(fā)全球AI界轟動,各家AI大模型企業(yè)也紛紛宣布推出自己的推理模型。例如,OpenAI發(fā)布推理模型o3-mini,谷歌也在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking實驗版。

此外,2月25日,阿里通義Qwen發(fā)布基于旗艦?zāi)P蚎wen2.5-Max構(gòu)建的推理模型QwQ-Max-Preview預(yù)覽版,會和DeepSeek以及Kimi的推理模型一樣展現(xiàn)思考過程,目前用戶可在通義千問網(wǎng)頁版進行體驗。通義千問團隊表示,QWQ-Max的官方版本將在近日發(fā)布,會同步發(fā)布安卓和iOS版應(yīng)用程序,以及規(guī)模更小的可在本地設(shè)備部署的模型。

    責(zé)任編輯:王杰
    圖片編輯:李晶昀
    校對:姚易琪
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            主站蜘蛛池模板: 同仁县| 辽宁省| 莒南县| 夏河县| 叶城县| 拜泉县| 荆州市| 汶川县| 长春市| 桐庐县| 开化县| 龙山县| 尼木县| 龙陵县| 渭源县| 肃南| 辽中县| 西青区| 东城区| 曲阳县| 怀仁县| 鄢陵县| 利辛县| 庆云县| 历史| 托克逊县| 余江县| 睢宁县| 长白| 阜平县| 广安市| 崇州市| 龙川县| 鄄城县| 舒兰市| 永善县| 旌德县| 玛曲县| 郧西县| 富蕴县| 天柱县|