▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

逐鹿大模型|評分一般成本高,OpenAI的GPT-4.1有何戰略意義

2025-04-23 19:13
來源:澎湃新聞·澎湃號·湃客
字號

OpenAI最新版本的大模型GPT-4.1正式上線。

目前,GPT4.1只在API上供開發者使用,未引入聊天機器人ChatGPT。它共有三個版本,標準版的GPT-4.1, 和兩個小一點的版本GPT-4.1 mini、GPT-4.1 nano。

在當地時間4月14日發布的直播上,OpenAI表示,GPT-4.1擁有比GPT-4o更大的上下文窗口,在“每一個維度”都比4o更好,尤其在寫代碼和遵循指示方面有了長足提升。

其中,GPT-4.1的上下文窗口高達100萬token,相當于能一次性輸入75萬個單詞(比《戰爭與和平》還要長)。這遠高于4o的12.8萬token限制。OpenAI表示,“我們對其進行了訓練,使其在定位相關文本和忽略不同語境中的干擾時,比GPT-4o更可靠。”

雖然OpenAI的新模型總是被寄予厚望,但隨后的評測結果顯示,GPT-4.1只是對GPT-4o的一版小升級,它在一眾指標中都落后于谷歌旗下的Gemini 2.5,并且成本是Deepseek V3的8倍。

文/承天蒙

/01/

上線計劃一改再改

不久前,OpenAI剛宣布,已經發布了兩年的GPT-4將于4月30日起從ChatGPT中退役,被GPT-4o完全取代。GPT-4o正式成為了ChatGPT的默認模型。

GPT-4于2023年3月推出,用于ChatGPT和微軟Copilot聊天機器人。它是OpenAI推出的第一個多模態大模型,可以同時理解圖像和文本,具有劃時代的重要意義。當時,GPT-4的數據規模還很大,訓練成本超過一億美元。在GPT-4這一先行者的引領下,后續一眾多模態大模型也如雨后春筍般冒了出來,開啟了AI大模型百花齊放的新時代。

GPT-4o是GPT-4的后繼版,在寫作、寫代碼、STEM等方面優于GPT-4。不久前,GPT-4o新上線的圖像生成功能大受歡迎,它能提供包括吉卜力工作室風格在內的20余種圖像風格。最近的升級也進一步提高了GPT-4o在遵循指令、解決問題和對話流程上的表現。現在的ChatGPT已經能記住用戶和它說過的每一句話,并參考過去的聊天記錄,提供更加個性化的回復。

此次GPT-4.1全面超越了GPT-4o,與此同時,它還全面超越了OpenAI兩個月前剛剛發布的GPT-4.5。是的,小數點后面的數字已經不重要了,目前的現狀是,OpenAI在GPT-4.5之后推出了性能更優異的GPT-4.1。而更重要的大更新版本GPT-5,宣布難產。

一周前的4月4日,OpenAI的CEO山姆·奧特曼宣布公司旗下發布大模型的計劃有變,將會推出其推理模型o3和一個o4 mini的完整版,GPT-5的發布時間將會推遲。原定5月發布,現在應該會在“幾個月內”發布。奧特曼表示,推遲的部分原因是“順利整合一切比我們想象的更難”。

推出了更先進的小版本更新4.1后,OpenAI也將從7月14日起,下線API中的GPT-4.5,因為“GPT-4.1已經證明可以用更低價格、更少延遲,在眾多關鍵指標上提供類似或更佳的表現。”

GPT大模型從未停止研發和進化。但是在現在行業競爭加劇、眾敵環伺的情況下,OpenAI無疑更新地更頻繁了,推出的大模型版本也更多。能看出來,OpenAI始終希望讓自己與競爭對手保持一定的領先地位,但至少4.1沒有做到這一點。GPT-4.1被評價為“首次在谷歌之后推出了一個遠遠落后于谷歌的版本”。

/02/

強敵環伺

當下,無疑是全世界各大廠商開足馬力逐鹿大模型的時代。谷歌近期發布了Gemini 2.5 Pro,同樣擁有100萬token的上下文窗口,并且在行業評分中名列前茅。Anthropic旗下Cloude 3.7 Sonnet和中國的Deepseek V3升級版同樣也是強勁的競爭對手,在很多指標上都超越了GPT-4.1。

▲知名大模型的代碼的能力和成本比較,GPT4.1在里面排名第6,其中第三名的o3 mini(high)是OpenAI的推理模型

根據OpenAI的內部測試,GPT-4.1 一次可生成token數為32768,多于GPT-4o的16384,在 SWE-bench Verified上的得分介于52%和54.6%之間。但這些數字略低于谷歌Gemini 2.5 Pro的63.8%和Anthropic旗下Claude 3.7 Sonnet的62.3%。

OpenAI也承認,GPT-4.1需要處理的token越多,就越容易出錯。在該公司自己的一項測試中,GPT-4.1的準確率在8000個token時是84%左右,100萬個token時便下降到50%。OpenAI還表示,GPT-4.1比GPT-4o更 “直白”,有時需要更具體、更明確的提示。

更多實測證明,GPT-4.1的編碼能力極強,但總體看來很多情況下打不過Gemini 2.5 pro和Claude 3.7 Sonnet,并且它的價格是Deepseek V3的8倍。在最新Livebench基準評估中,也同樣印證了GPT-4.1推理、編碼、數學實力比Gemini 2.5差。

▲各家廠商每一百萬token成本比較

還有一個需要關注的問題是,分數差這么多,不單純是因為Gemini 2.5 pro比GPT-4.1更高效。谷歌是在自己的ASIC(TPU)上運行的模型,ASIC(TPU)是比GPU專業的芯片,這讓谷歌運行模型的成本比競爭對手低得多,這是谷歌在AI領域軟硬件全面發展的實力。

/03/

大模型往何處去

執行復雜的軟件工程任務,一直是AI大模型訓練的目標。OpenAI首席財務官Sarah Friar此前在一個技術峰會上曾表示,OpenAI的宏偉目標是創建一個“軟件工程師助手”,公司認為,其未來的模型將能夠對整個應用app進行端到端編程,處理包括質量檢測、bug測試和文檔寫作等方面的工作。

▲OpenAI旗下不同GPT模型的跑分比較

GPT 4.1就是朝這個方向邁出的一步。

OpenAI表示,完整的GPT-4.1模型優于GPT-4o和GPT-4o mini模型。GPT-4.1 mini和nano更高效、更快速,但犧牲了一些準確性,OpenAI還表示,GPT-4.1 nano是其有史以來最快速、最便宜的模型。根據網絡評測,GPT-4.1 nano的成本不到Deepseek V3的一半。

GPT-4.1發布后,AI研究機構Ai2的工程師Nathan Lambert表示,雖然GPT-4.1是一個小版本的更新,但這讓人們更清楚地認識到,推動 API 業務和 ChatGPT 最佳體驗的是兩個截然不同的模型。

在通用大模型的基礎上,區分API業務和ChatGPT,推出多版適合不同場景、不同版本、各有長處的模型,可以起到降低成本、提高效率的作用,這同樣成為了OpenAI未來大模型的發展方向。照此看來,GPT-4.1也許是未來OpenAI發展不同大模型產品線的重要一步。

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 汝州市| 桑日县| 鄂尔多斯市| 尖扎县| 岚皋县| 浏阳市| 乌兰察布市| 修水县| 习水县| 内丘县| 杭锦后旗| 宁津县| 蕲春县| 丹棱县| 天峻县| 石河子市| 开原市| 七台河市| 玉环县| 鸡西市| 桦川县| 福安市| 黄浦区| 肇州县| 噶尔县| 华容县| 成武县| 枞阳县| 上饶县| 淳安县| 龙口市| 南召县| 水城县| 双辽市| 昌黎县| 赤城县| 屯留县| 榆中县| 万宁市| 辛集市| 吉安市|