逐鹿大模型｜評分一般成本高，OpenAI的GPT-4.1有何戰略意義

2025-04-23 19:13

來源：澎湃新聞·澎湃號·湃客

OpenAI最新版本的大模型GPT-4.1正式上線。

目前，GPT4.1只在API上供開發者使用，未引入聊天機器人ChatGPT。它共有三個版本，標準版的GPT-4.1, 和兩個小一點的版本GPT-4.1 mini、GPT-4.1 nano。

在當地時間4月14日發布的直播上，OpenAI表示，GPT-4.1擁有比GPT-4o更大的上下文窗口，在“每一個維度”都比4o更好，尤其在寫代碼和遵循指示方面有了長足提升。

其中，GPT-4.1的上下文窗口高達100萬token，相當于能一次性輸入75萬個單詞（比《戰爭與和平》還要長）。這遠高于4o的12.8萬token限制。OpenAI表示，“我們對其進行了訓練，使其在定位相關文本和忽略不同語境中的干擾時，比GPT-4o更可靠。”

雖然OpenAI的新模型總是被寄予厚望，但隨后的評測結果顯示，GPT-4.1只是對GPT-4o的一版小升級，它在一眾指標中都落后于谷歌旗下的Gemini 2.5，并且成本是Deepseek V3的8倍。

文/承天蒙

/01/

上線計劃一改再改

不久前，OpenAI剛宣布，已經發布了兩年的GPT-4將于4月30日起從ChatGPT中退役，被GPT-4o完全取代。GPT-4o正式成為了ChatGPT的默認模型。

GPT-4于2023年3月推出，用于ChatGPT和微軟Copilot聊天機器人。它是OpenAI推出的第一個多模態大模型，可以同時理解圖像和文本，具有劃時代的重要意義。當時，GPT-4的數據規模還很大，訓練成本超過一億美元。在GPT-4這一先行者的引領下，后續一眾多模態大模型也如雨后春筍般冒了出來，開啟了AI大模型百花齊放的新時代。

GPT-4o是GPT-4的后繼版，在寫作、寫代碼、STEM等方面優于GPT-4。不久前，GPT-4o新上線的圖像生成功能大受歡迎，它能提供包括吉卜力工作室風格在內的20余種圖像風格。最近的升級也進一步提高了GPT-4o在遵循指令、解決問題和對話流程上的表現。現在的ChatGPT已經能記住用戶和它說過的每一句話，并參考過去的聊天記錄，提供更加個性化的回復。

此次GPT-4.1全面超越了GPT-4o，與此同時，它還全面超越了OpenAI兩個月前剛剛發布的GPT-4.5。是的，小數點后面的數字已經不重要了，目前的現狀是，OpenAI在GPT-4.5之后推出了性能更優異的GPT-4.1。而更重要的大更新版本GPT-5，宣布難產。

一周前的4月4日，OpenAI的CEO山姆·奧特曼宣布公司旗下發布大模型的計劃有變，將會推出其推理模型o3和一個o4 mini的完整版，GPT-5的發布時間將會推遲。原定5月發布，現在應該會在“幾個月內”發布。奧特曼表示，推遲的部分原因是“順利整合一切比我們想象的更難”。

推出了更先進的小版本更新4.1后，OpenAI也將從7月14日起，下線API中的GPT-4.5，因為“GPT-4.1已經證明可以用更低價格、更少延遲，在眾多關鍵指標上提供類似或更佳的表現。”

GPT大模型從未停止研發和進化。但是在現在行業競爭加劇、眾敵環伺的情況下，OpenAI無疑更新地更頻繁了，推出的大模型版本也更多。能看出來，OpenAI始終希望讓自己與競爭對手保持一定的領先地位，但至少4.1沒有做到這一點。GPT-4.1被評價為“首次在谷歌之后推出了一個遠遠落后于谷歌的版本”。

/02/

強敵環伺

當下，無疑是全世界各大廠商開足馬力逐鹿大模型的時代。谷歌近期發布了Gemini 2.5 Pro，同樣擁有100萬token的上下文窗口，并且在行業評分中名列前茅。Anthropic旗下Cloude 3.7 Sonnet和中國的Deepseek V3升級版同樣也是強勁的競爭對手，在很多指標上都超越了GPT-4.1。

▲知名大模型的代碼的能力和成本比較，GPT4.1在里面排名第6，其中第三名的o3 mini（high）是OpenAI的推理模型

根據OpenAI的內部測試，GPT-4.1 一次可生成token數為32768，多于GPT-4o的16384，在 SWE-bench Verified上的得分介于52%和54.6%之間。但這些數字略低于谷歌Gemini 2.5 Pro的63.8%和Anthropic旗下Claude 3.7 Sonnet的62.3%。

OpenAI也承認，GPT-4.1需要處理的token越多，就越容易出錯。在該公司自己的一項測試中，GPT-4.1的準確率在8000個token時是84%左右，100萬個token時便下降到50%。OpenAI還表示，GPT-4.1比GPT-4o更 “直白”，有時需要更具體、更明確的提示。

更多實測證明，GPT-4.1的編碼能力極強，但總體看來很多情況下打不過Gemini 2.5 pro和Claude 3.7 Sonnet，并且它的價格是Deepseek V3的8倍。在最新Livebench基準評估中，也同樣印證了GPT-4.1推理、編碼、數學實力比Gemini 2.5差。

▲各家廠商每一百萬token成本比較

還有一個需要關注的問題是，分數差這么多，不單純是因為Gemini 2.5 pro比GPT-4.1更高效。谷歌是在自己的ASIC（TPU）上運行的模型，ASIC（TPU）是比GPU專業的芯片，這讓谷歌運行模型的成本比競爭對手低得多，這是谷歌在AI領域軟硬件全面發展的實力。

/03/

大模型往何處去

執行復雜的軟件工程任務，一直是AI大模型訓練的目標。OpenAI首席財務官Sarah Friar此前在一個技術峰會上曾表示，OpenAI的宏偉目標是創建一個“軟件工程師助手”，公司認為，其未來的模型將能夠對整個應用app進行端到端編程，處理包括質量檢測、bug測試和文檔寫作等方面的工作。

▲OpenAI旗下不同GPT模型的跑分比較

GPT 4.1就是朝這個方向邁出的一步。

OpenAI表示，完整的GPT-4.1模型優于GPT-4o和GPT-4o mini模型。GPT-4.1 mini和nano更高效、更快速，但犧牲了一些準確性，OpenAI還表示，GPT-4.1 nano是其有史以來最快速、最便宜的模型。根據網絡評測，GPT-4.1 nano的成本不到Deepseek V3的一半。