- +1
OpenAI壓力來了?阿里Qwen3憑“省電模式”登頂“全球開源模型冠軍”

作者|西梅汁
編輯|星奈
媒體|AI大模型工場
OpenAI突然宣布:放棄營利性轉型,回歸非營利初心!Sam Altman更是稱要為全人類打造「全球大腦」,AGI不該服務少數人。這一決策被外界解讀為巨頭在技術瓶頸與商業(yè)壓力間的無奈妥協。

而上周阿里開源Qwen3以來,這款號稱“全球最強開源模型”的AI,憑借“半價碾壓同行”“奧數題秒殺GPT-4”的爭議性表現,迅速成為科技圈的頂流。
又僅僅只用一周的時間,國際大模型界的“奧林匹克”LiveBench榜單公布——阿里Qwen3-235B-A22B以開源模型身份登頂總榜冠軍,甚至“越級打怪”,在指令遵循能力上碾壓OpenAI的o4-Mini High、谷歌Gemini 2.5 Pro等閉源頂流,讓開發(fā)者們集體好奇:“開源模型也能這么強?!”
無不向世界展現了另一種可能:AI的終極目標或許不在盈利模式,而是如何讓技術滲透進每個角落。

那么我們先來了解,阿里的這只“卡皮巴拉”和它的家族。阿里上周總共開源 8 款模型,包括 2 款 MoE 模型和 6 款 Dense 模型。
2 款 MoE 模型:
旗艦版 Qwen3-235B-A22B,激活參數僅22B,部署成本為 DeepSeek R1 的三分之一。
迷你版 Qwen3-30B-A3B,激活參數僅3B,整體性能堪比 Qwen2.5-32B,適合消費級顯卡部署。
6 款 Dense 模型:
0.6B、1.7B、4B、8B、14B、32B這6款稠密模型,均采用 Apache 2.0許可。

解鎖“新族譜”后,我們就來重點看看這款號稱“混合推理之王”的模型Qwen3旗艦版235B-A22B ,怎么引的X上的網友連連叫好?它究竟是國產AI的里程碑,還是營銷噱頭?



一 從“思考模式”到方言翻譯甚至工具調用,這次它想當“全能學霸”
阿里這次給Qwen3塞了一堆新技能,核心亮點可以用三個關鍵點概括:混合推理模型、豐富的語言支持、Agent調用功能。
Qwen3最顛覆的設計,莫過于它的混合推理引擎,這個概念最早是由Claude3.7提出來的?!八伎寄J健迸c“非思考模式”的無縫切換,說白了就是,這個模型它既可以推理,也可以不推理。
主要是復雜答案深度思考,而對于簡單答案通過控制,不生成思考過程,在不影響效果的情況下,實現秒回,提升效果、成本以及時間上的平衡。
比如輸入用Python寫一個快速排序函數,并解釋時間復雜度,開啟思考模式時,Qwen3會像學霸做題一樣分步推導,先拆解算法邏輯再生成代碼,甚至自我糾錯。

而切換到非思考模式,它則秒回一段代碼,并且沒有冗長的思考過程。這種設計讓用戶能根據需求在“深度推理”和“快餐式應答”間自由選擇,像是給AI裝了個“省電模式開關”。

要知道,在此之前,是沒有太好的辦法直接讓推理模型不生成思考過程,只能通過訓練,連提示詞都沒辦法控制。
另外在語言能力上,Qwen3 還支持119種語言和方言,從粵語到斯瓦希里語統統拿捏,甚至能理解“顆粒度”“頂層設計”“底層邏輯”這類行業(yè)黑話。更狠的是預訓練數據量——36萬億token,相當于把整個互聯網圖書館啃了兩遍,連PDF里的公式和代碼注釋都沒放過。

至于今年熱門的Agent能力,原生支持工具調用,這個也是最近大廠的重點。
Qwen3 在工具調用能力方面的出色表現,主要通過Qwen 配套的 Qwen-Agent 項目,可以方便地使用 API 進行工具調用,或結合現有的工具鏈進行擴展。

二 Qwen3 vs OpenAI vs DeepSeek——一場“快、準、省”的三角對決
參數多不一定贏,但參數少還比你強那就很可怕了。
接下來,看看我們用三個典型場景展開實測:
1、高難度算法編程
主要看模型的數學以及邏輯推理能力,這次是在leetcode(主要專注于算法訓練和求職準備的在線編程平臺)這個網站上找的一些算法編程上的問題,前面幾個編號高的都是新出的題目,并且模型做過的可能性也比較低,人類做這些題目至少都需要花費一兩個小時,我們來丟給模型們寫寫看。


Qwen3-235B:把題干和答題格式一并發(fā)送過去后,Qwen3差不多花了兩分鐘左右給出答案,答題過程中吐字速度也很快,并且成功答對,代碼運行速度僅269ms!


DeepSeek:同樣能完成證明,咱們國產模型確實都很優(yōu)秀,但是答案運行速度相對有點慢了。

OpenAI :看來題目對于openAI還是有點難度的,回答錯誤。

2、交互游戲代碼生成
Prompt:做一個超級瑪麗游戲,用html實現,需要有敵人,有平臺,有金幣
Qwen3-235B:30秒內生成完整代碼,有倆個敵人的設定,但是畫面中有一個敵人沒有運行起來,有點美中不足。

DeepSeek:不得不承認,這種低門檻交互性的小游戲,DeepSeek做的都還挺不錯的,有敵人,有平臺,有金幣,各個小元素都做到了。

OpenAI:同樣生成速度很快,但是畫面過于簡單,總體來看不如前面兩者。

3、古詩翻譯
Prompt:將以下中文古詩翻譯成英文,保留押韻和意境:“床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉(xiāng)。
Qwen3-235B:
第一句“亮月光灑窗欞”,直接對應“明月幾時有”,既忠于原意,又保持了詩意。第二句“如銀霜,泛清輝”,既點出了月光像霜的比喻,也保留了“銀霜”這個意象,同時讓語言更有美感。后兩句“抬首望明月,低頭念故鄉(xiāng)”,則直接傳遞了詩人的動作和情感。這種翻譯方式既簡潔明了,又符合古詩的風格。

DeepSeek:
詩的第一句“Before my bed, a silver pool gleams”描述了月光灑在床前的景象,這里的“silver pool”比喻的是月光的閃爍。第二句“Is it frost veiling the earthly scenes?”則用一個疑問句表述,他以為地上的月光像是霜。第三句“Eyes raised, the moon's pearly charm I see”是詩人抬頭仰望明月的動作,表達了對月光的欣賞。最后一句“Head bent, my soul drifts where home rivers flow free”則直接點明了思鄉(xiāng)的主題。

OpenAI:雖能翻譯但是更加像直譯過來的意思,“shines bright”和“l(fā)ast night”押韻,但第三、四句的“glow”和“home”沒有押韻?!耙墒堑厣纤狈g成“Like frost upon the floor last night”也不夠準確,原意是“懷疑是地上的霜”,所以用“suspected”不太貼切。
直觀看來,還是咱們的國產大模型更懂古人的韻味!

整體跑下來,三款模型其實差別不是很大,但是阿里的優(yōu)勢就在于,它以最小的模型參數,仍舊可以保持穩(wěn)定輸出。同時,阿里的全棧開源策略也加速了技術普惠。
當開源社區(qū)的朋友們已經爭相在Qwen3的開放生態(tài)中探索更多可能性,這場技術革命已不再局限于實驗室的代碼與參數。而這場大模型競賽似乎正把《復仇者聯盟》里的"賈維斯"加速拽進現實——只不過,這個未來可能得說著一口流利的方言!
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司