- +1
我花了2天,找到了我覺得翻譯質(zhì)量最好的AI大模型
原創(chuàng) 數(shù)字生命卡茲克 數(shù)字生命卡茲克
做AI自媒體的人,讀前沿學(xué)術(shù)論文,跟著補課,提升自己的知識體系自然是少不了的。
僅僅是為了跟上這個時代,就已經(jīng)得拼盡全力不掉隊了。
但是吧,不怕各位笑話,我的英語真的很差,最熟練的喊出來的那句英語是:
I'm fine,thank you,and you?
真的,在讀各種文獻(xiàn)的過程中,即使已經(jīng)用大模型加持翻譯了,但是還是受盡了各種折磨。
就比如昨天豆包發(fā)了個AI圖像的論文。

我尋思著翻一下之前他們SeedEdit的論文,對照著學(xué)習(xí)一下。

就是這個。
別的論文我不太懂,但是這類AI的論文呢,一般上下文邏輯咬的很死,并且充斥著大量高度專業(yè)化的術(shù)語和學(xué)術(shù)表達(dá)。
像是:Out-of-Domain (OOD) 、DiT架構(gòu)這類詞很多。
光是專業(yè)學(xué)術(shù)用語部分,倒也還好。但遇見一些專業(yè)術(shù)語搭配復(fù)雜表達(dá)方式的文段,我說實話,我現(xiàn)在一般用沉浸式翻譯搭配OpenAI或者DeepL的API,翻譯起來還是懵逼。

很多時候,它對于專業(yè)術(shù)語,即便不懂也要硬翻。對于我這種非專業(yè)的人來說,看起來就真的很費勁。
正好最近又看了玉淵譚天做的關(guān)于AI翻譯質(zhì)量的策劃,所以我也想,不如我自己也評測一下。
看看在這個場景下,到底哪個大模型,翻譯質(zhì)量最好。
說干就干。
于是,我跟小伙伴肝了2天時間,測了N多題,找到了我們認(rèn)為,目前翻譯效果最好的大模型。
直接說結(jié)論:網(wǎng)易有道這個老牌翻譯廠商出的AI大模型子曰翻譯2.0,居然吊打了一切。。。
說說我們是怎么測大模型的翻譯評測這塊的。
測試的維度也很簡單,就從我平常受到的折磨體驗出發(fā),梳理出了2點。
這些AI必須:
1. 說人話;2. 沒活別瞎翻。
第一點,說人話。好解釋,翻譯內(nèi)容符合中國人的語言習(xí)慣。
第二點,沒活別瞎翻,就更好說了。專業(yè)術(shù)語和一些專有名詞,要是不會翻可以不翻,但別硬翻。其他內(nèi)容基本正確就行。
在選手上,我選了海外的Grok3,ChatGPT-4o、Claude 3.7、Gemni 2這標(biāo)準(zhǔn)四人組。國內(nèi)我把能跑的也都跑了,不過受制于篇幅,文章里面我就只展示DeepSeek R1、智譜GLM-4、有道子曰翻譯2.0、Qwen 2.5-Max這四人組了。
DeepSeek R1是唯一一個推理模型,雖然理論上我也不應(yīng)該用推理模型來測翻譯,因為不實用。。。但是誰叫人實在太火了呢= =
我給這這些大模型出的第一道題,就是SeedEdit這篇論文里的一個稍微復(fù)雜點的段落,涉及了一堆高頻專業(yè)術(shù)語,還包含學(xué)術(shù)引用信息、作者姓名。

先看國產(chǎn)。
說人話方面。
Qwen和智譜GLM在說人話上都需要加強,最具代表性的句子就是這個:
Qwen:我們注意到,我們的方法主要聚焦于HQ-Edit基準(zhǔn)中的應(yīng)用場景,在這些場景中,我們希望根據(jù)任意指令對T2I生成的圖像進(jìn)行修改。
智譜GLM:我們注意到,我們的方法主要關(guān)注 HQ-Edit 基準(zhǔn)中的應(yīng)用場景,我們希望用任意指令修改 T2I 生成的圖像。
一個句子中就能出現(xiàn)三個同樣的主語,讀起來就非常的難受,并且斷句也很奇怪。
子曰翻譯2.0的表現(xiàn)倒是非常的棒。它的主語濫用較少,避免了一大坨過度重復(fù)的代詞。尤其在處理“that”和“where”這類句式時,表現(xiàn)不錯。
DeepSeek比起子曰翻譯2.0,人話輸出上稍微弱了一點,翻譯腔的機械感重了一點。很明顯的例子就是第一句話,不夠簡潔,主語消失了。
沒活別硬翻方面,子曰翻譯2.0和DeepSeek都明顯好一點。
對Out-of-Domain (OOD) test的處理上,只有Qwen翻譯成了跨領(lǐng)域測試。智譜GLM和Qwen對real in-the-wild image inputs的翻譯都有點難頂。。。其實,直接翻成真實場景的圖像輸入就行。

國外組這邊,在英譯中的表現(xiàn)上都要比國內(nèi)組的要稍微差點,那英式中文的感覺實在揮之不去,讀起來非常的不流暢。
這里面表現(xiàn)最好的就是ChatGPT-4o。它的翻譯整體上是清晰且準(zhǔn)確的,算是比較好地展現(xiàn)了原文的技術(shù)內(nèi)容和學(xué)術(shù)語氣。
Gemini和Claude基本屬于一個級別的,人話輸出差點兒意思。
Grok 3的表現(xiàn)也還行,但還是那個老毛病:主語瘋狂堆疊。

這第一道題還只是學(xué)術(shù)論文中,比較“正常”的一段,理解語義的難度不算太高。
但是當(dāng)你看硬核技術(shù)論文的時候,我不知道你們有沒有跟我一樣的感覺:AI面對正文中的內(nèi)容時,表現(xiàn)可能還好。但當(dāng)對象變?yōu)閳D注內(nèi)容時,很大概率開始抽風(fēng)。
因為SeedEdit這篇論文里,圖注部分沒有什么復(fù)雜的段落,我就從經(jīng)典神文《Attention is all you need》里摘出來了一段,作為第二道大題。

這回,就能很明顯地感受到各個AI大模型在面對這種隱性語境限制的情況下,翻譯英文的能力了。
開頭的第一個長難句,其實就是對圖片的一個總結(jié),怎么簡潔怎么來。

智譜GLM對圖注語境下的長難句的理解有點不到位。
DeepSeek、Qwen則選擇在中間進(jìn)行斷句,無功無過。但是在結(jié)尾處,這兩位都選擇“建議以彩色查看”,在學(xué)術(shù)語境中語氣稍顯隨意了些。但也沒大問題。
子曰翻譯2.0在一句話的表現(xiàn)非常簡潔,很符合一個正常學(xué)術(shù)圖注的規(guī)范。但是,也出現(xiàn)了個小問題。因為 heads 這個單詞在前一句出現(xiàn)過了,子曰翻譯2.0直接在下一句省略了,給翻譯成了不同顏色代表不同的頭,這其實會帶來一些理解壓力。
Gemini和GLM一樣的毛病,ChatGPT-4o直接把第一句的following硬翻譯成了追蹤,Pass。
Claude對第一個句子的翻譯,也是尬的一批,6層xxx的第5層中。沒有人這么說話的。
除了上面兩道對象是純文本的測試題,日常看論文時,另一個特別讓我看了心情復(fù)雜的一點就是,文本中被插入一堆數(shù)學(xué)符號。翻譯器很容易被搞懵逼。
所以我也就把這一點作為第三大題,測試下這八個模型是怎么處理這些數(shù)字符號的。
文本還是用的《Attention Is All You Need》里的一段嵌入數(shù)學(xué)公式的內(nèi)容。

總體來看,各家AI大模型對于內(nèi)嵌數(shù)學(xué)公式的理解,其實都表現(xiàn)的還挺好的。
盡管 d?2; 的數(shù)學(xué)符號格式在排版上,有些模型處理的不夠規(guī)整,但邏輯表達(dá)并沒有什么混亂。
DeepSeek和子曰翻譯2.0在處理技術(shù)性內(nèi)容時,能夠兼顧術(shù)語的準(zhǔn)確性與說人話的表達(dá)方式,這一點明顯勝過其他幾個模型。
我在做這個測試的時候,還發(fā)現(xiàn)了一個很明顯的點,就是最后一句話。
xxx,the approach we take in our model.
很明顯地,這句話不應(yīng)該與前一句區(qū)分開。
因為在中文語境中,它實際上是對前述內(nèi)容的補充說明。但是除了子曰翻譯2.0外的七家大模型,全都給隔離翻譯了。
一個逗號,給7個大模型都忽悠過去了。。。

一套流程全部測下來,只說中英互譯的話,你會很明顯地感受到在說人話方面,有道這個子曰翻譯2.0,是真的讓我意外的覺得好用。
在沒活別硬翻上,DeepSeek R1、子曰翻譯2.0,ChatGPT-4o基本算是一個梯隊的,專業(yè)術(shù)語知道保留,不瞎玩。
至少在我自己的測試中,最讓我意外的一點,還是有道的子曰翻譯2.0是效果最好的,這個點其實蠻讓我意外。
但是同時也確實驗證了一個“共識”。
在垂直場景里,這些積累了N多年數(shù)據(jù)的行業(yè)巨頭,手上握著的資源和數(shù)據(jù),確實不是一些通用大模型公司能匹敵的。
在我找出了我覺得目前最好的翻譯大模型,準(zhǔn)備就讓它以后來幫我看論文讀技術(shù)文章的時候,我發(fā)現(xiàn)。。。
沉浸式翻譯沒給子曰翻譯2.0留API接口,接不進(jìn)去。。。
而有道自己的產(chǎn)品雖然做的很不錯,但是對于我這種每天在各種英文網(wǎng)站里來回蹦跶還要刷X和在arXiv上扒拉論文的人來說,體驗路徑確實有一點長。。。
這一下子給我整不會了。。。
不過如果是習(xí)慣用應(yīng)用的,或者是手機主力黨,那我還是無腦推薦你去有道他們自己的產(chǎn)品里面用。
比如他們的有道翻譯和有道詞典。

截圖翻譯、PDF翻譯啥的都全乎,同傳啥的也都有,這個里面的AI翻譯就是子曰翻譯2.0。
但是最可惜的就是沒有我想要的瀏覽器翻譯插件。
所以,在我猶豫了1分鐘之后,為了方便,不用來回多開頁面,省下時間安心做科普閱讀。
我還是做了一個非常傻der的決定。
自己用AI手搓一個能接子曰翻譯2.0 API的論文專用的翻譯器插件。。。

EMMMMMMM。
這個插件翻譯效果是這樣子的。

這個翻譯插件的用戶體驗效果肯定沒有那些商用插件好,但是吧,也是一個無奈之舉。翻譯質(zhì)量,比體驗重要。
老規(guī)矩,這個插件我也放在了公眾號后臺里,大家隨意取用,直接公眾號后臺私信我"fy",系統(tǒng)就會自動發(fā)送你文件了。
插件的安裝和API的接入,其實都特別簡單。
先說API怎么獲取。
直接進(jìn)下面有道的AI開放平臺申請API:
https://ai.youdao.com/modelTranslation.s
在最上面的導(dǎo)航欄里,選擇產(chǎn)品服務(wù),里面有個大模型翻譯,點擊即可。

選擇立即使用。

在左側(cè)導(dǎo)航欄里選擇自然語言翻譯服務(wù)里的大模型翻譯,點擊創(chuàng)建應(yīng)用。

應(yīng)用名稱可以隨便寫,我寫的是:PDF翻譯,選擇服務(wù)欄里要選:大模型翻譯,接入方式選:API,應(yīng)用類別直接選:實用工具。
選完這四項,直接點確認(rèn)就行。

下面這倆其實就是你的應(yīng)用ID和秘鑰了。

在有道API平臺,一實名注冊就會送50塊錢的體驗金。。。
基本夠用一陣子了,大概能高質(zhì)量地處理個三五千頁PDF。
至于我手搓的論文翻譯插件的安裝也很簡單。
按下面的指導(dǎo)圖,一步一步來就行。
第一步就是解壓縮我給你的翻譯插件.zip。

然后打開谷歌瀏覽器,點右上方三個點按鈕,進(jìn)入管理擴展程序。

一鍵把文件拖進(jìn)來,就能自動安裝。

打開擴展程序按鍵,把【卡茲克論文譯霸】置頂。

點擊這個設(shè)置按鈕。

輸入你在有道API云平臺,注冊得到的API key和API Secret,點保存設(shè)置就能用了。

安裝好插件,你刷新一下arXiv,你就會發(fā)現(xiàn)右邊就有個【在線查看中文翻譯版】的按鈕。

點進(jìn)去后,即可開始純享版論文翻譯。你可以點擊隱藏原文,直接就是個子曰翻譯出來的中文版。也可以,一鍵改變布局,原文譯文排版,就像下面這樣。

也支持,圖文混排。
一些網(wǎng)頁也行。

整個流程,真的幾分鐘就能搞定。
接下來就能在中英互譯的論文世界里遨游了。
說實話,我這個手搓的小插件,很蹩腳,如果有道或者沉浸式翻譯能看到我這篇文章,我希望:
要么有道出個插件,要么沉浸式翻譯支持一下有道的API吧。。。
真的,我覺得瀏覽器翻譯這個場景,還是蠻剛需的。
當(dāng)然,如果你覺得這個插件太矬了(確實也挺挫),那也可以把PDF下載下來,扔到有道翻譯里面直接翻譯。
或者直接用他們的截圖翻譯吧。
不過,如果你跟現(xiàn)在的我一樣,就喜歡瀏覽器上苦讀英文文獻(xiàn),也追求翻譯質(zhì)量,那我覺得,真的可以考慮湊合用一下我這個小破插件。
祝我們都能在AI和翻譯的世界里越走越遠(yuǎn),再也不用為語言門檻而撓頭懊惱。
愿你我的AI路上,都能走的更遠(yuǎn)。
共勉。
原標(biāo)題:《我花了2天,找到了我覺得翻譯質(zhì)量最好的AI大模型。》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司