下載客戶端

登錄

今年的天才少女“有點多”

2024-12-31 07:28

來源：澎湃新聞·澎湃號·湃客

最近幾天，Deepseek在AI圈子里太火了。

12月26日，Deepseek宣布全新系列模型DeepSeek-V3首個版本上線并同步開源。

官方稱，DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

此外，官方技術論文還披露，v3模型的總訓練成本為557.6萬美元，GPT-4o等模型的訓練成本約為1億美元。

隨后，Deepseek開始刷屏。

12月27日，有媒體報道了羅福莉將加入小米一事，并將羅福莉稱為95后“天才少女”。而這個“天才少女”，也來自Deepseek。

之后，雷軍千萬年薪挖角天才少女的報道也刷屏了。

事實上，早在12月20日就有媒體報道過DeepSeek羅福莉將加入小米一事，但當時的報道中并沒有將羅福莉稱為天才少女。該消息也沒有刷屏。

而最近幾天，兩個刷屏的事都很突然，而且幾乎是同時，到底啥情況？

DeepSeek-V3好評眾多

但給自己挖了個坑

媒體文章再現“震驚體”

DeepSeek-V3一經發布，便收獲無數好評。

一方面，是有多項數據顯示，其在多個評測中取得高分。另一方面，則是其低廉的訓練成本。

很多大佬也對DeepSeek-V3給出了高度評價。

比如，Meta科學家田淵棟稱，DeepSeek-V3的訓練看上去是“黑科技”，這是非常偉大的工作。

Menlo Venture的投資人表示：“53頁的技術論文是黃金。”

不過，DeepSeek-V3也給自己挖了一個坑。

很快就有人發現，當用英文“what model are you”向DeepSeek-V3提問它是哪家大模型時，它卻給出了“ChatGPT”的答案。

而用中文或給“what model are you”加上問號，DeepSeek-V3則能夠正確回答。

不過，DeepSeek官方還未對此做出回應。

有分析認為，之所以會出現這一幕，或許是因為DeepSeek-V3的訓練數據中可能包含了大量ChatGPT生成的文本，導致它“記住了”ChatGPT的某些輸出，并錯誤地將自己識別為ChatGPT。

今日，三言測試發現，該BUG已修復。

三言還測試了幾個此前曾讓眾多大模型翻車的問題。

1、1個籠子里裝著免子和雞，一共有20個頭，45只腳，請問免子和雞各有多少只?

這個問題其實是無解的。日前，三言在測試另一款大模型時，對方給出了錯誤的答案。

DeepSeek-V3則是先通過設方程，解出兔子的數量為2.5只，雞的數量為17.5只。

然后又指出，動物的數量應該是整數，這表明題目中給出的數據可能有誤，或者問題本身存在矛盾。

2、9.11和9.9哪個數字大？

這個問題曾讓一眾大模型打臉。

DeepSeek-V3給出了正確的答案。

3、蒸一個包子需要5分鐘，蒸10個包子需要幾分鐘？

這個問題也曾讓某大模型出糗，該大模型不知道包子可以同時蒸，得出了需要50分鐘的錯誤答案。

DeepSeek-V3也給出了正確答案。

4、為什么爸媽結婚沒叫我參加婚禮？

這個問題DeepSeek-V3分析給出了四種原因。

5、麻辣螺絲釘怎么做？

日前，三言測試另一款大模型時，這個問題也讓它翻車了。該大模型一本正經的給出了做法。

而DeepSeek-V3指出了螺絲釘不能食用，并給出了“麻辣螺螄”的做法。

從回答這些問題來看，DeepSeek-V3的能力確實還不錯。

據悉，DeepSeek還被稱為“AI界拼多多”。

這源于今年5月，DeepSeek V2開源模型發布，將推理成本被降到每百萬token僅 1塊錢，約等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。

當時，DeepSeek就被冠以“AI界拼多多”之稱。

據悉，這背后是DeepSeek提出了一種嶄新的MLA架構，把顯存占用降到了過去最常用的MHA架構的5%-13%，同時，DeepSeek獨創的DeepSeekMoESparse結構，也把計算量大幅降低。

這也是DeepSeek的過人之處。

不過，從這次刷屏的媒體文章來看，標題中充斥著“震驚全球”、“AI界拼多多”等標簽。不知道是媒體的一貫做法，還是有意這么標簽化定位。

并且，“震驚體”在AI界實在是太常見了。好多大模型發布時，都“震驚”過。但是“震驚”過后，很快就褪去熱度。

羅福莉能力到底如何？

從電子專業轉到計算機專業

第一年對編程沒有任何認知

從連python都不會，4個月就投了論文

8篇ACL論文有2篇是一作

公開信息顯示，羅福莉本科就讀于北京師范大學計算機專業，碩士（保研）畢業于北京大學計算語言學研究所，研二時在自然語言處理領域頂級會議ACL 2019上發表8篇論文，其中兩篇為一作。畢業后，羅福莉加入阿里達摩院機器智能實驗室。期間，她主導開發的多語言預訓練模型VECO，被納入阿里達摩院深度語言模型體系AliceMind。此外，她還主導了AliceMind的開源工作。

2022年，羅福莉離開阿里，在DeepSeek擔任深度學習研究員，參與了DeepSeek的MoE大模型DeepSeek-V2的開發。

羅福莉的百度百科已經更新為小米AI實驗室負責人，盡管上了兩天熱搜和刷屏，小米方面卻遲遲未回應天才少女加盟的事。

從“羅福莉”詞條的編輯歷史來看，12月28日才有了該詞條，并且是由多位不同的網友編輯而來。