- +1
今年的天才少女“有點多”
最近幾天,Deepseek在AI圈子里太火了。
12月26日,Deepseek宣布全新系列模型DeepSeek-V3首個版本上線并同步開源。
官方稱,DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
此外,官方技術論文還披露,v3模型的總訓練成本為557.6萬美元,GPT-4o等模型的訓練成本約為1億美元。
隨后,Deepseek開始刷屏。

12月27日,有媒體報道了羅福莉將加入小米一事,并將羅福莉稱為95后“天才少女”。而這個“天才少女”,也來自Deepseek。

之后,雷軍千萬年薪挖角天才少女的報道也刷屏了。

事實上,早在12月20日就有媒體報道過DeepSeek羅福莉將加入小米一事,但當時的報道中并沒有將羅福莉稱為天才少女。該消息也沒有刷屏。

而最近幾天,兩個刷屏的事都很突然,而且幾乎是同時,到底啥情況?
DeepSeek-V3好評眾多
但給自己挖了個坑
媒體文章再現“震驚體”
DeepSeek-V3一經發布,便收獲無數好評。
一方面,是有多項數據顯示,其在多個評測中取得高分。另一方面,則是其低廉的訓練成本。
很多大佬也對DeepSeek-V3給出了高度評價。
比如,Meta科學家田淵棟稱,DeepSeek-V3的訓練看上去是“黑科技”,這是非常偉大的工作。
Menlo Venture的投資人表示:“53頁的技術論文是黃金。”
不過,DeepSeek-V3也給自己挖了一個坑。
很快就有人發現,當用英文“what model are you”向DeepSeek-V3提問它是哪家大模型時,它卻給出了“ChatGPT”的答案。

而用中文或給“what model are you”加上問號,DeepSeek-V3則能夠正確回答。
不過,DeepSeek官方還未對此做出回應。
有分析認為,之所以會出現這一幕,或許是因為DeepSeek-V3的訓練數據中可能包含了大量ChatGPT生成的文本,導致它“記住了”ChatGPT的某些輸出,并錯誤地將自己識別為ChatGPT。
今日,三言測試發現,該BUG已修復。

三言還測試了幾個此前曾讓眾多大模型翻車的問題。
1、1個籠子里裝著免子和雞,一共有20個頭,45只腳,請問免子和雞各有多少只?
這個問題其實是無解的。日前,三言在測試另一款大模型時,對方給出了錯誤的答案。


DeepSeek-V3則是先通過設方程,解出兔子的數量為2.5只,雞的數量為17.5只。
然后又指出,動物的數量應該是整數,這表明題目中給出的數據可能有誤,或者問題本身存在矛盾。
2、9.11和9.9哪個數字大?
這個問題曾讓一眾大模型打臉。
DeepSeek-V3給出了正確的答案。

3、蒸一個包子需要5分鐘,蒸10個包子需要幾分鐘?
這個問題也曾讓某大模型出糗,該大模型不知道包子可以同時蒸,得出了需要50分鐘的錯誤答案。
DeepSeek-V3也給出了正確答案。

4、為什么爸媽結婚沒叫我參加婚禮?
這個問題DeepSeek-V3分析給出了四種原因。

5、麻辣螺絲釘怎么做?
日前,三言測試另一款大模型時,這個問題也讓它翻車了。該大模型一本正經的給出了做法。
而DeepSeek-V3指出了螺絲釘不能食用,并給出了“麻辣螺螄”的做法。

從回答這些問題來看,DeepSeek-V3的能力確實還不錯。
據悉,DeepSeek還被稱為“AI界拼多多”。
這源于今年5月,DeepSeek V2開源模型發布,將推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
當時,DeepSeek就被冠以“AI界拼多多”之稱。
據悉,這背后是DeepSeek提出了一種嶄新的MLA架構,把顯存占用降到了過去最常用的MHA架構的5%-13%,同時,DeepSeek獨創的DeepSeekMoESparse結構,也把計算量大幅降低。
這也是DeepSeek的過人之處。
不過,從這次刷屏的媒體文章來看,標題中充斥著“震驚全球”、“AI界拼多多”等標簽。不知道是媒體的一貫做法,還是有意這么標簽化定位。
并且,“震驚體”在AI界實在是太常見了。好多大模型發布時,都“震驚”過。但是“震驚”過后,很快就褪去熱度。
羅福莉能力到底如何?
從電子專業轉到計算機專業
第一年對編程沒有任何認知
從連python都不會,4個月就投了論文
8篇ACL論文有2篇是一作
公開信息顯示,羅福莉本科就讀于北京師范大學計算機專業,碩士(保研)畢業于北京大學計算語言學研究所,研二時在自然語言處理領域頂級會議ACL 2019上發表8篇論文,其中兩篇為一作。畢業后,羅福莉加入阿里達摩院機器智能實驗室。期間,她主導開發的多語言預訓練模型VECO,被納入阿里達摩院深度語言模型體系AliceMind。此外,她還主導了AliceMind的開源工作。
2022年,羅福莉離開阿里,在DeepSeek擔任深度學習研究員,參與了DeepSeek的MoE大模型DeepSeek-V2的開發。
羅福莉的百度百科已經更新為小米AI實驗室負責人,盡管上了兩天熱搜和刷屏,小米方面卻遲遲未回應天才少女加盟的事。
從“羅福莉”詞條的編輯歷史來看,12月28日才有了該詞條,并且是由多位不同的網友編輯而來。

據悉,羅福莉在ACL 2019上發表8篇論文一事曾登上知乎熱搜。

當時,羅福莉在知乎發文回應稱,當年ACL她投了一長一短,然后都中了,其他paper都只是部分參與了實驗室同學的research。
羅福莉還表示,其朋友圈不乏ACL中了兩篇一作長文的人。其次,這次投稿ACL paper是其近一年的產出,所以她為自己是付出了足夠的努力的,當然也可能也有運氣成分加持。
2021年6月,羅福莉曾在其公眾號的一篇文章中寫道:“這一年我收獲了人生中大多數人認識我的標簽——8篇頂會文章(并非全一作),并因此被網友‘掛’上了知乎,‘榮獲’(被黑)什么天才AI美少女蘿莉的稱號。”
之后,羅福莉還曾在其公眾號的文章中透露過自己的保研經歷。
羅福莉稱,自己的保研經歷跟一般保研完全不同,她是在三月份就積極聯系各個學校的導師,發郵件給他們,附加簡歷,介紹我自己(包括績點和個人做過的項目經歷以及科研成果),然后詢問老師是否有保研名額,并且表示自己可以去實習。
此外,羅福莉還曾在訪談視頻中透露,她并非本來就是計算機專業的,而是電子專業。一次偶然的機會,她轉到了計算機專業。

羅福莉稱,她在計算機專業第一年對編程沒有任何認知,別人三分鐘解出來的課題,她要花三個小時。
但她的進步也是相當快的。

羅福莉稱,她大三的時候就開始聯系北大各個方向的老師,去他們組內實習,她從連python都不會的一個人,4個月以后就投了自然語言處理頂會論文。
她還曾表示,論聰明程度來說,她應該是中下水平的。自己平時做事很傻,丟三落四,經常出門忘帶鑰匙、走迷路、坐過電梯等等。
值得一提的是,羅福莉的訪談視頻,都是達某院拍的。

從以上內容來看,羅福莉可能并沒有那么神乎其神。
她自己也證實,所謂的8篇ACL論文,有6篇是部分參與。
雖然網絡上有一些羅福莉往日的相關信息,但在小米挖角之前,羅福莉確實沒什么名氣。
三言以“羅福莉”為關鍵詞搜索百度資訊,相關內容只有兩頁,發布最早的是10天前。

如今突然刷屏,不知道算不算是營銷行為。從其轉專業第一年不熟悉編程,后來就成績名列前茅,不會python,4個月就投了論文來看,確實是天才。
今年的天才少女“有點多”
這次的天才少女羅福莉也有不同尋常的經歷,相信她有相應的實力。小米也應該盡快回應,到底加入沒加入。
在此之前,文生視頻大模型Pika發布時,其開發團隊創始人之一的郭文景也被稱為“天才少女”。
但也是很快,Pika和郭文景就沒了聲音。
這次的“天才少女”,還疊加了“Deepseek”和“雷軍”兩個buff,至于這兩個buff有沒有額外的屬性加成,還需要讓子彈飛一會兒。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司