為什么復旦MOSS大模型的中文水平不如英文？

澎湃新聞記者邵文

2023-02-21 10:33

來源：澎湃新聞

? 未來2% >

·“數據質量的差別是主要瓶頸之一。相較于英文數據，中文數據的開源程度較低，導致中文數據集的規模相對較小。此外，英文作為科研主流語言，在學術界和工業界中得到廣泛應用，積累了大量高質量的語料數據，這為英文自然語言處理的研究提供了極大的優勢。”

2月20日晚間，復旦大學邱錫鵬教授團隊發布國內首個類ChatGPT模型MOSS，引發各界人士參與內測的熱情。一個顯著的反饋是，MOSS的英文回答水平比中文高，這在公眾與ChatGPT的互動中也有類似體現。為何如此？

位于深圳的粵港澳大灣區數字經濟研究院（IDEA）認知計算與自然語言中心文本生成算法團隊負責人王昊對澎湃科技（www.kxwhcb.com）表示，“數據質量的差別是主要瓶頸之一。相較于英文數據，中文數據的開源程度較低，導致中文數據集的規模相對較小。此外，英文作為科研主流語言，在學術界和工業界中得到廣泛應用，積累了大量高質量的語料數據，這為英文自然語言處理的研究提供了極大的優勢。”

MOSS研究團隊也坦承，“MOSS的英文回答水平比中文高，因為它的模型基座學習了3000多億個英文單詞，中文詞語只學了約300億個。”

王昊認為，對于中文來說，高質量無監督語料和指令數據尤其嚴重不足。因此，中文自然語言處理領域需要更多的投入和努力來積累高質量的數據，并將其開源，以促進中文自然語言處理的發展。

清華大學計算機科學與技術系長聘副教授、聆心智能創始人黃民烈曾制定了全球首個《AI對話系統分級定義》，他在接受澎湃科技（www.kxwhcb.com）采訪時表示，“從數據和應用的角度來說，中國的科技企業目前來看有比較大的優勢。從數據角度來說，國內其實是產出了大量數據的，而數據的準確性和可靠性如果能夠提上去，對于模型的學習和生成來說都會幫助很大。”

“而國內的應用場景和市場其實是更加廣闊的，在新聞、廣告、教育等領域，而應用市場越廣帶來的優質數據也會越多，這樣其實是能夠實現雙飛輪的運轉，從而加速AIGC領域的成長。”黃民烈接著說道。

2月20日晚，MOSS發布至公開平臺（https://moss.fastnlp.top/），邀公眾參與內測。當晚，社交媒體上出現截圖，顯示該平臺“服務器流量過載，請明天上午重試”。隨后，該平臺官網發布一則公告，解釋稱“計算資源不足以支持如此大的訪問量”，“給大家造成非常不好的體驗和第一印象”，并致以真誠的歉意。

復旦MOSS團隊回應體驗“非常不好”：距離ChatGPT還有很長的路。

在公告中，MOSS研究團隊稱，“MOSS只是想在百億規模參數上探索和驗證ChatGPT的技術路線，并且實現各種對話能力。”

那么AI對話技術發展到今天經過了哪些關鍵節點，當下的“技術路線”又是什么？

黃民烈解答道，回顧早期聊天機器人的對話，大部分都是基于規則的，第二代在技術上混合了一些規則和機器學習的方法。到了第三代，就是以Transformer為基本架構的大模型作為技術底座，實際上還是在一個新的神經網絡架構下，結合大量的數據和算力優化去做到的，所以技術上有了顯著的一些進步。由于對話本身就是在語言處理中最重要也是最難的任務，也就是最近一兩年，才因為大模型的發展使得聊天機器人在性能上有接近人類的表現。

復旦大學計算機科學技術學院教授邱錫鵬此前在接受澎湃新聞采訪時表示，“GPT-3的In-context learning是一個我覺得有變革性的范式。不再需要調參，給一些提示，就可以去做任務了。這個目前雖然說質量并沒有調參的好，但也能達到一個不錯的效果，這個會讓大模型看起來更加智能。”

什么是In-context learning（上下文學習）？“以前的方式是基于模型參數調整的，比如說要識別貓，然后看模型能不能檢測到貓的位置。如果標的不對，再通過誤差反過來去調整參數，使得預測和正確位置對應起來。上下文學習則是圈出來貓的位置，然后再給它一張另外的圖片，問它貓在哪里？它就能夠正確圈出來。這個任務它之前沒有見過，但是通過這樣的方式就學會了。”邱錫鵬講解道。

調參極耗費人力和時間成本，尤其是GPT-3這樣的超大模型。碳同化系統Carbontracker估計，訓練GPT-3一次所需的電量與丹麥126戶家庭每年使用的電量相同。而In-context learning可以讓一個未經進一步調參的預訓練大模型，通過給其恰當的demonstration（示例）學會完成目標任務。

黃民烈也提到上下文理解技術。“ChatGPT最大的特點是通用任務助理，也就是在一個模型之內可以完成如此之多的開放任務，同時它在生成任務、上下文理解、安全倫理方面也有相當好的表現。”總結而言，黃民烈認為，這里面的技術突破是一個技術、工程、數據的綜合性工程創新，是一個長期積累從量變到質變的過程。比如從GPT-3到代碼，到加instruct，到RL，以及數據和模型之間的飛輪，造成了這些質變。