海天瑞聲擬定增募資不超7.9億元，用于AI大模型訓練數據集等項目

澎湃新聞記者周玲

2023-06-21 22:03

來源：澎湃新聞

? 10%公司 >

海天瑞聲視覺中國資料圖

ChatGPT概念股海天瑞聲通過定增為大模型項目募資。

6月21日，北京海天瑞聲科技股份有限公司（海天瑞聲，688787）公告稱，擬定增募資不超過7.9億元，用于AI大模型訓練數據集建設項目、數據生產垂直大模型研發項目。其中，AI大模型訓練數據集建設項目投資為3.83億元，數據生產垂直大模型研發項目投資為4.06億元。

海天瑞聲稱，AI大模型訓練數據集建設項目的實施主體為北京海天瑞聲科技股份有限公司及/或下屬子公司。鑒于大模型訓練數據通常具備數據規模大、數據質量高、數據類型豐富等特點，本項目擬建設AI大模型訓練數據集，即生產用于通用型、及各種垂直領域大模型訓練的海量、高品質數據集。項目建成后，將提供可供大模型訓練和評測的不少于10個品類的專業數據集，顯著提升行業內面向大模型訓練數據集的類別和質量，實現基于大模型通用能力和垂直領域數據的訓練學習。

公告稱，本項目的數據集產品具體可分為三大類：第一，通用及特定垂直領域的大語言模型訓練數據集，包括但不限于：中文大模型預訓練語料數據集（含通用場景、特定場景、對話場景、指令集等）；多語言大模型預訓練語料數據集(含通用場景、對話場景、指令集等)。第二，多模態大模型訓練數據集；可應用于多語言圖文大模型訓練、多模態數字人訓練、多語種語音大模型訓練、全場景自動駕駛大模型訓練等場景的跨模態數據集。第三，大模型評測數據集：可應用于大模型的能力、任務、指標等方面的評測。

募資第二個項目為數據生產垂直大模型研發項目。海天瑞聲表示，本項目建設目標為通過大模型基礎研究，研發海天瑞聲數據生產垂直大模型，并以海天瑞聲數據生產垂直大模型為核心，升級海天瑞聲一體化技術支撐平臺。

海天瑞聲表示，為應對大模型時代下數據規模量極大、復雜性和多樣性高，數據服務規則設計難度指數級提升等諸多問題，且為更高效高質完成數據規則的規模化生產，公司將采用全棧自研的數據生產垂直大模型技術，輔助完成面向多個下游任務的數據設計與處理規則。同時，為更好實現數據生產垂直大模型的生成能力，公司將研發并引入多項新興技術，夯實數據生產垂直大模型構建的基礎。

海天瑞聲主要從事AI訓練數據的研發設計、生產及銷售業務。公司通過設計數據集結構、組織數據采集、對取得的原料數據進行加工，最終形成可供AI算法模型訓練使用的專業數據集，通過軟件形式向客戶交付。海天瑞聲表示，公司將基于過往的數據服務經驗，結合行業前沿需求，積極拓展大模型訓練數據服務領域，力爭將大模型訓練數據等創新業務打造成為具有潛在高增長價值的新型業務板塊。

海天瑞聲2023年第一季度實現營收2882萬元，同比下降39.81%；歸母凈利潤虧損1362萬元，同比下降244.27%；扣非凈利潤虧損1705萬元。基本每股收益-0.32元。海天瑞聲2022年財年實現營收2.63億元，同比增長27.32%；歸屬于上市公司股東的凈利潤2945.41萬元，同比下降6.81%，毛利率64.73%。基本每股收益0.69元。

21日收盤，海天瑞聲報收115.00元/股，跌8.72%，目前海天瑞聲股價較年內高點已經腰斬，年內漲幅超92%，

責任編輯：王杰

圖片編輯：蔣立冬

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#海天瑞聲 #大模型 #數據集