▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

多語言語料庫“萬卷·絲路”發布,AI賦能共建“一帶一路”

澎湃新聞記者 賈利略
2025-01-10 08:48
來源:澎湃新聞
? 科學湃 >
字號

1月9日,上海人工智能實驗室(上海AI實驗室)聯合大模型語料數據聯盟成員發布了“萬卷·絲路”多語言預訓練語料庫,為多語言大模型訓練提供高質量數據支撐。

隨著共建“一帶一路”進入高質量發展新階段,科技創新與合作將在其中發揮更關鍵的作用。上海AI實驗室通過研發先進數據智能技術,提供多語言語料庫等舉措,探索以人工智能賦能高質量共建“一帶一路”。

“萬卷·絲路”首期開源了包含泰、俄、阿、韓、越等五個語種的語料,總規模超1.2TB(單語種均超過150GB),Token總數超過300B,涵蓋使用上述語種國家地區的生活、百科、文化、新聞等七大領域數據。

數據是人工智能重要的基礎設施,數據質量是決定人工智能應用能力的關鍵因素之一。作為綜合性文本語料庫,“萬卷·絲路”采集了多個國家地區的網絡公開信息、文獻、專利等資料,數據總規模超1.2TB,Token總數超過300B(300 billion),處于國際領先水平。首期開源的語料庫主要由泰語、俄語、阿拉伯語、韓語和越南語5個子集構成,每個子集的數據規模均超過150GB。

基于“書生·浦語”智能標簽分類體系,研究團隊將每個語料子集細分為7個大類和32個小類,覆蓋歷史、政治、文化、房產、購物、天氣、餐飲、百科、專業知識等多類具有語言所在地特征內容,便于研究者根據具體需求檢索數據,并可適應不同研究領域多樣化需求。

“萬卷·絲路”語料庫子集分類(共計7個大類、32個小類,圖表中僅展示了部分標簽)

“萬卷·絲路”語料庫通過專家人工標注,確立了包含七個維度的文本數據質量評估體系,從完整性、有效性、可理解性、流暢性、相關性、相似性和安全性等方面保障數據的高標準與高質量。

通過使用基于大語言模型的數據質量評估開源工具——Dingo(https://github.com/DataEval/dingo),研究團隊從多維度對“萬卷·絲路”的數據質量進行了全面評估。結果表明,其五個子集均獲得優異的綜合評分。

大模型語料數據聯盟由上海人工智能實驗室聯合中央廣播電視總臺、人民網、國家氣象中心、中國科學技術信息研究所、上海報業集團、上海文廣集團等10家單位聯合發起。

    責任編輯:吳躍偉
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 临沧市| 鄂尔多斯市| 思南县| 石门县| 绥棱县| 肇庆市| 九寨沟县| 永济市| 萝北县| 巴林左旗| 富源县| 淮阳县| 额尔古纳市| 斗六市| 定州市| 龙山县| 恭城| 湘乡市| 顺义区| 京山县| 河北区| 卢氏县| 小金县| 满城县| 阿合奇县| 大庆市| 嘉兴市| 烟台市| 荥阳市| 蕉岭县| 沅江市| 沂南县| 安远县| 上蔡县| 绥芬河市| 云和县| 唐海县| 海阳市| 扶沟县| 虞城县| 兴国县|