- +1
數(shù)據(jù)短缺阻礙AI一體機(jī)落地,專家提出數(shù)據(jù)元件治理新路徑
數(shù)據(jù)是人工智能的燃料和動(dòng)力,人工智能競(jìng)爭(zhēng)在某種意義上進(jìn)入了“數(shù)據(jù)決勝”階段,誰(shuí)擁有數(shù)據(jù)誰(shuí)就占領(lǐng)高地。但當(dāng)前人工智能發(fā)展面臨數(shù)據(jù)挑戰(zhàn),如訓(xùn)練數(shù)據(jù)枯竭、質(zhì)量參差不齊、隱私安全難保障、數(shù)據(jù)確權(quán)和計(jì)量難等問(wèn)題。在4月17日舉行的第三屆數(shù)字化發(fā)展大會(huì)暨數(shù)字經(jīng)濟(jì)高峰論壇上,CCF(中國(guó)計(jì)算機(jī)學(xué)會(huì))數(shù)據(jù)發(fā)展委員會(huì)主任陸志鵬對(duì)外介紹了其所在團(tuán)隊(duì)正在開(kāi)發(fā)的新的數(shù)據(jù)解決方案,即基于數(shù)據(jù)元件的數(shù)據(jù)治理方式。

中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)發(fā)展委員會(huì)主任陸志鵬。
陸志鵬稱,今年DeepSeek爆火,讓模型平權(quán),人工智能走進(jìn)企業(yè)、走向社會(huì)。市場(chǎng)上推出了一批DeepSeek一體機(jī),一些企業(yè)以為把DeepSeek模型部署到服務(wù)器上就是一體機(jī),就可以開(kāi)箱即用,結(jié)果客戶采購(gòu)后發(fā)現(xiàn)并沒(méi)有達(dá)到說(shuō)明書(shū)上的效果,從而引起法律糾紛。
如何部署有價(jià)值的大模型?其中數(shù)據(jù)起著重要作用。高質(zhì)量數(shù)據(jù)集是人工智能模型訓(xùn)練的關(guān)鍵支撐,但構(gòu)建過(guò)程復(fù)雜。目前很多數(shù)據(jù)集的構(gòu)建集中在大模型公司,而大模型公司往往基于自己的大模型構(gòu)建數(shù)據(jù)集,導(dǎo)致數(shù)據(jù)集通用性不足,不同數(shù)據(jù)集之間的架構(gòu)和標(biāo)準(zhǔn)也不同,構(gòu)建高質(zhì)量數(shù)據(jù)集缺乏統(tǒng)一衡量標(biāo)準(zhǔn)。領(lǐng)域數(shù)據(jù)集生成涉及的數(shù)據(jù)海量且龐雜,需要高效的數(shù)據(jù)存儲(chǔ)解決方案和強(qiáng)大的計(jì)算資源來(lái)支撐數(shù)據(jù)的存儲(chǔ)、治理和生成。
目前隨著數(shù)據(jù)的重要性被強(qiáng)調(diào),數(shù)據(jù)共享反而出現(xiàn)了倒退。2024年,用于模型訓(xùn)練的數(shù)據(jù)中,60%是合成數(shù)據(jù),數(shù)據(jù)質(zhì)量影響大模型開(kāi)發(fā)效率,因此要確保合成數(shù)據(jù)的可靠性、安全性、精確性。
如何解決數(shù)據(jù)難題?陸志鵬談到了基于數(shù)據(jù)元件的數(shù)據(jù)治理方式。“數(shù)據(jù)元件”是通過(guò)對(duì)數(shù)據(jù)脫敏處理后,根據(jù)需要由若干相關(guān)字段形成的數(shù)據(jù)集或由數(shù)據(jù)的關(guān)聯(lián)字段通過(guò)建模形成的數(shù)據(jù)特征。數(shù)據(jù)元件同隱私計(jì)算、區(qū)塊鏈、數(shù)聯(lián)網(wǎng)、數(shù)據(jù)空間等被確立為國(guó)家數(shù)據(jù)基礎(chǔ)建設(shè)的主要技術(shù)路線。陸志鵬表示,數(shù)據(jù)元件不是原始數(shù)據(jù),而是數(shù)據(jù)的初級(jí)產(chǎn)品,具有安全屬性、價(jià)值屬性、品質(zhì)屬性,可解決數(shù)據(jù)確權(quán)、估值、定價(jià)、安全、隱私問(wèn)題,及數(shù)據(jù)質(zhì)量和處理效率問(wèn)題。數(shù)據(jù)元件在實(shí)現(xiàn)數(shù)據(jù)風(fēng)險(xiǎn)隔離和安全管控的同時(shí),提升數(shù)據(jù)價(jià)值密度,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的產(chǎn)品化流通和規(guī)模化應(yīng)用。
陸志鵬表示,其所在的團(tuán)隊(duì)通過(guò)梳理包括場(chǎng)景需求分析和數(shù)據(jù)資源調(diào)查、數(shù)據(jù)歸集和治理、領(lǐng)域高質(zhì)量數(shù)據(jù)集構(gòu)建、領(lǐng)域知識(shí)庫(kù)構(gòu)建、模型微調(diào)和訓(xùn)練、模型應(yīng)用等六大高質(zhì)量數(shù)據(jù)構(gòu)建的業(yè)務(wù)邏輯,最終形成一體機(jī)解決方案,落地經(jīng)過(guò)部署和場(chǎng)景化微調(diào),模型答題邏輯和流暢性提升。此外,基于數(shù)據(jù)元件的數(shù)據(jù)治理打消了企業(yè)部門(mén)間不愿共享數(shù)據(jù)的顧慮,打破了數(shù)據(jù)孤島,支持企業(yè)數(shù)字化轉(zhuǎn)型。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司