▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

胡堅(jiān)波:人工智能大模型的發(fā)展需要“數(shù)據(jù)糧食”,特別是高質(zhì)量數(shù)據(jù)集

2025-04-18 18:37
來(lái)源:澎湃新聞·澎湃號(hào)·政務(wù)
字號(hào)

胡堅(jiān)波:人工智能大模型的發(fā)展需要“數(shù)據(jù)糧食”,特別是高質(zhì)量數(shù)據(jù)集

改革創(chuàng)新

★★★★★

隨著DeepSeek R1系列模型的發(fā)布,國(guó)內(nèi)掀起新一輪人工智能的熱潮,通信、互聯(lián)網(wǎng)、汽車、能源、金融、醫(yī)療、科技等龍頭企業(yè)紛紛宣布接入DeepSeek,人工智能大模型加速向各行各業(yè)滲透。人工智能大模型的發(fā)展需要“數(shù)據(jù)糧食”,特別是高質(zhì)量數(shù)據(jù)集。高質(zhì)量數(shù)據(jù)集是人工智能大模型訓(xùn)練、推理和驗(yàn)證的關(guān)鍵基礎(chǔ),是按照特定標(biāo)準(zhǔn),經(jīng)過(guò)采集、清洗、歸類和標(biāo)注等智能化處理,具有相應(yīng)更新和維護(hù)機(jī)制的數(shù)據(jù)集合。

一、建設(shè)人工智能高質(zhì)量數(shù)據(jù)集的重大意義

高質(zhì)量數(shù)據(jù)集建設(shè)有利于推進(jìn)“人工智能+”行動(dòng)落地見(jiàn)效,對(duì)數(shù)字經(jīng)濟(jì)乃至整個(gè)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展具有重大意義。

一是高質(zhì)量數(shù)據(jù)集建設(shè)是人工智能發(fā)展的客觀需要。人工智能大模型對(duì)數(shù)據(jù)集提出了新要求,數(shù)據(jù)集的質(zhì)量影響人工智能的智商。高質(zhì)量數(shù)據(jù)集是人工智能真正的“護(hù)城河”,人工智能大模型的訓(xùn)練和推理高度依賴高質(zhì)量數(shù)據(jù)集的供給。谷歌研究發(fā)現(xiàn),對(duì)于圖像生成模型,當(dāng)計(jì)算資源受限時(shí),數(shù)據(jù)集大小比模型大小更加重要。紐約大學(xué)的一項(xiàng)研究表明,大型語(yǔ)言模型在使用醫(yī)學(xué)數(shù)據(jù)訓(xùn)練過(guò)程中,即使含有0.001%的錯(cuò)誤信息,也可能導(dǎo)致模型輸出不準(zhǔn)確的醫(yī)學(xué)答案。

二是高質(zhì)量數(shù)據(jù)集建設(shè)是促進(jìn)我國(guó)行業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵舉措。通過(guò)開(kāi)放公共數(shù)據(jù)和促進(jìn)企業(yè)數(shù)據(jù)流通,可以提升垂直領(lǐng)域人工智能大模型的能力,促進(jìn)傳統(tǒng)行業(yè)數(shù)字化轉(zhuǎn)型升級(jí)。例如,“蘇州絲綢紋樣數(shù)據(jù)集”匯聚了222件等級(jí)文物和7012片近現(xiàn)代絲綢樣本的高清數(shù)據(jù),形成了3個(gè)具有較高水平的高清采集紋樣數(shù)據(jù)子集,并依托市場(chǎng)化機(jī)制,在絲綢紡織、網(wǎng)絡(luò)游戲、汽車、美妝、銀行、貴金屬等領(lǐng)域累計(jì)授權(quán)使用31批次,賦能蘇州絲綢文化傳承、文旅消費(fèi)和數(shù)字創(chuàng)新。

三是高質(zhì)量數(shù)據(jù)集建設(shè)是促進(jìn)各地?cái)?shù)字經(jīng)濟(jì)發(fā)展的重要抓手。近兩年,為促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展,國(guó)內(nèi)不同地區(qū)陸續(xù)推出各類“大模型+數(shù)據(jù)集+算力”一體化創(chuàng)新基地。例如,上海徐匯區(qū)的“模速空間”、北京石景山區(qū)的大模型“超級(jí)工廠”、濟(jì)南市的“大模型創(chuàng)新工廠”、呼和浩特市的大模型訓(xùn)練基地等,為大模型訓(xùn)練推理提供了重要支撐,助力地方招商引資發(fā)展數(shù)字經(jīng)濟(jì)。

二、建設(shè)人工智能高質(zhì)量數(shù)據(jù)集的目標(biāo)和策略

人工智能正從以模型為中心,逐步轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。高質(zhì)量數(shù)據(jù)集的重要性正成為社會(huì)各界的共識(shí),大模型發(fā)展進(jìn)入多模態(tài)融合階段,應(yīng)全面打造大規(guī)模、多模態(tài)、多領(lǐng)域的高質(zhì)量數(shù)據(jù)集,建立人工智能發(fā)展新范式。建設(shè)人工智能高質(zhì)量數(shù)據(jù)集應(yīng)采用如下策略:

首先,堅(jiān)持場(chǎng)景化推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè)。當(dāng)前,人工智能應(yīng)用持續(xù)走深向?qū)崳卺t(yī)療、教育、零售、金融、制造、能源等領(lǐng)域?qū)崿F(xiàn)了初步應(yīng)用。建設(shè)高質(zhì)量數(shù)據(jù)集不能盲目跟風(fēng)、重復(fù)建設(shè),不能僅限于將公共數(shù)據(jù)簡(jiǎn)單開(kāi)放,應(yīng)以終為始,從醫(yī)療、教育等重點(diǎn)行業(yè)入手,優(yōu)先突破人工智能應(yīng)用最迫切、最容易產(chǎn)生效果、最影響行業(yè)高質(zhì)量發(fā)展的數(shù)據(jù)集建設(shè)。

其次,堅(jiān)持體系化牽引高質(zhì)量數(shù)據(jù)集建設(shè)。高質(zhì)量數(shù)據(jù)分布在各行各業(yè),離散性強(qiáng),需要更好發(fā)揮政府作用,把行業(yè)企業(yè)、模型企業(yè)、數(shù)據(jù)企業(yè)、數(shù)字化解決方案提供商、數(shù)據(jù)交易機(jī)構(gòu)等多方主體組織起來(lái),打造數(shù)據(jù)、模型、算力等協(xié)調(diào)聯(lián)動(dòng)生態(tài)體系,探索新模式。

再次,堅(jiān)持多元化促進(jìn)大中小企業(yè)融通創(chuàng)新。在建設(shè)高質(zhì)量數(shù)據(jù)集過(guò)程中,需要加強(qiáng)引導(dǎo)技術(shù)能力強(qiáng)、行業(yè)影響力高、產(chǎn)業(yè)鏈資源整合能力強(qiáng)的企業(yè),依托行業(yè)領(lǐng)域應(yīng)用,多渠道吸納、聚合相關(guān)數(shù)據(jù)。強(qiáng)化中小企業(yè)產(chǎn)業(yè)鏈和生態(tài)系統(tǒng)意識(shí),主動(dòng)融入大企業(yè)、大項(xiàng)目,發(fā)揮出“船小好調(diào)頭”、創(chuàng)新干勁足的優(yōu)勢(shì),不斷對(duì)數(shù)據(jù)進(jìn)行深加工,形成本行業(yè)、本領(lǐng)域的高質(zhì)量數(shù)據(jù)集。

最后,堅(jiān)持安全合規(guī)為高質(zhì)量數(shù)據(jù)集建設(shè)保駕護(hù)航。高質(zhì)量數(shù)據(jù)集建設(shè)工程涵蓋數(shù)據(jù)采集、預(yù)處理、標(biāo)注、合成、質(zhì)量評(píng)估、開(kāi)放共享等全生命周期,不僅需要保證數(shù)據(jù)的數(shù)量、質(zhì)量和多樣性,更要確保數(shù)據(jù)來(lái)源的合法性、合規(guī)性和產(chǎn)權(quán)保護(hù)等,降低數(shù)據(jù)使用中的風(fēng)險(xiǎn)。

三、從六個(gè)方面推動(dòng)人工智能高質(zhì)量數(shù)據(jù)集建設(shè)

高質(zhì)量數(shù)據(jù)集是決定人工智能大模型性能優(yōu)劣的關(guān)鍵所在。為全力打造人工智能高質(zhì)量數(shù)據(jù)集,推動(dòng)大模型應(yīng)用邁向新高度,建議從高質(zhì)量數(shù)據(jù)集圖譜構(gòu)建、政策法規(guī)保障、建設(shè)指引制定、評(píng)測(cè)體系建設(shè)、跨域合作拓展、標(biāo)桿牽引示范等方面著手,推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè)邁上新臺(tái)階。

一是以服務(wù)大模型應(yīng)用為核心,繪制高質(zhì)量數(shù)據(jù)集建設(shè)圖譜,明確“建什么”。圍繞應(yīng)用需求牽引、典型場(chǎng)景切入、行業(yè)領(lǐng)域賦能、安全風(fēng)險(xiǎn)可控等維度,調(diào)動(dòng)政、產(chǎn)、學(xué)、研、用各方力量,梳理高質(zhì)量數(shù)據(jù)集典型場(chǎng)景和應(yīng)用需求等,繪制高質(zhì)量數(shù)據(jù)集建設(shè)圖譜,實(shí)現(xiàn)可查詢、可下載、可應(yīng)用,全面助力大規(guī)模、多模態(tài)的高質(zhì)量數(shù)據(jù)集建設(shè)。

二是以保障數(shù)據(jù)集建設(shè)為目標(biāo),協(xié)同推進(jìn)政策法規(guī)的制定與完善,確定“依據(jù)在哪”。在政策層面,推動(dòng)各部門出臺(tái)針對(duì)性政策,強(qiáng)化高質(zhì)量數(shù)據(jù)集供給。鼓勵(lì)企業(yè)積極參與高質(zhì)量數(shù)據(jù)集建設(shè),對(duì)在數(shù)據(jù)采集、清洗、標(biāo)注等環(huán)節(jié)投入較大的企業(yè)給予政策支持,降低企業(yè)建設(shè)數(shù)據(jù)集的成本。在法規(guī)層面,需加快明確數(shù)據(jù)權(quán)屬問(wèn)題,界定數(shù)據(jù)生產(chǎn)者、持有者、使用者和經(jīng)營(yíng)者的權(quán)利與義務(wù),保障數(shù)據(jù)在合法合規(guī)的框架內(nèi)流通與使用,為高質(zhì)量數(shù)據(jù)集建設(shè)營(yíng)造良好的政策法規(guī)環(huán)境,促進(jìn)整個(gè)行業(yè)的健康可持續(xù)發(fā)展。

三是以解決現(xiàn)實(shí)問(wèn)題為導(dǎo)向,制定高質(zhì)量數(shù)據(jù)集建設(shè)指引,指明“怎么建”。組織跨行業(yè)交流,分享高質(zhì)量數(shù)據(jù)集建設(shè)經(jīng)驗(yàn)及面臨的問(wèn)題,總結(jié)建設(shè)方法論和問(wèn)題庫(kù)。針對(duì)問(wèn)題庫(kù),以“揭榜掛帥”方式征集解決方案。在廣泛調(diào)研和總結(jié)基礎(chǔ)上,制定發(fā)布高質(zhì)量數(shù)據(jù)集建設(shè)指引,不斷優(yōu)化建設(shè)方案和路徑。發(fā)揮人工智能技術(shù)優(yōu)勢(shì),對(duì)大量文本、圖像、音頻等數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注和分類,批量構(gòu)建高質(zhì)量數(shù)據(jù)集。

四是以推動(dòng)標(biāo)準(zhǔn)建設(shè)為牽引,打造高質(zhì)量數(shù)據(jù)集評(píng)測(cè)體系,指導(dǎo)“怎么評(píng)”。一方面,通過(guò)對(duì)高質(zhì)量數(shù)據(jù)集的格式規(guī)范、類型、質(zhì)量要求等方面的研究,開(kāi)展系列標(biāo)準(zhǔn)的研制及細(xì)化,為各行業(yè)領(lǐng)域在數(shù)據(jù)采集、標(biāo)注、加工治理、應(yīng)用推廣等提供標(biāo)準(zhǔn)化規(guī)范指引。另一方面,構(gòu)建涵蓋細(xì)分行業(yè)的高質(zhì)量數(shù)據(jù)集質(zhì)量評(píng)測(cè)方法、評(píng)測(cè)工具集。通過(guò)規(guī)范化的高質(zhì)量數(shù)據(jù)集評(píng)測(cè)工具,客觀地評(píng)判數(shù)據(jù)集的質(zhì)量等級(jí)和價(jià)值曲線,結(jié)合應(yīng)用需求不斷進(jìn)行迭代升級(jí)。

五是以探索跨域合作為重點(diǎn),建立高質(zhì)量數(shù)據(jù)集流通利用新機(jī)制,闡明“怎么流通”。依托可信數(shù)據(jù)空間、數(shù)場(chǎng)、數(shù)聯(lián)網(wǎng)、數(shù)據(jù)元件等實(shí)踐方案,推動(dòng)醫(yī)療、交通、氣象、社保等多領(lǐng)域高質(zhì)量數(shù)據(jù)集在安全合規(guī)框架內(nèi)有序流動(dòng),注重建設(shè)跨部門、跨行業(yè)、跨地區(qū)高質(zhì)量數(shù)據(jù)集。運(yùn)用區(qū)塊鏈、隱私保護(hù)計(jì)算等技術(shù)實(shí)現(xiàn)數(shù)據(jù)集的可溯源與安全保護(hù),促進(jìn)跨域數(shù)據(jù)集交易流通,形成典型案例,催生新應(yīng)用、新模式,釋放數(shù)據(jù)要素乘數(shù)效應(yīng)。

六是以行業(yè)標(biāo)桿示范為牽引,發(fā)揮資金“風(fēng)向標(biāo)”作用,解決“用什么引導(dǎo)”。組織開(kāi)展行業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù)集征集工作,鼓勵(lì)各行業(yè)、各地區(qū)的企業(yè)積極參與,形成各類高質(zhì)量數(shù)據(jù)集庫(kù),提高整體供給水平、供給規(guī)模。鼓勵(lì)各類資金支持高質(zhì)量數(shù)據(jù)集建設(shè),持續(xù)完善建設(shè)機(jī)制,積極推廣典型案例,全面助力人工智能賦能行業(yè)高質(zhì)量發(fā)展。

【胡堅(jiān)波:長(zhǎng)安街讀書會(huì)成員、國(guó)家數(shù)據(jù)發(fā)展研究院院長(zhǎng)】

注:授權(quán)發(fā)布,本文已擇優(yōu)收錄至“長(zhǎng)安街讀書會(huì)”理論學(xué)習(xí)平臺(tái)(“學(xué)習(xí)強(qiáng)國(guó)”學(xué)習(xí)平臺(tái)、人民日?qǐng)?bào)、人民政協(xié)報(bào)、北京日?qǐng)?bào)、重慶日?qǐng)?bào)、新華網(wǎng)、央視頻、全國(guó)黨媒信息公共平臺(tái)、視界、北京時(shí)間、澎湃政務(wù)、鳳凰新聞客戶端“長(zhǎng)安街讀書會(huì)”專欄同步),轉(zhuǎn)載須統(tǒng)一注明“長(zhǎng)安街讀書會(huì)”理論學(xué)習(xí)平臺(tái)出處和作者。

責(zé)編:鄧啟東;初審:陳佳妮、許雪靖;復(fù)審:李雨凡、程子茜

原標(biāo)題:《「改革創(chuàng)新」胡堅(jiān)波:人工智能大模型的發(fā)展需要“數(shù)據(jù)糧食”,特別是高質(zhì)量數(shù)據(jù)集》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            主站蜘蛛池模板: 盐津县| 建瓯市| 延边| 察隅县| 泸水县| 旬邑县| 佛坪县| 甘孜县| 永和县| 竹北市| 荔浦县| 玉树县| 无锡市| 九寨沟县| 闸北区| 苏尼特右旗| 梅河口市| 洪泽县| 宜兴市| 桦川县| 贺兰县| 上蔡县| 南汇区| 罗江县| 洛川县| 青铜峡市| 龙州县| 德格县| 和硕县| 南木林县| 蓝山县| 醴陵市| 分宜县| 乐安县| 曲阳县| 太康县| 溆浦县| 澄江县| 全州县| 商河县| 福州市|