- +1
第五要素|大模型時代,數據治理與AI相互依存形成閉環
·大模型和數據治理是一個閉環,不斷迭代,兩者互相依存。目前沒有比大模型更加高效的數據分析和挖掘方法。反之,數據治理工作結束后,可以將這些更好更多的數據喂給大模型。
·“我們經常講‘人與數據’的概念,即所有的數據都是人產生的,所有的問題也是人造成的,如果不把人的關系理順,數據是管理不好的。所以這個挑戰是之前的挑戰、現在的挑戰,也是未來的挑戰。”
【編者按】數據,是繼土地、勞動力、資本、技術四大生產要素之后的第五大生產要素,中國政府已提出要加快培育數據要素市場。隨著人工智能技術的飛速發展,大模型的開發更離不開高質量的數據支持。在此背景下,澎湃科技(www.kxwhcb.com)推出“第五要素——上海市數據科學重點實驗室數據要素產業化系列報道”,關注由上海市數據科學重點實驗室策劃的數據要素產業化系列論壇。第一期數據治理論壇主要聚焦數據治理的最新動態和前沿趨勢,探索數據治理的規則與邊界。

數據要素產業化系列論壇第一期“數據治理論壇”現場。
“我們在進行數據治理的過程中,遇到了兩個挑戰:第一,數據多而分散,質量參差不齊,數據治理難度大;第二,不同粒度的數據難以有效融合,行業知識和中觀數據(即行業、部門數據)價值被低估。”10月8日,在數據要素產業化系列論壇第一期“數據治理論壇”主旨演講環節中,螞蟻集團網商銀行算法專家潘巖分享了網商銀行在數據治理過程中遇到的挑戰。
光明食品集團數據治理高級經理雷曉川則從自己的經驗出發總結稱,數據治理單純依靠技術無法解決,其中管理和溝通占據70%以上的工作,特別是傳統行業大型集團型企業,IT系統差異大,業務和組織復雜度高,需要數據治理人員加倍耐心與各層級各條線溝通,深入理解業務,以布道者和服務者的姿態逐步推進數據治理的深入。
香港科技大學潘奧托工程學教授及計算機科學與工程講座教授周曉方在其主旨演講中指出:“AI大模型能夠賦能數據質量管理。雖然大模型本質上是一個統計模型,很容易產生不穩定性,數據庫要求可控和可解釋,但這個矛盾可以通過知識圖譜和向量數據庫來緩解。”
中國人民大學數據工程與知識工程教育部重點實驗室教授范舉則提到:“數據融合與清洗是數據有效利用全流程中的核心任務之一,也是未來大模型(LLM)可以賦能的一個重要領域。”數據融合與清洗是指將多源多模態數據整合為統一的數據視圖,并發現與修復數據中可能的錯誤(如數據不一致、缺失值等),從而提升數據的整體質量,更好地釋放數據的價值。
上海市數據科學重點實驗室主任、復旦大學教授肖仰華隨后主持圓桌環節,專家學者和企業家更為深入地討論了數據治理當前面臨的挑戰,如何應對這些挑戰,以及大模型在其中可能發揮的作用。
以下為圓桌實錄,有部分刪減。
肖仰華:在數字經濟和大模型快速發展的背景下,數據治理新的挑戰有哪些?
阿里數據流通與治理平臺算法總監及負責人劉洪:在我和我的團隊以及業界的一些朋友交流后,我可能更悲觀地認為,數據治理還是非常傳統。為什么傳統?因為不重視,而不重視的原因是我們對數據治理的認知是有問題的,大家還是把數據治理等同于傳統的數據清洗。在這樣的認知下,在公司里除非被迫,如老板要求服務器成本必須降,才會有人去做這件事。這就變成了一種硬性指標,缺乏原生的驅動力,而是被動去干“臟話累活”。如果把數據治理等價于臟活累活,那這個領域怎么可能有很好的發展呢?
兩年前我們在思考,未來的數據治理應該是什么樣的。我們當時就提出來數據治理要安全合規、清晰透明,公平多樣、高質高效,這四個最為根本。于是你會發現,任何一個領域只要抓到最根本的這四點,它永遠都有很強的技術力,因為它有很多問題需要解決。當你把這個事情想清楚,數據治理就不可能是一種很低價值的事情。
螞蟻集團網商銀行算法專家潘巖:我非常認同劉老師的觀點。實際上我在具體項目里也發現,比如老板給一個項目且要求今天做完,那么你一定不會想先去做數據,首先想到的是先做出一個能上線的模型。所以對數據的不重視是數據治理的一個最大問題。另外,可能也是有心無力,尤其是大企業,其歷史發展時間太長,以往的一些代碼產生的問題數據沒辦法丟掉,只能在其錯誤數據基礎上不停迭代,但其實應該是有辦法做好數據治理的。
蜜度科技微熱點研究院副院長王昉:目前對企業來說,數據很多情況下都是封閉的,存儲在自身企業數據庫中,只服務于目標客戶。但如果數據開源化,企業會面對更多的數據,數據的流轉速度也會更快,所以在數據的安全性和合規性方面都有更高的要求。比如我們在加入大模型語料數據聯盟(今年7月,上海人工智能實驗室等單位在世界人工智能大會開幕式上聯合發起的中國大模型語料數據聯盟宣布成立)時,第一批計劃發布的開源文本數據集“蜜巢·花粉1.0”準備了超過1億條數據,但出于在安全性、合規性上更謹慎的考慮,經過層層篩選審核,最終只發布了7000多萬條。此外在考慮數據開放時的一個新的挑戰是有需要前瞻性判斷,比如有些單點數據看上去沒有什么敏感性,但如果將批量數據結合起來看,如政務數據,按照時間軸去看可能會透露一些重要的信息,國外現在有很多開源情報機構會利用這些數據專門研究其他國家的政策或長期走勢。所以我們在開放數據的時候需要提前做出判斷。
StartDT(奇點云)合伙人、資深戰略咨詢專家何夕:數據治理可以分四個層級來看,第一層是戰略問題,第二層是結構問題,第三層是機制問題,最后才是技術問題。
首先是戰略問題。現在大部分公司其實是以物質生產為基礎,即公司的所有框架都以物質生產消費為基礎,比如車企基本就是研發、制造、流通、銷售。互聯網公司構建的體系是以數據生產和消費為基礎,比如字節跳動的整個商業模式以算法為中心,從設計算法,收集數據,迭代算法,最終產出業績,從而將數據生成和消費提升到戰略級部署。目前當很多企業的戰略開始從以商品為中心轉到以客戶為中心時,其面對的第一個戰略問題即——要采集什么數據,要產出什么樣的結果。
第二層是結構問題,及業務、技術和組織的匹配性問題。在企業,如果不能讓業務成績變成可衡量的內容,不管治理得多好,企業也很難認可你的工作。所以在企業,大部分數據治理的項目都是以給高管做駕駛艙為開端,這是一個可見的、典型的代表。其次技術上存在一個碎片化供給和碎片化消費的問題。供給需求,即在對接系統時,比如SAP(企業管理解決方案的軟件),每一家企業存在的問題都不一樣,前端對接數據源時也可能千奇百怪。因為在中國有很多標準,所以很難對接數據,每一家都有各種談判和商務性的問題。
第三層是機制問題,即建立什么樣的標準和流程,用什么方式去實施管理動作的問題;第四層是技術問題,即平臺需要具備什么樣的功能,需要在平臺上沉淀。基本上數據治理的復雜性就在于層層都有問題,層層都要解決,任何一層解決不好都會導致最后沒有產出。目前國內數據治理做的不好還是因為“不夠痛”,第一是數據量太少,根據以往經驗,一般公司只要數據用起來,數據的增長速度在一年漲一倍、兩年漲三倍、三年漲七到九倍的范圍。一旦數據開始增長,會出現存儲費用高的問題,這時企業會意識到必須要做治理、降成本、做運維。另外,數據治理還有一大挑戰,是任期問題,即數據治理工作能否被長期堅持。
蘭迪律師事務所高級合伙人、蘭迪數字經濟團隊牽頭人丁學明:首先和大家分享3個數據:30萬、1億、10億,去年7月,上海疫情解封后的第一個月,上海數據交易所的交易額是30萬人民幣,截至去年年底上海數據交易所一整年的數據交易額是1億人民幣,今年(2023)上海數據交易所的交易額目標是10億。
我們律所作為上海數據交易所的合規服務商,參與部分數據產品掛牌的合規審核服務,在我看來,從法律角度也存在一些阻礙數據市場要素發揮作用的瓶頸,下面我給大家簡單匯報一下。
第一類,企業數據的合規流通利用,即企業運營過程中產生的數據。這些數據如果做合規性檢查,只需判斷有沒有核心數據和重要數據,如果沒有這樣的數據就可以進行交易,因此來說,企業數據的流通利用法律障礙相對較少。但法律上的障礙少并不代表企業的交易意愿高,大部分企業不愿意交易自己的數據。仔細研究在上海數據交易所里完成交易數據的主體,他們大部分交易的不是自己的數據,而是自己的能力。因為目前企業最大的顧慮在于,數據是其核心競爭力的一個表現,如果將核心競爭力拿出來交易,它們就失去了競爭力,本質上是擔心目前的交易環境無法保證數據交易后的安全。
第二類是個人數據的合規流通利用。個人數據在很多行業具有較大價值,例如在廣告行業、金融行業,個人數據可以用來精準營銷,也能精準風控,比如任何一家貸款應用程序(App)都會根據個人數據進行額度設定。但我個人理解我們現有的個人信息保護法是不鼓勵個人數據的交易,為什么這么說?這涉及個人數據對外提供或者共享的合規要求。個人信息處理者如果收集個人信息并要將這些數據傳輸給另外一家合作企業,需要得到平臺用戶的同意,但在實際的應用場景中,如果要和多個公司做交易,改變生意伙伴,就需要平臺用戶頻繁授權,這對用戶體驗很不好。更重要的是,很多個人信息無法很便捷地接觸到授權場景,比如醫院,醫院刷卡的設備是無法彈窗提示要求授權的。
第三類是公共數據或政務數據合規流通利用,有調查顯示,對整個數據交易市場來說,接近80%的優質數據在政府手中,這些優質數據才是市場上數據需求型企業特別想要的數據,但直到目前為止政務數據的開放存在兩個問題。第一是立法的問題,即有沒有一個上位法(按照法的效力位階可分為三類,即上位法、下位法和同位法)來規定公共數據或政務數據的開放規則或者授權運營規則,只有部分省市在小范圍的試點,但目前沒有看到明顯的效果。第二是提供方式上,很多人期望政務數據在保護個人隱私和確保公共安全的前提下直接開放原始數據,這樣才能刺激對數據的創新利用。而不是以模型、核驗結果等產品和服務等形式向社會提供。但目前主流的觀點是,公共數據或政務數據要確保“原始數據不出域、數據可用不可見”。所以政府數據到底應該怎么用,有沒有一個廣泛接受的標準,目前還沒有明確。
全球數據要素50人論壇專家、DAMA數據管理專家馬歡:我覺得數據治理的挑戰不是新形勢下才出現的,而是一直以來都存在的。雖然數據治理經常會被認為有點基礎,但其實治理這個詞本身是個非常高級的詞。治理和管理這兩個詞在國內外都有層次上的差異。治理本身屬于管理的一部分,但我們現在把治理這個詞用得太頻繁且用錯了語義,把一些基層管理數據的工作也叫做治理。所以聽的人也云里霧里,好像數據治理工作感覺很高級,但實際做的事情又很基礎。所以我覺得是對治理這個概念沒有理解清楚,首先我們需要把這個詞的概念扭轉過來才能更名正言順地談論這件事。
第二,治理這個詞本身關注的是人,具體的數據怎么管是在此基礎上再考慮的事情。我們經常講“人與數據”的概念,即所有的數據都是人產生的,所有的問題也是人造成的,如果不把人的關系理順,數據是管理不好的。所以這個挑戰是之前的挑戰、現在的挑戰,也是未來的挑戰。
另外,剛才提到互聯網公司的成本治理,為什么他們會做這樣的成本治理,因為其存儲的數據多、各種備份多,磁盤量大,如果數據用的次數多了,成本就會翻倍,所以要求降低成本,這個屬于業務上的驅動。當真的有這樣業務上的驅動時,才是真的在做數據治理。如果沒有業務驅動,大家只是在耍花槍打花架子,有業務驅動了,需要降本增效的業務要求,才真的是治理和業務并行。這也是我們強調的一個理念,數據治理不是單獨的一件事情。
上海市數據科學重點實驗室知識工場執行副主任,復旦大學計算機科學技術學院研究員、博士生導師李直旭:在高校做數據治理研究需要注意兩方面的問題。第一是高校本身沒有真實的數據和場景。如果高校真正要做關于數據治理方面的研究,并且將研究成果落地,需要和企業合作,了解相關的業務以及內部的邏輯。如果單純從研究層面說,目前很多高校的數據治理研究可能還停留在基于公開數據集的學術探索層面,但是企業的很多實際問題是在開源環境下并不容易解決的,更多的解決方案要在閉源環境下進行。所以,當前高校的數據治理還要和企業進行更深度的合作。
第二是數據治理人才的培養體系。數據治理其實是一個很綜合的問題,涉及到技術、管理、經濟、法律等一系列學科知識,但是高校各個學科的培養體系是獨立的。目前高校也在提倡交叉培養、交叉融合,而數據治理這個方向本身也值得做一個交叉方向,為企業未來輸送更多的數據治理綜合性人才。
肖仰華:數據治理難在其是系統工程,涉及企業的方方面面,包括技術、組織、戰略、結構。目前以ChatGPT為首的大模型席卷一切,似乎給數據治理的相關研究帶來了一些希望。ChatGPT能夠發現數據中存在的隱私、合規等問題。那么人工智能和數據治理深度結合的過程中有哪些機遇和挑戰?
劉洪:目前雖然GPT-4(OpenAI研發的大語言模型)的表現已經驚艷世界,但它還有很多能力沒有被解鎖。大家雖然都知道大模型其實就是一種編碼器,把世界的知識編碼到一個信息體中,但如果想把如此龐大的東西釋放出來,實際上我們也不完全知道怎么去解碼,所以才出現各種指令微調、示例學習等方法。但很奇怪的一件事是,大家更多專注在怎么建大模型,卻很少聊怎么去用,或者說怎么解碼、利用這些大模型的能力,我認為這是一個有問題的地方。甚至大家會覺得用一些方法從大模型里得到一些非常好的prompt(提示詞)從而對模型效果帶來極大的提升,這樣的工作只是一種trick(雕蟲小技),這種觀念我覺得是有問題的。大模型做出來就是這么一個信息體,并不需要滿世界的人都去做大模型,就應該百花齊放地讓大家從中解碼出不一樣的東西,比如生成prompt用于自己的下游應用,生成更高質量的示例等。
所以我覺得首先第一個觀念的轉變是從編碼到解碼。目前學術界也開始從大模型的建設轉向大模型的應用或解碼方面,我覺得這樣會發現更多有價值、可以直接應用的內容。因為哪怕能做出一個千億萬億參數的大模型,對一個小公司來說,把這個方法傳給它,它也是做不起來的,但 “如何從GPT-4中解碼出你想要的東西”這個問題的答案對它的幫助遠大于前者。可是現在學術界聊這個問題的場景不多,但這個東西對企業的價值又是極大的。
第二個轉變是我們現在做多模態大模型時發現數據并不是越多越好。比如我們做的文生圖大模型,第一個階段大概花了將近3個月的時間,除了15天的大模型運作時間,其他時間我們都是在做數據。之前可能覺得只要數據有圖片有文本就灌進去,但這次我們在思考到底什么應該喂進去,什么不該喂給大模型,我們不希望“一顆老鼠屎壞了一鍋粥”。所以什么不該喂進去是很重要的,而且是很難的。剛開始我們不知道數據不能全灌進去,大模型是有不該吃的東西的,也不知道大模型需要什么樣的數據。但到底哪些數據是大模型不需要的,這不是一個技術問題,這涉及到法律、倫理、合規等方面,所以我們要在語料層面定義出大模型不該要的數據類型。并不是說圖片喂給大模型越多越好,因為有些圖片是不好的,只會讓大模型畫出不好的東西。為了解決這個問題,我們要在數據治理層面找到好的數據,強化好的數據。我覺得現在大模型對數據治理是一個比曾經KPI(關鍵績效指標)更有力的推動力,因為不做數據治理大模型的效果可能就不會好,這是一種內生的驅動。另外我想強調一下,數據治理真的要發展,恰恰應該是要從高校設立一個學科開始。
潘巖:在實踐中我們發現大模型可以產出一些讓人驚喜的東西,比如一些認知或超過你認知的一些觀點,但是對于客戶來說它還是不足的。所以我理解如果用大模型服務數據治理,關鍵在于能不能讓大模型理解我們自己的客戶。因為企業數據是在企業自己的業務過程中產出的,它包含了這個業務背后的知識和一些約定俗成的東西,這些大模型未必能夠理解。所以我覺得大模型其實在世界知識需求較多的任務上表現較好,但在一些領域知識需求較多的任務上表現較差,這也是為什么我們要做一些額外工作。但這也涉及到另外一個問題,我們在做領域內的監督微調時,本身也涉及到數據配比、數據治理這些問題,所以這像是一個循環。其實在大模型出現之前,吳恩達(斯坦福大學教授)也提出過一個概念“DCAI”,即以數據為中心的人工智能,他的視角不是研發一個很牛的模型架構,而是從數據出發找到模型的問題,或者研究一些樣本的配比。我覺得這和現在的情況有些異曲同工的地方,可以結合起來看,可能是未來的一個方向。
李直旭:首先,大模型是最典型的以數據為中心的人工智能系統。從GPT-1到GPT-4在基本預訓練技術層面并沒有特別大的變化,但是數據類型和數據量卻顯著劇增。所以大模型是一個以數據為中心的人工智能思想的集大成者。其次,大模型和數據治理是一個閉環,是一個不斷迭代的過程。目前沒有比大模型更加高效的數據分析和挖掘方法,雖然大模型現在有缺陷,但是通過不斷提供更高質量的數據,可以讓大模型成為行業專家,更好地幫助人去理解行業數據,做好行業數據的治理。反之,數據治理工作結束后,可以將這些更好更多的數據喂給大模型。所以人工智能和數據治理是互相依存的關系。
肖仰華:數據治理不是簡單的技術問題,和各種生產要素、法律法規、標準制定、社會責任、國際合作、跨境流通等都有關聯。如何理解數據價值,以及制度設計和數據治理的關系?
王昉:企業更關心數據價值。我們最開始提供給用戶的標準化服務是SaaS(軟件運營服務)服務和人工報告服務,數據會作為基礎來輔助報告生成和圖表分析。目前越來越多的政企客戶需要非常精準的數據,所以需要我們對數據進行處理再提供給客戶。比如一些政府機構的數據無法公開,當我們把一些開源數據推給他們后,他們會結合自己的數據進行整合,然后放在服務器上形成一個綜合的數據中臺,這樣就可以為實際應用場景做一些更落地的服務,比如指揮大屏、數據流轉平臺等。這對于數據治理的要求也會更高,比如有些單位需要其轄區內的數據,但“轄區”的定義很廣泛,是數據源屬于轄區、事件屬于轄區,還是微博定位轄區,所以這對數據治理的精準度有更高的要求。
何夕:關于數據價值有兩個維度,第一是算成本,在企業內部來說,數據治理被認為“臟亂差”是因為產出不可見,無法算清楚投入和產出。當然這個產出不僅僅是經濟性的產出,現在不管是學界還是業界都沒辦法把這個問題解決得很好,我們在實踐中做的比較多的是建立一套質量指標和健康度指標,通過治理前后的對比,成熟度的提升,讓數據治理效果可見化。目前數據治理做的比較好的企業都有一個分析師團隊,專門負責把數據平臺里的所有元素做分析,看整個平臺可改進的空間在哪里,分析投入產出比。
第二,數據有個很重要的特性——沒有用之前不知道它有沒有用,這需要一個小的使用過程即POC(概念驗證,是對某些想法較短而不完整的實現,以證明其可行性)。但目前存在一個問題,公共交易背景下,誰來出POC的費用?這涉及到很多投入問題,同樣也涉及到數據治理問題。比如有些企業在做數據變現時,它的治理維度并不是其客戶所需要的維度,需要另一個方式的治理,但問題在于這個治理的費用由誰出,而這些公共投入又難以算清楚。
馬歡:在ChatGPT剛開放時,我做了一個小實驗,問了它一個很小眾的問題,一開始它給的答案其實不是我想要的,我就跟它說它說的不對,然后再問它的時候它給的就是我要的答案了。所以當大模型這樣一個東西出現時,如果我們在使用它的時候沒有一個規范,就會像一些物品既能用作藥品也能是毒品一樣。如果沒有制度規范、沒有AI版權法之類的規范,那么大模型可能是人類毀滅的一個征兆,所以我覺得最先要做的事情是制度設計。
本期數據治理論壇由上海市數據科學重點實驗室、中國數據管理協會(DAMA China)主辦,澳汰爾工程軟件(上海)有限公司、澎湃新聞以及DataFun社區提供支持。出品人分別為上海市數據科學重點實驗室知識工場執行副主任、復旦大學青年研究員李直旭,全球數據要素50人論壇專家、DAMA數據管理專家馬歡,上海市數據科學重點實驗室主任、復旦大學教授肖仰華。






- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司