- +1
把紙質(zhì)家譜做成數(shù)據(jù)中臺(tái),原來是這樣的體驗(yàn)
機(jī)器之心報(bào)道
機(jī)器之心編輯部
從數(shù)據(jù)采集、數(shù)據(jù)治理,再到知識(shí)挖掘與推理,一個(gè)家譜數(shù)據(jù)中臺(tái)到底是怎樣煉成的?
說起「數(shù)據(jù)中臺(tái)」,很多人都不會(huì)感到陌生。但究竟如何定義「數(shù)據(jù)中臺(tái)」?也許就會(huì)難倒一大批人了。
「數(shù)據(jù)中臺(tái)」是近年來比較火熱的一個(gè)技術(shù)概念,最早源于國內(nèi)的科技公司。簡單來說,就是
利用數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、計(jì)算、加工、統(tǒng)一表示,形成標(biāo)準(zhǔn)后的數(shù)據(jù) API,進(jìn)而提高數(shù)據(jù)的共享能力。
目前數(shù)據(jù)中臺(tái)的建設(shè)尚處于起步階段, 還沒有統(tǒng)一的數(shù)據(jù)中臺(tái)建設(shè)標(biāo)準(zhǔn)、規(guī)范以及評(píng)價(jià)指標(biāo),且沒有統(tǒng)一規(guī)范的定義,其英文譯法也多種多樣:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但這些名字都不能很好地體現(xiàn)其數(shù)據(jù)共享和數(shù)據(jù)價(jià)值最大化的實(shí)質(zhì)。

數(shù)據(jù)中臺(tái)將一個(gè)機(jī)構(gòu) (企業(yè)、事業(yè)、或政府部門) 的數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進(jìn)行管理,是從數(shù)據(jù)收集到處理應(yīng)用的一套管理機(jī)制, 以期提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)廣泛的數(shù)據(jù)共享,最終實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化。數(shù)據(jù)中臺(tái)建設(shè)覆蓋數(shù)據(jù)的邏輯管理和物理管理, 邏輯管理包括數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)和數(shù)據(jù)之間相關(guān)性的分析, 如數(shù)據(jù)倉庫; 物理管理包括數(shù)據(jù)的存儲(chǔ)和檢索。
此外,以華譜系統(tǒng)為例,這篇文章整體介紹了關(guān)于「數(shù)據(jù)中臺(tái)」的定義、功能模塊、關(guān)鍵技術(shù)、挑戰(zhàn)問題以及相應(yīng)的解決方案。研究者利用知識(shí)圖譜構(gòu)建和推理技術(shù),從海量家譜數(shù)據(jù)采集、匯聚開始,在數(shù)據(jù)治理、數(shù)據(jù)開發(fā)、數(shù)據(jù)資產(chǎn)管理等模塊建設(shè)過程中輔以 「HI」 (人類智能)、 「AI」 (人工智能) 和 「OI」 (組織智能) 三者的交互和協(xié)同,創(chuàng)建了一個(gè)標(biāo)準(zhǔn)、可復(fù)用的家譜數(shù)據(jù)中臺(tái)架構(gòu)。

下圖展示了華譜數(shù)據(jù)中臺(tái)的架構(gòu) Huapu-CP,我們以該架構(gòu)為例,來分析一下家譜數(shù)據(jù)中臺(tái)系統(tǒng)核心模塊的主要技術(shù)以及要解決的問題。

具體而言,Huapu-CP 數(shù)據(jù)中臺(tái)架構(gòu)特點(diǎn)可分為三個(gè)層面:
1) 基于數(shù)據(jù)的邏輯管理和物理管理,建設(shè)了家譜領(lǐng)域數(shù)據(jù)管理體系,提高數(shù)據(jù)服務(wù)效率,加速數(shù)據(jù)價(jià)值變現(xiàn)過程,打破了信息之間的屏障。
2) 基于 HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能體系,采用數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗等數(shù)據(jù)治理技術(shù)形成了包括家譜人物數(shù)據(jù)、人物關(guān)聯(lián)數(shù)據(jù)、社交數(shù)據(jù)、日志數(shù)據(jù)等的數(shù)據(jù)體系,更好地賦能于華譜系統(tǒng)前臺(tái)業(yè)務(wù)。
3) 融合知識(shí)圖譜技術(shù),以家譜知識(shí)圖譜作為數(shù)據(jù)中臺(tái)架構(gòu)的數(shù)據(jù)底座,從業(yè)務(wù)的角度組織數(shù)據(jù)。完成傳統(tǒng)數(shù)據(jù)模式無法支持的節(jié)點(diǎn)關(guān)聯(lián)分析、社區(qū)發(fā)現(xiàn)、用戶推薦等復(fù)雜計(jì)算和挖掘任務(wù)。
數(shù)據(jù)的物理管理
首先,從數(shù)據(jù)的物理管理層面看,Huapu-CP 選擇了圖數(shù)據(jù)庫集群的方式,將數(shù)據(jù)分布存儲(chǔ)到多個(gè)機(jī)器上,并進(jìn)行實(shí)時(shí)同步,以保障數(shù)據(jù)的安全性、一致性及性能的可擴(kuò)展性。如圖 2 所示:

針對(duì)圖數(shù)據(jù)規(guī)模較大、圖數(shù)據(jù)分析與挖掘耗時(shí)較長的問題,通過對(duì)大數(shù)據(jù)計(jì)算算法和框架的對(duì)比研究,華譜系統(tǒng)采用 Spark 分布式計(jì)算框架,在上層應(yīng)用 (如子圖模式查詢、同名人物識(shí)別) 中,利用圖劃分算法將原始的圖數(shù)據(jù)拆分為多個(gè)子圖,基于分布式計(jì)算并行處理,以節(jié)省整體計(jì)算時(shí)間、 提高計(jì)算效率。
Huapu-CP 的數(shù)據(jù)采集方式包含 4 種,其數(shù)據(jù)采集架構(gòu)如下圖所示:

數(shù)據(jù)的邏輯管理:HAO 智能體系
在數(shù)據(jù)的邏輯管理階段,華譜系統(tǒng)將知識(shí)圖譜技術(shù)、專家智能、組織智能等技術(shù)融入數(shù)據(jù)表示、數(shù)據(jù)治理等子模塊中,協(xié)調(diào)邏輯管理整個(gè)流程。

Huapu-CP 利用 HAO 數(shù)據(jù)治理構(gòu)架進(jìn)行數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成等數(shù)據(jù)治理工作。

數(shù)據(jù)安全和隱私保護(hù)
除此之外,家譜數(shù)據(jù)和家譜服務(wù)需要一系列資產(chǎn)管理和用戶關(guān)系管理算法支撐,Huapu-CP 已形成較為完善的算法開發(fā)體系。在數(shù)據(jù)安全和隱私保護(hù)上,Huapu-CP 架構(gòu)也從用戶權(quán)限管理和應(yīng)用權(quán)限管理兩個(gè)層面進(jìn)行了設(shè)置。
針對(duì)用戶權(quán)限管理,Huapu-CP 架構(gòu)中提出了基于圖數(shù)據(jù)庫的 「粗細(xì)粒度結(jié)合」的權(quán)限管理方法,并提出了基于 HAO 模型的權(quán)限管理閉環(huán)架構(gòu)。


如上圖所示,基于 HAO 模型的用戶權(quán)限管理閉環(huán)架構(gòu)的主要流程為: 由領(lǐng)域?qū)<?(HI) 和組織智能 (OI) 設(shè)計(jì)用戶的權(quán)限體系, 由人類專家 (HI) 審核后在權(quán)限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供權(quán)限調(diào)整方面的反饋, 并再由 HI 或 OI 審核、優(yōu)化 。其中, 為了實(shí)現(xiàn)閉環(huán)權(quán)限控制,系統(tǒng)應(yīng)實(shí)時(shí)地采集、存儲(chǔ)用戶行為數(shù)據(jù)和用戶操作數(shù)據(jù),并設(shè)計(jì)智能的日志分析算法。
針對(duì)應(yīng)用權(quán)限管理,研究者通過設(shè)置應(yīng)用讀取數(shù)據(jù)的權(quán)限,避免惡意修改讀取數(shù)據(jù)程序而導(dǎo)致的數(shù)據(jù)泄露問題; 同時(shí),加入 HAO 模型實(shí)現(xiàn)應(yīng)用權(quán)限管理的閉環(huán),便于應(yīng)用的改進(jìn)和升級(jí)。
在 Huapu-CP 架構(gòu)中,開發(fā)新應(yīng)用的權(quán)限管理流程如下: 首先,由于每個(gè)應(yīng)用只需部分?jǐn)?shù)據(jù)的讀取權(quán)限,為了系統(tǒng)中數(shù)據(jù)資產(chǎn)的安全性與隱私性, 應(yīng)限制數(shù)據(jù)訪問權(quán)限為該應(yīng)用所需的最小集合。因此,「HI」與 「OI」可基于該應(yīng)用的實(shí)際需求設(shè)計(jì)該應(yīng)用所具備的最大權(quán)限集合。其次,由于應(yīng)用的需求可能存在變化, 該應(yīng)用交付使用后可針對(duì)用戶行為數(shù)據(jù)分析或用戶反饋數(shù)據(jù)分析 (AI) 得出該應(yīng)用改進(jìn)方向和內(nèi)容, 反饋至專家 (HI) 和組織 (OI) 重新設(shè)計(jì)應(yīng)用權(quán)限, 形成權(quán)限管理的閉環(huán)。
Huapu-CP(https://www.zhonghuapu.com/)對(duì)數(shù)據(jù)中臺(tái)建設(shè)進(jìn)行了一個(gè)成功的嘗試,目前已有千萬級(jí)數(shù)據(jù)節(jié)點(diǎn),能提供秒級(jí)數(shù)據(jù)服務(wù)。但數(shù)據(jù)中臺(tái)技術(shù)尚處于起步階段,還面臨著技術(shù)不成熟、框架驗(yàn)證標(biāo)準(zhǔn)不一、技術(shù)人員缺乏等困難和挑戰(zhàn)。新一代的數(shù)據(jù)中臺(tái)技術(shù),在融合數(shù)據(jù)的基礎(chǔ)上,更需要關(guān)心是否能夠很好地沉淀行業(yè)知識(shí)。研究者表示,知識(shí)圖譜技術(shù)相對(duì)于傳統(tǒng)的二維表使用圖描述實(shí)體與關(guān)系,其復(fù)雜的圖結(jié)構(gòu)更有利于探索數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系和獲取知識(shí)。
本文為機(jī)器之心報(bào)道,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。
?------------------------------------------------
加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
原標(biāo)題:《把紙質(zhì)家譜做成數(shù)據(jù)中臺(tái),原來是這樣的體驗(yàn)》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司