北大研發大規模中國古代可視化數據集

2025-03-14 15:27

來源：澎湃新聞·澎湃號·湃客

原創可視分析可視分析

近日，北京大學智能學院袁曉如課題組在中國古籍內容的智能探索方面開展跨學科合作探索取得重要進展。研究通過智能自動分類機制，從大量中國古籍中提取可視化圖像，建立大規模中國古代可視化集合，系統揭示中國古代通過圖形進行知識表示的發展歷程，補充完善了可視化學術發展史中的中國部分的空缺。該研究工作近日被領域國際旗艦會議ACM CHI 2025 接受。

可視化通過把各種數據轉化為可交互的圖形圖像，幫助人理解認識數據內涵，洞察規律，做出決策。人類通過圖像的方式記錄描繪事物由來已久，在計算機發明前，可視化的圖表也屢見于各種書籍中。人們就會很自然地提問，當前大家熟悉的各種可視化，是在什么時候出現的？在中華文明發展的歷史上，是否還有一些不為今人所知的可視化樣式？抱著這種好奇心，北京大學袁曉如課題組聯合校內智能學院、中國古代史研究中心和牛津大學等機構，系統開展了中國古代可視化發展歷史的研究工作。目前已經完成一個包含71,294幅中國古代早期可視化作品的大規模圖像數據集《纂圖集》（如圖1所示）。

圖1 中國古代早期可視化的大規模圖像數據集

課題組首先通過人工收集了來自古籍器物的441項可視化案例，于2023年構建了首個小型中國古代可視化數據集（圖2）。在初步收集后，課題組選定中國古籍作為主要收集方向，通過建立半自動化的收集流程從提供在線接口的各國圖書館所藏中國珍稀古籍收藏電子文檔中提取相關古代可視化圖像（圖3）。目前已經從12,800多種中文古籍中標注提取了近71,300份可視化圖像，以及近108,400份示意插圖。包括此前手動收集案例，全部可視化樣例時間跨度接近2500年。課題組還開發了交互式瀏覽系統（圖1），支持用戶按可視化形式，內容主題，出現時間等多維度過濾檢索相關圖像。

圖2: 小型中國古代可視化數據集（441項）

下圖所示是敦煌文獻中的《三乘入道五位》手書，是唐代人學習佛教經文時繪制的輔助圖表，和今天所用的思維導圖如出一轍。該工作從事實上糾正了目前大部分教材在提到早期可視化時只有英國、法國等歐洲案例的偏差，彌補了研究空白。

圖3: 敦煌文獻中的《三乘入道五位》手書

通過對纂圖集數據的深入分析，可以看到中國歷史早期可視化有不同于現代可視化的特點。例如古代可視化中往往依賴文字用于補充可視化信息，文字直接參與數據編碼（如地圖中文字編碼方位、文字作為圖元、樹狀圖中的節點）。

圖4: 東西分陜圖，《天下山河兩戒考》，當塗徐氏, 清雍正元年

我們的工作有助于學術界了解中國古代可視化的多樣性，為進一步理解分析中國古代可視化的設計空間提供了基礎。研究工作為早期可視化圖像研究提供了重要資源，更通過對數據集內容的系統性分析揭示了中國傳統視覺表達的獨特邏輯與文化內涵，為科技史、藝術史、文獻學等多學科交叉研究提供了平臺。北京大學可視化與可視分析實驗室近年來開展了一系列和古籍相關的工作。2023年與中文系楊海崢教授合作完成了漢籍流傳日本時空可視分析工作（IEEE TVCG/VIS 2023）；2024年結合對比學習方法和可視分析方法的智能古籍目錄標注工作獲IEEE VIS 2024最佳論文提名獎；在對古代可視化案例研究方面，和牛津大學研究者張宇合作了對歐美早期可視化的收集(IEEE TVCG/VIS 2023)和分類(IEEE TVCG/PacifcVis 2025)。近年來計算技術與傳統人文學科研究的融合引發了這一領域的研究范式轉變，為學者們提供了強大的分析工具和方法框架。本次工作也展示了人工智能對于處理大規模圖像這類非結構化數據的潛力。

此次工作學生作者包括北京大學智能學院梅翕堯、楊超凡，研究人員為牛津大學張宇、北京大學中國古代史研究中心史睿、智能學院袁曉如。研究過程中得到了北京大學歷史學系郭津嵩和牛津大學陳敏教授的有益意見。該工作受到國家自然科學基金項目 NSFC 62272012 《樣本驅動的可視化設計空間探索研究》支持。

原標題：《北大研發大規模中國古代可視化數據集》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#可視化 #古籍