下載客戶端

登錄

包弼德談哈佛中國歷代人物數據庫：谷歌學術和中國知網過時了

澎湃新聞特約記者楊松林

2016-01-13 14:48

來源：澎湃新聞

歷史學研究的量化趨勢已經越來越明顯。這種量化趨勢，不僅體現在經濟史、社會史等涉及統計學知識和數據語言的領域中，而且已經滲透進傳統的制度史、軍事史、政治史研究。在這種滲透中，量化史學一方面以其實證性和數據挖掘的大樣本優勢，取得了優勢地位；另一方面，它在定性問題上的局限性和計算機深度學習的未知，受到了不少質疑指摘。

近日，筆者受澎湃新聞“私家歷史”頻道所邀，前往美國哈佛大學的量化社會科學學院，參觀了由哈佛大學費正清中國研究中心和東亞燕京學社運營維護的中國歷代人物傳記資料庫（China Biographical Database，下文簡稱CBDB）辦公室，向負責CBDB的項目經理王宏甦先生，牛津大學博士、CBDB項目博士后徐力恒先生了解數據庫的運營情況，并就相關議題采訪了哈佛大學東亞系包弼徳（Peter K.Bol）教授。

哈佛大學CBDB數據庫日常運營中心辦公室

可視化技術展示歷史人物關系網絡

CBDB數據庫由哈佛大學費正清研究中心、北京大學中國古代史研究中心、臺灣“中研院”史語所合作開發。它以單一人物的生平紀錄為核心，并通過字號、親屬關系、生卒年份等項目，展開個人與其他人物的關系網絡，形成所謂的“關系型”資料庫。雖然CBDB通過個體檢索實現，但這種個體不是獨立存在的，數據庫通過搜索搭建了這些歷史人物之間的關系網絡。正如數據庫負責經理王宏甦先生所言，“我們數據庫展現的人，是群體的人，是大數據系統下的人，而不是每一個單一個人的資料。個體的呈現，通過整個關系網絡實現，體現的也就是‘群體下的個體’。”

這種網絡結構，顯然需要通過可視化展示才能呈現。為此CBDB嘗試了多平臺合作，比如通過和北京大學中國古代史研究中心的合作，借助北大歷史系師生扎實的學術訓練，進行CBDB的文本分析校對檢驗工作。這種合作絕無僅有：借助北大師生的歷史學功底，對數據庫的每一個記錄都進行了歷史學家的考訂，可謂史無前例；另外，CBDB和GIS（地理信息系統）等平臺實現了數據對接，對于CBDB得出的數據，可以借助地理信息系統實現真正的可視化。這種可視化帶來的沖擊，無論是視覺還是范式上，都是相當可觀的。

CBDB數據庫與萬方、中國知網有何不同？

同為歷史檔案資料庫，哈佛大學CBDB數據庫專注于歷史人物傳記的梳理工作。那么，這和大陸的萬方、知網等數據庫相比，具有什么特殊優勢？它為何能比一般全文錄入（或全文掃描）數據庫更易于維護和更新？換句話說，CBDB數據庫最大的特色是什么？

從采訪中得知，CBDB的差異化優勢大致有以下三點：

（1）能識別相同含義的不同詞匯

CBDB最初由哈佛大學教授郝若貝（ Robert M. Hartwell）和其夫人在1970年代建立。其性質和當今大多數歷史數據資料庫相仿，即以全文未分析的形式錄入資料，并通過關鍵詞的方式來進行搜索。這種數據庫最大的弊端在于無法識別許多同一漢語名詞的不同表述。舉一個不成熟的例子，比如在搜索王安石之“母”時，便有可能因為史料某些詞條記載中用了“娘”、“媽”等等其他詞匯而無法顯示出來。因此，對于這些不同文本進行編碼化，避開漢語言文字的多樣化表達，完整呈現史料信息，就是數據庫持續發展的必然趨勢。

而CBDB，正好處于這一趨勢的最前沿。相比于其他數據庫，它的最大優勢，也是對郝若貝版數據庫最大的提升，便在于其實現了文本的編碼化：將一個個單獨的詞條，通過編程的方式，形成了所謂的“關系型”數據庫（relation database）。

關于這一點，王宏甦進行了詳細的闡釋：“別的數據庫是一種純粹的文本展示，我們會對文本進行簡化解讀，把很多意思相同，但中文表達不一樣的詞匯編成同一數據代碼，尤其是對親屬關系的梳理。比如像‘后母’、‘養母’、‘庶母’、‘嫡母’這幾個詞，差異很多，包括‘嫡母’，也可以代表不同的人。我們就需要把整理成同一編碼結構，才能方便閱讀。這些細節，在其他數據庫里我基本沒發現到這一點。”

哈佛CBDB數據庫負責人王宏甦解讀文本的數據編碼問題。

（2）通過多方爭吵、相互攻擊實現創新

除了通過編碼的方式，實現了歷史文本的初步挖掘和分析外，CBDB相比于其他數據庫，還特別看重相互間的不斷攻擊。事實上，在許多軟件開發的大企業里，通常會設置開發組和市場組，前者負責軟件生產和開發工作，而后者主要從事市場調研和用戶體驗反饋工作。好的產品最終得以形成，需要企業的這兩個組別不斷互動和攻擊。市場組根據市場經驗不斷給開發組提意見，開發組也會就自己的開發難度對市場組提出質疑。但只有在這種雙方不斷相互攻擊的前提下，產品才能不斷創新，提升其質量和用戶體驗。

而CBDB顯然吸收了這一經驗，在日常運營維護中，CBDB強調多方爭吵，一方是加州大學爾灣分校的傅君勱（Micheal Fuller）教授帶領的歷史學家、社會學家團隊，第二方是真正在一線做數據的工作人員，第三方就是設計數據架構的設計者。三方會代表各自群體的一個視角進行討論，以達成數據的最優化呈現。王宏甦舉了一個例子：“比如做一個數據表，歷史學家會說，我要加20個表，我這邊就會說加20個表難度太大，做數據結構的就會說我熟悉這個結構，我們可以通過壓縮合并把這20個表縮小到一半不到的規模，滿足雙方的需求。這種良性的爭吵，會使得數據庫不斷在變。”

（3）對量化和質性研究同等看重

CBDB作為純歷史文本領域的數據化和量化嘗試，在政治制度史、軍事史等領域帶來的范式沖擊是前所未有的。這些舊有領域過去強調純粹的質性研究，并不存在數據分析和挖掘的空間。而CBDB帶來的量化的可能，也自然而然出現了非常多以往質性研究中所無法觸及的成果。

徐力恒博士重點提到了文欣的學術成果。在研究中，他創新使用《唐折沖府匯考》和地理信息系統來觀察府兵制下的籍貫分布。按照徐的說法，“文欣僅僅將數據放在地圖上，就已經能直觀地看到了衛士產生和地域、地理環境等變量的相關性。他通過可視化，就打破了原有唐史研究中，認為軍事分布位于長安、洛陽兩個點的說法，發現其實它是在全國呈現三角分布。如果沒有可視化和圖形分析，我們基本很難發現這一結論。”

CBDB數據庫和復旦大學歷史地理信息系統合作，使得文本數據的可視化成為一種可能。

需要注意到，這種創新不應被過度解讀。它并沒有因此得出“量化研究比質性研究更加優越”的結論。事實上，文本挖掘的創新性意義和傳統史學研究并沒有什么差異。因為在史料學研究中，創新點就是能看到別人看不到的東西。而文本挖掘和可視化看到了新的東西，并不代表比前人更加聰明或者厲害，兩者不過各有千秋。

反思：人才缺口和機器思考的局限性

在文本編碼轉化和多方互動的基礎上，CBDB的可持續更新得到了保障，這使得它超過了絕大多數的數據庫，獲得了不斷的生命力。但這是否就真的就預示CBDB在歷史學科研究未來的一片坦途？

并不見得。雖然有著種種令人羨慕的先天優勢和創新思維，但CBDB的發展還存有很多障礙。有些是暫時性的，隨著時間的推移和時代的發展，最終能得到妥善解決；也有一些深層次、更為宏觀的障礙，甚至涉及到整個人工智能、機器學習以及量化研究領域的局限性，需要得到重新認識。

最直觀的障礙是人才。CBDB學科要求橫跨文理，目前進行數據庫正常運營工作的王宏甦和徐力恒都有歷史學科訓練背景且精通編程和數據操作，但像他們這樣具備雙重背景的人才少之又少。徐力恒直言“人才缺口非常大，國內幾乎沒有任何學科專門做歷史學文本的數據化研究。兩種才能兼備的人才太少了”。

但徐力恒認為這不是一個學術范式滯后的問題，“而是超前的問題”。因為歷史文本挖掘，在全球范圍內都是一個全新的學科，遠遠沒有達到成熟的階段。如王宏甦所言，“即使大家都知道，這是歷史學未來發展的趨勢之一；但也正因為其處于史學研究的最前沿，沒有先例可循，所以大家都很難預測這一學科未來的走向。”

既然領先，沒有經驗可考，相關人才出現短暫的缺口也就不難理解。可預計的是，隨著這一學科的逐步成熟和學術界對此重視程度的加深，人才的缺口遲早會得到填補。但另一種障礙，似乎在更為宏觀的層面上，暗示著機器思考的某種先天不足。

機器思考真的是無所不能的嗎？電腦真的就比人腦更好用？

事實上，這一問題早已被廣泛討論。因為它涉及到了人腦和電腦的極限，在大數據時代，人思維固有的局限性在計算機下尤為突出，人們都在思考，人腦在未來，是否會被機器思考所取代？

兩位青年學者對此均表示否定。徐力恒認為，“人力的作用在于深度，而電腦的作用在于廣度。兩者本來就是各有優勢并互補的，我們應該去避免兩者的沖突，盡力將他們的長處都發揮出來。”而王宏甦則舉出一例：“比如有人之前埋怨數據庫中關于鄭和的數據不足，但我們數據庫建立在關系鏈的基礎上，所要展示的是一種廣度，而他要求鄭和個體的數據豐富度，這不是我們數據庫所要提供的，CBDB是一個工具，工具就有局限性，挖掘深度的工作應該交由人力完成，而不應該埋怨一個數據系統。”

雖然機器思考存在固有的弊端，但一定程度上的人工智能是否有可能？未來的CBDB數據庫，是否有望實現自主學習、自主分析數據的功能，甚至最終懂得對數據自主發問，繼續壓縮著質性研究的空間？

王宏甦對此持保留意見，“我不排除這種可能。但，我們需要非常謹慎，計算機在做歷史分析上充滿未知。況且人工智能是為了解決問題，而不是為了制造問題。”

徐力恒的回答則更直接：“這恐怕還不是可能性，而更多是必要性的問題”。在他看來，大量數據堆砌下形成的計算機分析，雖然可能出現少量創新成果，但效率實在太低，根本無法和具備靈活性（reflexibility）的人腦相比。至少在可以預見的將來，對大量歷史數據的計算機自主分析并沒有必要。

為了佐證自己的觀點，王宏甦提到了一個很有意思的反例：“哈佛商學院之前做了一個很有意思的內部測試，就是想去試著在數據庫測試計算機自主提問和自主分析的可能。當然結果是非常荒謬的。你可以看看這個網站的表格，做的是一個無關關系的分析。計算機通過所謂的數據分析，展示兩個沒有關聯的變量間因為變化趨勢相似而放在一起分析的圖，看上去很有道理，比如這張：雞肉的消耗和美國石油進口數量的分析，變化都是一樣的，數據相關性達到了89.99%，但這說明什么問題呢？如果數據全讓計算機來資助提問，就很有可能得雞肉和美國石油進口有關系這樣荒謬的結論了”。

哈佛商學院的荒謬實驗圖

面對CBDB的優勢和局限性，徐力恒給出了自己的總結，“我們還是要認識到定性和定量各自的限制，誰也不能否定誰，同時誰都應該努力去做到相輔相成。因此，CBDB最讓我們自豪的，就是這一點，兩者并重，人文和數位，都在其中發揮了重要作用，這是別的數據庫做不到的，也是我們相信我們數據庫能繼續很好發展最重要的一個原因。”

專訪包弼徳：將中國每一個有史可載的個人都錄入這個系統

對于數據庫和量化史學研究的宏觀解讀，筆者有幸邀請到了哈佛大學東亞系著名的包弼徳教授，為我們在一個更為廣闊的層面認識CBDB數據庫。

哈佛大學在網上公開課網站Coursera的課程《ChinaX》邀請兩名資深教授包弼徳（Peter. K. Bol）和柯偉林(William C Kirby)講授，在全球范圍內引發極大關注。

澎湃新聞：您作為一名研究宋朝思想史的教授，按理說應該更接近傳統人文研究的套路。可從您之前在網絡公開課平臺coursera開設中國歷史課《ChinaX》開始，我就發現您對于互聯網、技術與內容傳播敏感度要超出了絕大多數學者。當然，也是在您的《ChinaX》課上，我第一次知道了CBDB數據庫。我的問題是，您為何對于新技術那么感興趣？這和您的研究有什么關聯？

包弼德：很難說。一開始，當郝若貝先生將他自己的數據庫捐給哈佛大學時，當時我就承擔了維護和升級這一數據庫的義務。但后來，當我看到如此數量龐大的數據庫時，尤其這些數據可以通過空間的方式展現出來時，比如一些歷史上的數據可以通過地理信息系統（GIS）可視化展現，并因此發現很多以往研究無法呈現的要素：比如地質、氣候分布等等對于歷史的影響。要知道，當我們有機會通過大數據來挖掘大多數民眾的歷史時，它會呈現一種和過去局限在“極少數掌控權力的精英群體研究”完全不同的視角。統計學的一個常識就是，大量的數據會比少量數據更有利于回歸分析。所以，我相信這個數據庫會對拓寬我的研究領域有用。

但需要說明的是，這個數據庫并非獨立服務于我的興趣。這是一個對很多研究有參考與引用價值的數據庫，它能發展起來，也不是源于我個人的學術興趣，大家都在努力著。你可以把我對數據庫的工作看成是“基礎設施建設”。（Infrastructure Building）

哈佛大學東亞系終身教授包弼徳先生

澎湃新聞：回到這個CBDB系統本身，您覺得這個系統和其他數據庫相比，最大的優勢在什么地方？

包弼德：很簡單，這個系統是獨一無二的。這個世界上，還沒有第二個歷史數據庫像CBDB一樣獨特。首先，其他數據庫也許會做部分的圖表展示和分析，但大多還是最基礎的全文錄入，比如像Google Scholar, 包括中國的知網，都是全文的基礎上，用關鍵詞搜索的方式來展示，沒有任何進一步解讀和分析，但像CBDB這樣的關系型數據庫，通過對一些變化詞語的編程，使其變得更簡化，也因為這種簡化，CBDB可以很方便地和其他系統互動，比如地理信息系統，從而很快實現可視化的效果。第二，其他的數據庫會有登錄權限，很多文件都是付費的，但CBDB完全免費，所有內容，包括整個數據庫都可以免費下載。我們不以盈利為目的，完全以推動歷史學量化研究這樣純粹的學術目標進行數據庫運營，別的數據庫基本做不到這一點。

CBDB數據庫對所有人免費開放，所有數據都可以免費下載

澎湃新聞：依托于CBDB數據庫，現在有什么最新的成果展示嗎？

包弼德：自然有很多，但我無法一一解答出來。因為對于我們而言，重點在于維護這套系統而不是關注這套系統帶來多少新的成果。但當然，依托于大數據，我們肯定能發現非常多過去無法得出的成果，這不僅僅是數量差異，更多的是維度差別。

澎湃新聞：如此說來，這種維度差別是否說明歷史學研究將要進入一個更加新的維度？或者換句話說，量化研究開始進入政治史、思想史領域，是否說明其將在未來成為歷史學研究的主流？

包弼德：這種說法需要警惕。因為歷史未來的面向是多元的，量化自然是其中一個，但并不是唯一的趨勢。對我而言，量化于歷史學研究的最大意義，在于其豐富了歷史學的研究方法。它作為一種研究工具出現，大大擴展了舊有歷史學研究的領域。但這并不能因此推斷出，歷史學未來的趨勢就是量化研究，至少我希望不會出現量化研究一家獨大的情況。

量化為歷史學研究提供一個新的角度，但這并不代表需要對舊有研究方式進行取代。每種研究方式都有自己的優勢和限制，量化也不例外。因此，我相信傳統的大部頭歷史原著閱讀，還是能發揮其展現觀點的連續性優勢，而數據庫則在發掘新觀點上提升了速度，兩者其實不矛盾，反而能互補和共同促進。

要知道，量化研究的出現從來不是為了去擠壓任何其他歷史研究的空間，即使客觀出現了某種空間的擠壓，那也不是有意為之。量化的目的，是開辟新領域，而不是擠壓舊有領域。

澎湃新聞：談談門檻問題吧。CBDB數據庫的出現，似乎在一方面降低了對歷史愛好者進入研究領域的門檻，更多人可以在不接受，或者不完全接受嚴格的學術訓練下研究歷史；但在另一方面，這對于很多沒接受過數據分析或計算機培訓的傳統的歷史人文研究學者來說，這種數據庫的出現似乎又增加了不少門檻難度？

包弼德：首先，關于降低門檻，如果這是真的，我會非常樂意見到；雖然至少到現在，這種情況還沒有出現，但如果出現了，也會是CBDB的一大貢獻；其次，關于提高傳統學者的門檻，我覺得這只是短暫的。現在確實很多學者不會用數據庫，但我覺得未來會改變的。因為數據庫的優勢就擺在那里，如果你想發現新的角度，你就會努力去學。當然我也不否認，很多學者其實并不愿意去學數據庫，就個人而言，這完全沒有問題。我也覺得，當這個問題對于他們研究而言不那么重要時，他們自然不會去挖掘，人之常情。但就整個歷史學研究而言，一種開放式的態度還是很重要的。對我來說，歷史研究永遠不止一種研究方式，用任何你覺得有用的方式來完成研究，只要有助于你理解歷史，這就足夠了。前提是，你要有發現問題的能力，和清晰知道哪種方式，哪種工具能有助于你解決問題。

澎湃新聞：現在CBDB，包括許多歷史數據庫均停留在簡單的歷史數據展示階段，但根據以往其他領域大數據挖掘的經驗來看，這種數據的關系式挖掘和展示的現狀，很可能會往更深一步的智能分析甚至機器學習取代。您覺得未來CBDB會有真正的深度挖掘甚至機器自主學習分析嗎？

包弼德：就目前而言，CBDB已經可以通過其他分析工具的輔助，比如地理信息系統，來實現數據分析的工作。我覺得在CBDB系統內部建立自主分析可能不是一個好主意，不僅因為它很貴，很困難，更因為我們現在的工作是做到數據庫的進一步龐大和精細。現在CBDB數據庫內容還不是特別豐富，而可以借助的分析工具已經很多，所以我們的工作更多在于可以導出足夠多的數據用來分析。現在就考慮自主分析可能有些過早。

至于CBDB未來會有什么的走向，我覺得最宏大的愿景，就是將中國每一個有史可載的個人都錄入進這個系統里。當然我知道這是一個幾乎不可能短期完成的任務，但我們至少可以不斷接近它。至于最近可以用到的資源，我們會盡量搜集各地的地方志資料，因為它比較詳實齊全，對我們擴充數據庫意義重大。

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#中國歷代人物傳記資料數據庫 #哈佛 #中國 #包弼德 #量化史學