- +1
從數(shù)字人文視角看“近代中國(guó)的精英、網(wǎng)絡(luò)與權(quán)力”
2023年7月至2024年1月,筆者赴法國(guó)艾克斯—馬賽大學(xué)(Aix-Marseille University)亞洲研究中心(IrAsia),參加由著名上海史研究學(xué)者安克強(qiáng)教授(Prof. Christian Henriot)主持的ENP-China研究團(tuán)隊(duì)。目前,該團(tuán)隊(duì)已在近代中國(guó)人物資料數(shù)據(jù)庫(kù)建設(shè)等方面取得了一些重要進(jìn)展。茲以七個(gè)月的訪問經(jīng)歷,介紹ENP-China項(xiàng)目(“近代中國(guó)的精英、網(wǎng)絡(luò)與權(quán)力”)的研究旨趣、運(yùn)用工具、研究成果等,以向國(guó)內(nèi)讀者推介海外中國(guó)近代史研究的新動(dòng)向、新方法與新思想。

ENP-China(Elites, Networks and Power in Modern China)主頁
“近代中國(guó)的精英、網(wǎng)絡(luò)與權(quán)力”
ENP-China項(xiàng)目全稱Elites, Networks and Power in Modern China,意為“近代中國(guó)的精英、網(wǎng)絡(luò)與權(quán)力”,受歐洲研究理事會(huì)(European Research Council)資助。該項(xiàng)目以1830-1949年在上海、廣州、天津等城市活動(dòng)的中國(guó)社會(huì)精英為研究對(duì)象,旨在挑戰(zhàn)過往“以國(guó)家為中心、以群體為基礎(chǔ)”的文獻(xiàn)研究法,將城市精英視為社會(huì)活動(dòng)者,其地位、身份及行動(dòng)等受不斷變化的權(quán)力結(jié)構(gòu)影響,且通過制度與非正式/正式網(wǎng)絡(luò)的行動(dòng)重新定義社會(huì)與政治的邊界。因此,項(xiàng)目著重關(guān)注信息、資本與個(gè)體流動(dòng)的網(wǎng)絡(luò),研究精英群體跨國(guó)化過程。在具體方法上則突破常規(guī)史料的限制,將名人錄、人名辭典等復(fù)雜來源的信息,轉(zhuǎn)化為精細(xì)的、可重復(fù)利用與可長(zhǎng)期存續(xù)的數(shù)據(jù),供目前與將來研究使用。該項(xiàng)目依賴可不斷擴(kuò)展的各類歷史數(shù)據(jù)資料,以前所未有的規(guī)模提供精確的歷史信息,重新塑造基于現(xiàn)有來源,如檔案、日記等的史學(xué)研究,以期在現(xiàn)代中國(guó)精英轉(zhuǎn)型研究中創(chuàng)造新維度。
團(tuán)隊(duì)負(fù)責(zé)人安克強(qiáng)以上海城市史研究著稱,著有《1927-1937年的上海:市政權(quán)、地方性和現(xiàn)代化》(Shanghai,1927-1937:Municipal Power, Locality and Modernization)、《鐮刀與城市:以上海為例的死亡社會(huì)史研究》(Scythe and the City: A Social History of Death in Shanghai)等。在多年的研究中,他非常注重各類數(shù)字工具在史學(xué)研究中的運(yùn)用,曾融合地理信息系統(tǒng)(Geographic Information System, GIS)[1]分析近代上海的公墓分布等問題。近年來,安教授以名人錄等為基礎(chǔ)材料,運(yùn)用數(shù)字工具,力圖建構(gòu)近代中國(guó)社會(huì)精英的各類網(wǎng)絡(luò)。因此,在招募團(tuán)隊(duì)成員時(shí),除歷史學(xué)者外,數(shù)據(jù)科學(xué)家與軟件工程師也加入其間,共同開展項(xiàng)目研究。以筆者在法期間為例,團(tuán)隊(duì)內(nèi)既有安克強(qiáng)、孟喜(Cécile Armand)等史學(xué)工作者,亦有從事數(shù)據(jù)庫(kù)建設(shè)與維護(hù)的工程師Nora Van den Bosch與以人工智能(Artificial Intelligence,AI)[2]和自然語言處理(Natural Language Processing ,NLP)[3]見長(zhǎng)的計(jì)算機(jī)博士Baptiste Blouin。為鼓勵(lì)年輕學(xué)人運(yùn)用數(shù)字工具輔助學(xué)位論文寫作,團(tuán)隊(duì)亦招募具有中國(guó)近代史學(xué)科背景,具備一定信息技術(shù)素養(yǎng)的高年級(jí)博士生,提供六個(gè)月或一年的工作合同,開展數(shù)字工具使用等培訓(xùn),并加入研究計(jì)劃。筆者即在2023年下半年密集接受程序語言等知識(shí)的學(xué)習(xí),運(yùn)用數(shù)字人文(Digital Humanities)[4]思維創(chuàng)新論文寫作思路。由于團(tuán)隊(duì)與臺(tái)灣“中研院”近史所深度合作,因此連玲玲等近史所研究人員亦有協(xié)助。此外,團(tuán)隊(duì)亦吸納一些歐盟內(nèi)其他高校的語言學(xué)家、計(jì)算機(jī)工程師等參與其間,協(xié)同開展資料庫(kù)建設(shè)等工作。
數(shù)字工具與研究成果
ENP-China的關(guān)注群體為近代中國(guó)的各類社會(huì)精英,包括但不限于歸國(guó)留學(xué)生、商人、紳衿等,其信息來源為Who’s who in China等名人辭典,因此如何有效率地提取大量個(gè)人信息,如其性別、籍貫、學(xué)經(jīng)歷等,并在此基礎(chǔ)上建立可相互關(guān)聯(lián)、不斷延伸的信息網(wǎng)絡(luò),成為關(guān)鍵的先導(dǎo)工作。為此,團(tuán)隊(duì)將R Studio作為中心工具:其為程序語言R的操作平臺(tái),由法國(guó)數(shù)字人文開放平臺(tái)Huma-Num托管,用于統(tǒng)計(jì)計(jì)算與圖形呈現(xiàn)。由于其免費(fèi)屬性及社區(qū)成員不斷為該語言開發(fā)各類功能包,因而備受研究者青睞。目前,通過R Studio中的各類功能包,如tidyverse等,可實(shí)現(xiàn)文字段落的自動(dòng)分詞、數(shù)據(jù)導(dǎo)出、可視化、數(shù)據(jù)建模等多種功能。具體而言,人名錄及其他語料庫(kù)(corpus,指具有一定格式的大量文本)中的各類命名實(shí)體,如姓名、年齡、字號(hào)、出生地名等,可運(yùn)用特定功能包(如分詞包),將其從文本中分離并分類建表,最終依此建立基于某一參數(shù)的網(wǎng)絡(luò),如同鄉(xiāng)網(wǎng)絡(luò)等。
基于R Studio平臺(tái),團(tuán)隊(duì)目前開發(fā)出兩大可視化運(yùn)用平臺(tái):HistText與MCBD。
HistText最早為Jeremy Auguste博士等開發(fā)的R Studio功能包,后經(jīng)Baptiste Blouin博士的完善,成為易于操作的可視化平臺(tái),可實(shí)現(xiàn)在特定語料庫(kù)(如《申報(bào)》、《東方雜志》等)中搜索關(guān)鍵字,隨之生成新的語料庫(kù)后,對(duì)此進(jìn)行自然語言處理,實(shí)現(xiàn)如關(guān)鍵詞云形成、人名、地名、機(jī)構(gòu)名等命名實(shí)體(Named Entities)的識(shí)別與提取、搜索關(guān)鍵詞年度分布表的建立等功能,為之后開展主題建模等工作提供基礎(chǔ)資料。

HistText界面
MCBD全稱Modern China Biographical Database,即近代中國(guó)人物傳記數(shù)據(jù)庫(kù)。該庫(kù)與“中研院”近史所合作開發(fā),旨在通過系統(tǒng)化的數(shù)據(jù)挖掘,收集在中國(guó)活躍的任何個(gè)人,包括中國(guó)人及在華外國(guó)人的傳記數(shù)據(jù)。這些數(shù)據(jù)可以來自各種來源,如目錄、傳記詞典、名人錄等,報(bào)紙和期刊,以及學(xué)術(shù)文獻(xiàn)。使用該庫(kù)檢索相關(guān)個(gè)人信息時(shí),可隨之查閱與其生平經(jīng)歷相關(guān)的其他個(gè)人,如同鄉(xiāng)、同學(xué)等,從而為歷史人物的研究探索出一條新路。

MCBD界面
目前,ENP-China團(tuán)隊(duì)的研究成果集中收錄于2022年經(jīng)Brill出版社出版,由安克強(qiáng)、孟喜與孫慧敏主編的Knowledge, Power, and Networks. Elites in Transition in Modern China:一書。該書收錄了9篇基于自然語言處理等數(shù)字技術(shù),分析特定歷史問題,如上海扶輪社、在滬英國(guó)婦女協(xié)會(huì)等社團(tuán)成員組成與活動(dòng)情況的專題論文。上述論文的作者在將大量人物信息運(yùn)用R Studio等工具進(jìn)行篩選、清洗、整理后,主要運(yùn)用主題建模(Topic Modeling)、[5]社交網(wǎng)絡(luò)分析(Social Network Analysis, SNA)[6]等分析模型,建構(gòu)近代中國(guó)精英之中形成的各類網(wǎng)絡(luò),以探索精英社團(tuán)的形成、發(fā)展與活動(dòng)等問題。
必須指出的是,運(yùn)用自然語言處理對(duì)文本進(jìn)行信息提取等工作,仍有不盡如人意之處。由于經(jīng)過光學(xué)字符識(shí)別(Optical Character Recognition, OCR)[7]形成的語料庫(kù),其往往存在大量錯(cuò)誤,加之程序語言只能對(duì)特定文本格式中的信息提取精度較高,常無法覆蓋格式之外的有效信息,因而經(jīng)提取后的相關(guān)數(shù)據(jù),如姓名、生卒年等,必須進(jìn)行數(shù)據(jù)清洗(Data Cleaning)。[8]該過程通常較為耗時(shí),且需充分掌握相關(guān)史實(shí)后方能加以甄別,因而需要一定人工力量介入。并且,若語料庫(kù)的規(guī)模過小,也往往造成經(jīng)軟件分析得出的結(jié)果,與經(jīng)常規(guī)閱讀而得出的結(jié)論相差無幾的現(xiàn)象。因而在實(shí)際操作的過程中,運(yùn)用自然語言處理技術(shù)對(duì)文本信息加以提取、篩選等工作,仍有一些掣肘。
盡管如此,由于軟件處理較之人工閱讀,提取成規(guī)模史料(如1872-1949年《申報(bào)》的全部?jī)?nèi)容)中的相關(guān)信息,仍在工作效率等方面存在極為明顯的優(yōu)勢(shì),因而在中國(guó)近代史研究中有廣闊的應(yīng)用前景。特別是針對(duì)晚清民國(guó)精英人物的研究方面,由于其人數(shù)多、信息龐雜、各類正式或非正式網(wǎng)絡(luò)多樣,既有研究常建立在以中心人物為圓心的小規(guī)模社會(huì)網(wǎng)絡(luò)之基礎(chǔ)上,可能有“管中窺豹”之虞。不過,若使用自然語言處理技術(shù),從海量數(shù)據(jù)中提取精英人物的基本信息并篩選、建模,較之傳統(tǒng)的人工提取、校對(duì)、建表,有極為明顯的效率優(yōu)勢(shì)。數(shù)據(jù)量的大大提升,也為特定研究領(lǐng)域(如民國(guó)知識(shí)人交流網(wǎng)絡(luò))中建立以籍貫、學(xué)經(jīng)歷、仕途等關(guān)系串聯(lián)的大規(guī)模社交網(wǎng)絡(luò)創(chuàng)造可能,從而依此產(chǎn)生一些顛覆式的研究成果。我們相信,伴隨著語料庫(kù)數(shù)量與質(zhì)量的不斷提高,加上數(shù)字工具的不斷迭代演進(jìn),以網(wǎng)絡(luò)分析為立足點(diǎn)的近代中國(guó)人物研究將方興未艾,成為史學(xué)研究的一條頗值得嘗試的新途。
[1] 地理信息系統(tǒng)指在計(jì)算機(jī)、軟件系統(tǒng)支持下,對(duì)特定空間中有關(guān)地理分布數(shù)據(jù)(如經(jīng)緯度等),進(jìn)行采集、儲(chǔ)存、管理、運(yùn)算、分析、顯示與描述的技術(shù)系統(tǒng)。
[2] 人工智能主要指的是針對(duì)使用計(jì)算機(jī)對(duì)人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)進(jìn)行模擬的學(xué)科,主要包括計(jì)算機(jī)實(shí)現(xiàn)智能的原理、制造類似于人腦智能的計(jì)算機(jī),使計(jì)算機(jī)能實(shí)現(xiàn)更高層次的應(yīng)用。
[3] 自然語言處理指用人類交流所使用的自然語言與機(jī)器進(jìn)行交互通訊的技術(shù),通過人為的對(duì)自然語言的處理,使得計(jì)算機(jī)對(duì)其能夠可讀并理解。
[4] 數(shù)字人文主要指針對(duì)計(jì)算與人文學(xué)科之間的交叉領(lǐng)域,進(jìn)行學(xué)習(xí)、研究、發(fā)明以及創(chuàng)新的一門學(xué)科。
[5] 主題模型指的是,在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域中,用來在語料庫(kù)中發(fā)現(xiàn)抽象主題的一種統(tǒng)計(jì)模型。直觀來講,如果一篇文章有一個(gè)中心思想,那么一些特定詞語會(huì)更頻繁的出現(xiàn)。例如,如果一篇文章是在講狗的,那“狗”和“骨頭”等詞出現(xiàn)的頻率會(huì)高些。
[6] 社會(huì)網(wǎng)絡(luò)指的是許多節(jié)點(diǎn)以及節(jié)點(diǎn)間關(guān)系構(gòu)成的一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。節(jié)點(diǎn)通常是指?jìng)€(gè)人或組織(又稱社團(tuán))。社會(huì)網(wǎng)絡(luò)代表各種社會(huì)關(guān)系,經(jīng)由這些社會(huì)關(guān)系,把從偶然相識(shí)的泛泛之交到緊密結(jié)合的家人關(guān)系的各種人們或組織串連起來。社交網(wǎng)絡(luò)分析是用來查看節(jié)點(diǎn)、鏈接之間的社會(huì)關(guān)系的分析方式:節(jié)點(diǎn)是網(wǎng)絡(luò)中的個(gè)人參與者,鏈接則是參與者之間的關(guān)系。節(jié)點(diǎn)之間可以有很多種鏈接。
[7] 光學(xué)字符識(shí)別指對(duì)包含文本內(nèi)容的圖像或視頻進(jìn)行處理和識(shí)別,并提取其中所包含的文字及排版信息的過程。
[8] 數(shù)據(jù)清洗指從語料庫(kù)、表格或數(shù)據(jù)庫(kù)中檢測(cè)和糾正(或刪除)損壞或不準(zhǔn)確的記錄的過程,是指識(shí)別數(shù)據(jù)的不完整、不正確、不準(zhǔn)確或不相關(guān)部分,然后替換、修改、或刪除未經(jīng)處理的原始數(shù)據(jù)。
(本文經(jīng)安克強(qiáng)教授審訂。)





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司