- +1
歷史學(xué)家的新技藝:如何處理成為史料的電子郵件
長久以來,對(duì)歷史學(xué)者彌足珍貴的傳統(tǒng)史料形態(tài),諸如日記、書信、回憶錄等,已經(jīng)被“數(shù)字化”的名頭剿殺了。大約十年前,我還以傳統(tǒng)的思路和方法研究奧古斯丁的書信,并提出了“書信空間”的概念,還在后記中展望了個(gè)人的“書信空間”。簡言之,“書信空間”就是用書信編織的一個(gè)獨(dú)具特色的人際網(wǎng)絡(luò)體系,參與其中的人發(fā)生關(guān)聯(lián)、互動(dòng)、影響;通過對(duì)“書信空間”的描述與研究,我們可以了解人群的交往行為。不曾料想,今天我卻面臨著無“信”可以構(gòu)建的尷尬。——我們現(xiàn)在都用電子郵件!

某日,在整理電腦文件時(shí),我突然在某個(gè)隱秘的文件夾里發(fā)現(xiàn)了一個(gè)舊文檔,里面是多年前為了解決電子郵箱的容量問題不得不刪除的舊信件。出于歷史學(xué)者的職業(yè)敏感,我事先下載了部分電子郵件,現(xiàn)在隨手點(diǎn)擊鼠標(biāo)看了看,居然讀到了2002年的電郵!一個(gè)想法在我腦海中閃現(xiàn),這些電郵是很有意味的新形態(tài)史料,它們能否勾勒出我過去十多年的生活軌跡,構(gòu)建我個(gè)人的“書信空間”呢?
在這個(gè)靈感的推動(dòng)下,我開始了一場實(shí)驗(yàn)。我以一名歷史學(xué)者的身份,嘗試去處理一批“天生數(shù)字化”的資料。這個(gè)過程充滿了新奇,既有傳統(tǒng)歷史研究的共性問題和解答,也有意想不到的處境和方法。或許,我的實(shí)驗(yàn)將成為未來5-10年歷史學(xué)家工作的常態(tài)。
數(shù)據(jù)整理
多年前存檔電子郵件時(shí),我并沒有想過去研究它們,也就沒有考慮到格式的問題,現(xiàn)在就不得不面臨如何將它們結(jié)構(gòu)化的麻煩。這個(gè)工作主要由南京大學(xué)軟件工程學(xué)院的郭建朋同學(xué)幫忙寫代碼,將結(jié)構(gòu)混亂的電郵數(shù)據(jù)進(jìn)行解析,整理出包括收件人、發(fā)件人、主題、文本、時(shí)間等在內(nèi)的字段,并放在了Excel表格中供后續(xù)處理。
但這個(gè)樣態(tài)的數(shù)據(jù)還不能直接用于分析。電子郵件的存檔跨度十幾年,雖然主要以新浪郵箱為載體,但郵件結(jié)構(gòu)并不是100%統(tǒng)一,寄件人的郵箱體系與新浪郵箱不兼容,發(fā)件人姓名與電子郵箱地址脫節(jié),再加上亂碼、地址錯(cuò)誤、垃圾郵件等各種問題,解析后的資料并不完美。
還要對(duì)數(shù)據(jù)做進(jìn)一步清洗,主要包括刪除重復(fù)信息,修正錯(cuò)誤的郵箱地址(有些錯(cuò)誤是發(fā)件人在錄入地址的時(shí)候打錯(cuò)了),將人與不同的郵箱匹配(一個(gè)人沒有兩三個(gè)郵箱都不好意思出來打招呼)。最典型的一個(gè)情況是,2013年8月,雅虎郵箱暫停服務(wù),導(dǎo)致很多人更換郵箱地址,也增加了消歧的工作量。雖然我編寫了Python代碼幫助提高工作效率,但還是有一些工作要手動(dòng)完成,耗費(fèi)了不少精力。所以,最終呈現(xiàn)在我面前的資料并不是一份完美的數(shù)據(jù)庫。但沒有哪位歷史學(xué)家見到過完美的史料,重點(diǎn)是能否從中引發(fā)有價(jià)值的話題。
這批電郵材料顯然存在固有的短處,它們肯定不是我所有電子郵件的全部(我究竟刪除了哪些電郵,估計(jì)只有AI知道了),也肯定不是我所有通訊活動(dòng)的全部。過去十幾年,手機(jī)短信一度成為交流的主導(dǎo),但所有短信已經(jīng)無從考證;三四年前,微信又開始取代短信,成為通訊的主要方式。很多人沒有意識(shí)到,微信或許會(huì)成為未來歷史學(xué)家研究人物的重要資料。但是,微信能下載存檔嗎?
下面的分析只能基于一份不完美的電郵數(shù)據(jù)庫,所有的郵件共計(jì)10076封,時(shí)間跨度2002-2013年,它們確實(shí)幫我搭建了一個(gè)可以與奧古斯丁媲美的“書信空間”。活躍在這個(gè)書信空間中的人,并不知道我會(huì)做這個(gè)奇怪的研究,也沒有征得他們的同意,所以我會(huì)隱去所有敏感的隱私信息。在行文當(dāng)中,除非必要,我都用代碼表示發(fā)件人與收件人,似乎面目模糊。但我想強(qiáng)調(diào),他們都是一群個(gè)性鮮明的人,在“書信空間”中熱鬧而有趣!
外圍的分析
我先假裝與我自己不熟,在“書信空間”中,TA的代碼是“Chauvin”。
這個(gè)人是誰?應(yīng)該是一位男性,因?yàn)橐恍┬偶焙羝洹跋壬薄S泻芏嘈偶兴袄蠋煛保蛟S他的職業(yè)是一名老師?單純從稱呼判斷有些勉強(qiáng),雖然統(tǒng)計(jì)到“老師”出現(xiàn)的頻率頗高。現(xiàn)在,“老師”已經(jīng)成為比較保險(xiǎn)的一種稱謂,很有可能與真實(shí)身份并不匹配。
不過,我統(tǒng)計(jì)了郵件數(shù)量與月份的信息,發(fā)現(xiàn)了一個(gè)奇怪的現(xiàn)象:郵件的數(shù)量會(huì)隨著月份周期性地改變。


Chauvin的身份大致可以確定了,所以我們也不用再繞彎子了。他過去十幾年的經(jīng)歷其實(shí)非常簡單,就是從學(xué)校到學(xué)校,雖然境內(nèi)外不同水準(zhǔn)的高校見識(shí)了不少,但基本都在同一個(gè)系統(tǒng)里晃蕩。接下來,我很想知道這些電郵能否描繪一個(gè)意料之外,或者不經(jīng)意的“自畫像”呢?
首先,Chauvin的書信空間異常活躍。整個(gè)電郵資料庫一共有1萬多封信件往來,存在群發(fā)的情況,把群發(fā)拆解成獨(dú)立的通信事件,結(jié)果總計(jì)55168次通信行為。10年,5萬多次,平均下來,每天有13.7次通信行為,這讓我覺得Chauvin的“書信空間”比奧古斯丁的熱鬧多了。目前存留下來的奧古斯丁書信不超過300封,Chauvin在體量上完勝教父。
實(shí)際上,如果把每個(gè)電子郵箱理解為一個(gè)獨(dú)立的人(剔除一個(gè)人擁有多個(gè)郵箱的情況),那么Chauvin的書信空間一共有4500多個(gè)獨(dú)立的個(gè)體。毫無疑問,這是虛假繁榮的表象,因?yàn)楦鶕?jù)鄧巴數(shù)字,Chauvin能夠維持的緊密關(guān)系不會(huì)超過150人。Chauvin的書信空間里有如此活躍的個(gè)體,要拜群發(fā)郵件所賜,讓Chauvin同許多八竿子打不著的人發(fā)生了關(guān)聯(lián)。當(dāng)然,也要拜垃圾郵件所賜,一些商業(yè)公司毫無節(jié)制地商業(yè)推廣行為,極大地豐富了這個(gè)書信空間的存在度。
但不要被這個(gè)假相蒙蔽,以為Chauvin是一個(gè)大忙人。如果以他為視角做統(tǒng)計(jì)的話,十年內(nèi)Chauvin一共發(fā)出了1890封郵件,但是收到的郵件8467封,是前者的4.5倍。由是觀之,Chauvin不僅不是一個(gè)特別活躍的人,而且是一個(gè)更傾向于被動(dòng)接受資訊的人。在Chauvin的書信空間中,最勤勉的一位發(fā)件人H,發(fā)送了6567封信,而且只截止2008年,TA是誰?2009年之后,這項(xiàng)桂冠落到了另外一個(gè)人G頭上,TA又是誰?了解這兩個(gè)人的背景會(huì)很有意思,他們跟Chauvin的經(jīng)歷轉(zhuǎn)換緊密相關(guān)。


還記得之前提到的那位“發(fā)件王”H嗎?沒錯(cuò),H就是PKU負(fù)責(zé)學(xué)生工作的老師,TA勤勉地為歷史系的學(xué)生傳達(dá)消息,噓寒問暖,成為Chauvin在PKU學(xué)習(xí)的最好見證。由于H總是向不同年級(jí)的歷史系研究生群發(fā)郵件,Chauvin又在PKU待了足夠長的時(shí)間,所以TA成為當(dāng)之無愧的“群發(fā)之王”。那些PKU的歷史系校友們,你們是否意識(shí)到,我們?cè)?jīng)在某個(gè)時(shí)間節(jié)點(diǎn)上共存在于同一個(gè)“書信空間”中嗎?
緊隨其后的163郵箱似乎不能說明什么,因?yàn)樗鼛缀跏亲畛S玫墓绵]箱了。163的后綴雖然過于籠統(tǒng),但@前的信息意義重大,那個(gè)奪去H“發(fā)件王”桂冠的G,正是使用的163郵箱;再聯(lián)系到排名第三的NJU,如果把G的數(shù)量加入進(jìn)來,那么NJU排名第二,與PKU不相上下。這恰好暗合了Chauvin從2009年進(jìn)入NJU的時(shí)間軸。人生經(jīng)歷的轉(zhuǎn)換,居然被電郵的后綴給暴露了。
不止如此。我們看到了cmbchina.com,還有dangdang.com、jd.com以及ctrip.com這些商業(yè)公司的后綴名。太明顯不過了,Chauvin使用著招商銀行的信用卡,經(jīng)常在當(dāng)當(dāng)網(wǎng)上買書,在京東上購買電子產(chǎn)品,出差用攜程訂票。
gmx.de和hss.de的存在,揭示了Chauvin學(xué)習(xí)經(jīng)歷的另一面。熟悉德國的同學(xué)都知道,gmx.de在德國跟163在中國一樣,是一個(gè)占有率極高的郵箱服務(wù)平臺(tái);hss.de則是德國著名的賽德爾基金會(huì)(Hanns Seidel Stiftung)的網(wǎng)址。Chauvin曾經(jīng)在這個(gè)基金會(huì)的資助下赴德國學(xué)習(xí)。在Chauvin回國后,基金會(huì)在中國的校友會(huì)還經(jīng)常組織活動(dòng),它們出現(xiàn)在排行榜中也就不足為奇了。Chauvin與德國的聯(lián)系,還體現(xiàn)在了tongji.edu.cn的后綴上,那里的“同濟(jì)大學(xué)德國學(xué)術(shù)中心”暴露了Chauvin關(guān)心德國問題的事實(shí)。另外,alerts.stanford.edu的郵箱是一個(gè)學(xué)術(shù)信息推送平臺(tái),Chauvin通過訂閱它們,努力地維持著當(dāng)年的學(xué)霸形象。
我們還看到了令人唏噓的郵箱后綴:yahoo.com以及chinaren.com。我們都知道,雅虎郵箱于2013年停止服務(wù),在Chauvin的書信空間中,雅虎郵箱退去的同時(shí),另外一種郵箱卻在崛起——qq.com。把郵箱地址做一個(gè)時(shí)間軸的演變,就會(huì)發(fā)現(xiàn)QQ郵箱的增量明顯。很大程度上,Chauvin作為大學(xué)老師,很多學(xué)生都是用QQ郵箱與他聯(lián)系的。騰訊公司用QQ抓住了一大批穩(wěn)定的用戶。
那么chinaren.com又是什么?再一次暴露年齡的分析時(shí)刻。現(xiàn)在的小孩都知道微信、QQ,稍微年長的還在感嘆“人人網(wǎng)”的衰落,而“人人網(wǎng)”之前的“校內(nèi)網(wǎng)”估計(jì)知道的人就不多了,比“校內(nèi)網(wǎng)”更早的正是chinaRen校友錄!校友網(wǎng)當(dāng)年火爆的程度不遜于現(xiàn)在的微信,它是維系Chauvin高中、大學(xué)同學(xué)的紐帶。
關(guān)于Chauvin,我們從電郵數(shù)據(jù)庫中已經(jīng)了解到比較豐富的信息,以我對(duì)Chauvin的了解,這些推測都是正確的。最后,我們來對(duì)這個(gè)“書信空間”做一個(gè)全景的掃描,把寄件人與收件人的行為理解為最基本的社會(huì)關(guān)系,看看能否用Gephi繪制出有趣的社會(huì)網(wǎng)絡(luò)圖案來。
在經(jīng)歷了各種消歧后,我將Chauvin的所有郵件轉(zhuǎn)換成了囊括9661條邊文件以及4536個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)文件。放到i5第三代酷睿的舊電腦里跑了30分鐘,用ForcheAtlas2的布局,描繪了一張真正意義上的“書信空間”。由于節(jié)點(diǎn)太多,我擔(dān)心密集恐懼癥的人士看到會(huì)有所不適,故對(duì)背景做了一些處理,然后根據(jù)算法進(jìn)行了社團(tuán)分析。Chauvin的交際圈就這樣被暴露出來了。

從遠(yuǎn)距離閱讀的方式掃描Chauvin的書信空間,可以獲得全貌的認(rèn)知;不過由于存在大量噪點(diǎn),其實(shí)看不到太多細(xì)節(jié),比如Chauvin跟誰互動(dòng)最為頻繁?誰給Chauvin寫了最多郵件,Chauvin又寄給誰最多郵件?通過算法過濾掉聯(lián)絡(luò)頻次較低的節(jié)點(diǎn),再將邊的權(quán)重體現(xiàn)出來,得出了另外一幅交往圖。


另外,在Gephi對(duì)網(wǎng)絡(luò)可視化的界面,如果我們把鼠標(biāo)懸停在某個(gè)節(jié)點(diǎn)上,系統(tǒng)會(huì)自動(dòng)測算出有直接聯(lián)系的不同節(jié)點(diǎn)。根據(jù)這個(gè)算法,我們能夠看到不同節(jié)點(diǎn)的關(guān)系。在不斷嘗試的過程中,我突然發(fā)現(xiàn)了下面的關(guān)聯(lián)。

進(jìn)入郵件的內(nèi)部
到目前為止,我們一直在電郵數(shù)據(jù)庫的外圍打轉(zhuǎn),還沒有開始對(duì)郵件內(nèi)容進(jìn)行分析。關(guān)于這節(jié),我先賣個(gè)關(guān)子:欲知后續(xù)如何,請(qǐng)聽下回分解。
短暫小結(jié)
信件、日記等私人化的文字,向來是歷史學(xué)者重視的史料,雖然它們并不一定盡顯客觀。奧古斯丁早在一千多年前就知道,記錄在案的文字一定會(huì)成為呈堂證供,所以刻意留下了自己的書信副本,讓我們有機(jī)會(huì)窺見這位曠世奇才的精神世界。但奧古斯丁的行為太過前瞻性,甚至讓人有理由懷疑他在寫信的時(shí)候會(huì)掩蓋自己的真實(shí)想法。在這點(diǎn)上,電子郵件反而體現(xiàn)了客觀的價(jià)值。
電子郵件雖然不像傳統(tǒng)書信那樣長篇大論,但收件人和寄件人在當(dāng)下都還沒有意識(shí)到這些文字將來有可能供人研究,它們或許更能準(zhǔn)確表達(dá)使用者的心境。而且,發(fā)出去的郵件如同潑出去的水,只要還在服務(wù)器上,就無法撤銷,也無法刪除和修改,真正演變?yōu)槊撾x了作者的獨(dú)立存在。它們能夠發(fā)揮何種作用,那就靠讀者自由發(fā)揮了。
上述的分析在很大程度上是游戲之作,并不屬于嚴(yán)格的學(xué)術(shù)研究。但是也許在不久將來,如何處理電子郵件會(huì)成為歷史學(xué)家的必備技能。正如有學(xué)者提到的那樣,掌握古董硬盤的修復(fù)技術(shù)可能會(huì)是未來歷史學(xué)者的必殺技。當(dāng)然,當(dāng)AI技術(shù)成熟,對(duì)這種“天生數(shù)字化”資料的分析,可能是小菜一碟。不過,現(xiàn)在AI還在路上,我們?cè)谶@里構(gòu)建一位歷史學(xué)者的“書信空間”,算得上是一次技術(shù)路演吧!
(本文的寫作,得到了南京大學(xué)軟件學(xué)院劉嘉、郭建朋的技術(shù)支持,在此表示感謝!)





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司