- +1
歷史學家的新技藝:如何處理成為史料的電子郵件
長久以來,對歷史學者彌足珍貴的傳統史料形態,諸如日記、書信、回憶錄等,已經被“數字化”的名頭剿殺了。大約十年前,我還以傳統的思路和方法研究奧古斯丁的書信,并提出了“書信空間”的概念,還在后記中展望了個人的“書信空間”。簡言之,“書信空間”就是用書信編織的一個獨具特色的人際網絡體系,參與其中的人發生關聯、互動、影響;通過對“書信空間”的描述與研究,我們可以了解人群的交往行為。不曾料想,今天我卻面臨著無“信”可以構建的尷尬。——我們現在都用電子郵件!

某日,在整理電腦文件時,我突然在某個隱秘的文件夾里發現了一個舊文檔,里面是多年前為了解決電子郵箱的容量問題不得不刪除的舊信件。出于歷史學者的職業敏感,我事先下載了部分電子郵件,現在隨手點擊鼠標看了看,居然讀到了2002年的電郵!一個想法在我腦海中閃現,這些電郵是很有意味的新形態史料,它們能否勾勒出我過去十多年的生活軌跡,構建我個人的“書信空間”呢?
在這個靈感的推動下,我開始了一場實驗。我以一名歷史學者的身份,嘗試去處理一批“天生數字化”的資料。這個過程充滿了新奇,既有傳統歷史研究的共性問題和解答,也有意想不到的處境和方法。或許,我的實驗將成為未來5-10年歷史學家工作的常態。
數據整理
多年前存檔電子郵件時,我并沒有想過去研究它們,也就沒有考慮到格式的問題,現在就不得不面臨如何將它們結構化的麻煩。這個工作主要由南京大學軟件工程學院的郭建朋同學幫忙寫代碼,將結構混亂的電郵數據進行解析,整理出包括收件人、發件人、主題、文本、時間等在內的字段,并放在了Excel表格中供后續處理。
但這個樣態的數據還不能直接用于分析。電子郵件的存檔跨度十幾年,雖然主要以新浪郵箱為載體,但郵件結構并不是100%統一,寄件人的郵箱體系與新浪郵箱不兼容,發件人姓名與電子郵箱地址脫節,再加上亂碼、地址錯誤、垃圾郵件等各種問題,解析后的資料并不完美。
還要對數據做進一步清洗,主要包括刪除重復信息,修正錯誤的郵箱地址(有些錯誤是發件人在錄入地址的時候打錯了),將人與不同的郵箱匹配(一個人沒有兩三個郵箱都不好意思出來打招呼)。最典型的一個情況是,2013年8月,雅虎郵箱暫停服務,導致很多人更換郵箱地址,也增加了消歧的工作量。雖然我編寫了Python代碼幫助提高工作效率,但還是有一些工作要手動完成,耗費了不少精力。所以,最終呈現在我面前的資料并不是一份完美的數據庫。但沒有哪位歷史學家見到過完美的史料,重點是能否從中引發有價值的話題。
這批電郵材料顯然存在固有的短處,它們肯定不是我所有電子郵件的全部(我究竟刪除了哪些電郵,估計只有AI知道了),也肯定不是我所有通訊活動的全部。過去十幾年,手機短信一度成為交流的主導,但所有短信已經無從考證;三四年前,微信又開始取代短信,成為通訊的主要方式。很多人沒有意識到,微信或許會成為未來歷史學家研究人物的重要資料。但是,微信能下載存檔嗎?
下面的分析只能基于一份不完美的電郵數據庫,所有的郵件共計10076封,時間跨度2002-2013年,它們確實幫我搭建了一個可以與奧古斯丁媲美的“書信空間”。活躍在這個書信空間中的人,并不知道我會做這個奇怪的研究,也沒有征得他們的同意,所以我會隱去所有敏感的隱私信息。在行文當中,除非必要,我都用代碼表示發件人與收件人,似乎面目模糊。但我想強調,他們都是一群個性鮮明的人,在“書信空間”中熱鬧而有趣!
外圍的分析
我先假裝與我自己不熟,在“書信空間”中,TA的代碼是“Chauvin”。
這個人是誰?應該是一位男性,因為一些信件直呼其“先生”。有很多信件叫他“老師”,或許他的職業是一名老師?單純從稱呼判斷有些勉強,雖然統計到“老師”出現的頻率頗高。現在,“老師”已經成為比較保險的一種稱謂,很有可能與真實身份并不匹配。
不過,我統計了郵件數量與月份的信息,發現了一個奇怪的現象:郵件的數量會隨著月份周期性地改變。


Chauvin的身份大致可以確定了,所以我們也不用再繞彎子了。他過去十幾年的經歷其實非常簡單,就是從學校到學校,雖然境內外不同水準的高校見識了不少,但基本都在同一個系統里晃蕩。接下來,我很想知道這些電郵能否描繪一個意料之外,或者不經意的“自畫像”呢?
首先,Chauvin的書信空間異常活躍。整個電郵資料庫一共有1萬多封信件往來,存在群發的情況,把群發拆解成獨立的通信事件,結果總計55168次通信行為。10年,5萬多次,平均下來,每天有13.7次通信行為,這讓我覺得Chauvin的“書信空間”比奧古斯丁的熱鬧多了。目前存留下來的奧古斯丁書信不超過300封,Chauvin在體量上完勝教父。
實際上,如果把每個電子郵箱理解為一個獨立的人(剔除一個人擁有多個郵箱的情況),那么Chauvin的書信空間一共有4500多個獨立的個體。毫無疑問,這是虛假繁榮的表象,因為根據鄧巴數字,Chauvin能夠維持的緊密關系不會超過150人。Chauvin的書信空間里有如此活躍的個體,要拜群發郵件所賜,讓Chauvin同許多八竿子打不著的人發生了關聯。當然,也要拜垃圾郵件所賜,一些商業公司毫無節制地商業推廣行為,極大地豐富了這個書信空間的存在度。
但不要被這個假相蒙蔽,以為Chauvin是一個大忙人。如果以他為視角做統計的話,十年內Chauvin一共發出了1890封郵件,但是收到的郵件8467封,是前者的4.5倍。由是觀之,Chauvin不僅不是一個特別活躍的人,而且是一個更傾向于被動接受資訊的人。在Chauvin的書信空間中,最勤勉的一位發件人H,發送了6567封信,而且只截止2008年,TA是誰?2009年之后,這項桂冠落到了另外一個人G頭上,TA又是誰?了解這兩個人的背景會很有意思,他們跟Chauvin的經歷轉換緊密相關。


還記得之前提到的那位“發件王”H嗎?沒錯,H就是PKU負責學生工作的老師,TA勤勉地為歷史系的學生傳達消息,噓寒問暖,成為Chauvin在PKU學習的最好見證。由于H總是向不同年級的歷史系研究生群發郵件,Chauvin又在PKU待了足夠長的時間,所以TA成為當之無愧的“群發之王”。那些PKU的歷史系校友們,你們是否意識到,我們曾經在某個時間節點上共存在于同一個“書信空間”中嗎?
緊隨其后的163郵箱似乎不能說明什么,因為它幾乎是最常用的公用郵箱了。163的后綴雖然過于籠統,但@前的信息意義重大,那個奪去H“發件王”桂冠的G,正是使用的163郵箱;再聯系到排名第三的NJU,如果把G的數量加入進來,那么NJU排名第二,與PKU不相上下。這恰好暗合了Chauvin從2009年進入NJU的時間軸。人生經歷的轉換,居然被電郵的后綴給暴露了。
不止如此。我們看到了cmbchina.com,還有dangdang.com、jd.com以及ctrip.com這些商業公司的后綴名。太明顯不過了,Chauvin使用著招商銀行的信用卡,經常在當當網上買書,在京東上購買電子產品,出差用攜程訂票。
gmx.de和hss.de的存在,揭示了Chauvin學習經歷的另一面。熟悉德國的同學都知道,gmx.de在德國跟163在中國一樣,是一個占有率極高的郵箱服務平臺;hss.de則是德國著名的賽德爾基金會(Hanns Seidel Stiftung)的網址。Chauvin曾經在這個基金會的資助下赴德國學習。在Chauvin回國后,基金會在中國的校友會還經常組織活動,它們出現在排行榜中也就不足為奇了。Chauvin與德國的聯系,還體現在了tongji.edu.cn的后綴上,那里的“同濟大學德國學術中心”暴露了Chauvin關心德國問題的事實。另外,alerts.stanford.edu的郵箱是一個學術信息推送平臺,Chauvin通過訂閱它們,努力地維持著當年的學霸形象。
我們還看到了令人唏噓的郵箱后綴:yahoo.com以及chinaren.com。我們都知道,雅虎郵箱于2013年停止服務,在Chauvin的書信空間中,雅虎郵箱退去的同時,另外一種郵箱卻在崛起——qq.com。把郵箱地址做一個時間軸的演變,就會發現QQ郵箱的增量明顯。很大程度上,Chauvin作為大學老師,很多學生都是用QQ郵箱與他聯系的。騰訊公司用QQ抓住了一大批穩定的用戶。
那么chinaren.com又是什么?再一次暴露年齡的分析時刻。現在的小孩都知道微信、QQ,稍微年長的還在感嘆“人人網”的衰落,而“人人網”之前的“校內網”估計知道的人就不多了,比“校內網”更早的正是chinaRen校友錄!校友網當年火爆的程度不遜于現在的微信,它是維系Chauvin高中、大學同學的紐帶。
關于Chauvin,我們從電郵數據庫中已經了解到比較豐富的信息,以我對Chauvin的了解,這些推測都是正確的。最后,我們來對這個“書信空間”做一個全景的掃描,把寄件人與收件人的行為理解為最基本的社會關系,看看能否用Gephi繪制出有趣的社會網絡圖案來。
在經歷了各種消歧后,我將Chauvin的所有郵件轉換成了囊括9661條邊文件以及4536個節點的節點文件。放到i5第三代酷睿的舊電腦里跑了30分鐘,用ForcheAtlas2的布局,描繪了一張真正意義上的“書信空間”。由于節點太多,我擔心密集恐懼癥的人士看到會有所不適,故對背景做了一些處理,然后根據算法進行了社團分析。Chauvin的交際圈就這樣被暴露出來了。

從遠距離閱讀的方式掃描Chauvin的書信空間,可以獲得全貌的認知;不過由于存在大量噪點,其實看不到太多細節,比如Chauvin跟誰互動最為頻繁?誰給Chauvin寫了最多郵件,Chauvin又寄給誰最多郵件?通過算法過濾掉聯絡頻次較低的節點,再將邊的權重體現出來,得出了另外一幅交往圖。


另外,在Gephi對網絡可視化的界面,如果我們把鼠標懸停在某個節點上,系統會自動測算出有直接聯系的不同節點。根據這個算法,我們能夠看到不同節點的關系。在不斷嘗試的過程中,我突然發現了下面的關聯。

進入郵件的內部
到目前為止,我們一直在電郵數據庫的外圍打轉,還沒有開始對郵件內容進行分析。關于這節,我先賣個關子:欲知后續如何,請聽下回分解。
短暫小結
信件、日記等私人化的文字,向來是歷史學者重視的史料,雖然它們并不一定盡顯客觀。奧古斯丁早在一千多年前就知道,記錄在案的文字一定會成為呈堂證供,所以刻意留下了自己的書信副本,讓我們有機會窺見這位曠世奇才的精神世界。但奧古斯丁的行為太過前瞻性,甚至讓人有理由懷疑他在寫信的時候會掩蓋自己的真實想法。在這點上,電子郵件反而體現了客觀的價值。
電子郵件雖然不像傳統書信那樣長篇大論,但收件人和寄件人在當下都還沒有意識到這些文字將來有可能供人研究,它們或許更能準確表達使用者的心境。而且,發出去的郵件如同潑出去的水,只要還在服務器上,就無法撤銷,也無法刪除和修改,真正演變為脫離了作者的獨立存在。它們能夠發揮何種作用,那就靠讀者自由發揮了。
上述的分析在很大程度上是游戲之作,并不屬于嚴格的學術研究。但是也許在不久將來,如何處理電子郵件會成為歷史學家的必備技能。正如有學者提到的那樣,掌握古董硬盤的修復技術可能會是未來歷史學者的必殺技。當然,當AI技術成熟,對這種“天生數字化”資料的分析,可能是小菜一碟。不過,現在AI還在路上,我們在這里構建一位歷史學者的“書信空間”,算得上是一次技術路演吧!
(本文的寫作,得到了南京大學軟件學院劉嘉、郭建朋的技術支持,在此表示感謝!)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司