▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

歷史學家的新技藝:如何處理成為史料的電子郵件

王濤
2018-02-05 09:58
來源:澎湃新聞
? 私家歷史 >
字號

長久以來,對歷史學者彌足珍貴的傳統史料形態,諸如日記、書信、回憶錄等,已經被“數字化”的名頭剿殺了。大約十年前,我還以傳統的思路和方法研究奧古斯丁的書信,并提出了“書信空間”的概念,還在后記中展望了個人的“書信空間”。簡言之,“書信空間”就是用書信編織的一個獨具特色的人際網絡體系,參與其中的人發生關聯、互動、影響;通過對“書信空間”的描述與研究,我們可以了解人群的交往行為。不曾料想,今天我卻面臨著無“信”可以構建的尷尬。——我們現在都用電子郵件!

據說中國的第一封電子郵件是1980年代末從北京發出的,其中“越過長城,走向世界”的話語,令人唏噓。后來,電郵的便利讓我們愈發懶惰和貪婪,不愿提筆多寫一個字,也不愿多等一刻平郵的信件。

某日,在整理電腦文件時,我突然在某個隱秘的文件夾里發現了一個舊文檔,里面是多年前為了解決電子郵箱的容量問題不得不刪除的舊信件。出于歷史學者的職業敏感,我事先下載了部分電子郵件,現在隨手點擊鼠標看了看,居然讀到了2002年的電郵!一個想法在我腦海中閃現,這些電郵是很有意味的新形態史料,它們能否勾勒出我過去十多年的生活軌跡,構建我個人的“書信空間”呢?

在這個靈感的推動下,我開始了一場實驗。我以一名歷史學者的身份,嘗試去處理一批“天生數字化”的資料。這個過程充滿了新奇,既有傳統歷史研究的共性問題和解答,也有意想不到的處境和方法。或許,我的實驗將成為未來5-10年歷史學家工作的常態。

數據整理

多年前存檔電子郵件時,我并沒有想過去研究它們,也就沒有考慮到格式的問題,現在就不得不面臨如何將它們結構化的麻煩。這個工作主要由南京大學軟件工程學院的郭建朋同學幫忙寫代碼,將結構混亂的電郵數據進行解析,整理出包括收件人、發件人、主題、文本、時間等在內的字段,并放在了Excel表格中供后續處理。

但這個樣態的數據還不能直接用于分析。電子郵件的存檔跨度十幾年,雖然主要以新浪郵箱為載體,但郵件結構并不是100%統一,寄件人的郵箱體系與新浪郵箱不兼容,發件人姓名與電子郵箱地址脫節,再加上亂碼、地址錯誤、垃圾郵件等各種問題,解析后的資料并不完美。

還要對數據做進一步清洗,主要包括刪除重復信息,修正錯誤的郵箱地址(有些錯誤是發件人在錄入地址的時候打錯了),將人與不同的郵箱匹配(一個人沒有兩三個郵箱都不好意思出來打招呼)。最典型的一個情況是,2013年8月,雅虎郵箱暫停服務,導致很多人更換郵箱地址,也增加了消歧的工作量。雖然我編寫了Python代碼幫助提高工作效率,但還是有一些工作要手動完成,耗費了不少精力。所以,最終呈現在我面前的資料并不是一份完美的數據庫。但沒有哪位歷史學家見到過完美的史料,重點是能否從中引發有價值的話題。

這批電郵材料顯然存在固有的短處,它們肯定不是我所有電子郵件的全部(我究竟刪除了哪些電郵,估計只有AI知道了),也肯定不是我所有通訊活動的全部。過去十幾年,手機短信一度成為交流的主導,但所有短信已經無從考證;三四年前,微信又開始取代短信,成為通訊的主要方式。很多人沒有意識到,微信或許會成為未來歷史學家研究人物的重要資料。但是,微信能下載存檔嗎?

下面的分析只能基于一份不完美的電郵數據庫,所有的郵件共計10076封,時間跨度2002-2013年,它們確實幫我搭建了一個可以與奧古斯丁媲美的“書信空間”。活躍在這個書信空間中的人,并不知道我會做這個奇怪的研究,也沒有征得他們的同意,所以我會隱去所有敏感的隱私信息。在行文當中,除非必要,我都用代碼表示發件人與收件人,似乎面目模糊。但我想強調,他們都是一群個性鮮明的人,在“書信空間”中熱鬧而有趣!

外圍的分析

我先假裝與我自己不熟,在“書信空間”中,TA的代碼是“Chauvin”。

這個人是誰?應該是一位男性,因為一些信件直呼其“先生”。有很多信件叫他“老師”,或許他的職業是一名老師?單純從稱呼判斷有些勉強,雖然統計到“老師”出現的頻率頗高。現在,“老師”已經成為比較保險的一種稱謂,很有可能與真實身份并不匹配。

不過,我統計了郵件數量與月份的信息,發現了一個奇怪的現象:郵件的數量會隨著月份周期性地改變。

隨機截取了2003-2006年間的數據,發現每年到7、8兩個月,郵件數量都會突然減少,然后到9月份又迅速增多,1月和2月也會有所減少。這是典型的自帶寒暑假的工作模式。這個模式在整整十年的數據中依然有效,如下圖所示:

這個角度有點奇葩,但似乎能夠說明一點問題。對了,我居然忘記了一個殺手锏!既然是電子郵件,查查發件人的簽名檔不就行了嗎?不過可惜,這個家伙很懶,在10多年的通信中,一直沒有留下固定的簽名檔。后來雖然設置了簽名檔,卻只有單位信息,無法判斷職稱、身份等關鍵信息。不過,Chauvin或多或少與學校相關應該是確定無疑了,他不是在讀書,就是在學校工作。數據沒有說謊!

Chauvin的身份大致可以確定了,所以我們也不用再繞彎子了。他過去十幾年的經歷其實非常簡單,就是從學校到學校,雖然境內外不同水準的高校見識了不少,但基本都在同一個系統里晃蕩。接下來,我很想知道這些電郵能否描繪一個意料之外,或者不經意的“自畫像”呢?

首先,Chauvin的書信空間異常活躍。整個電郵資料庫一共有1萬多封信件往來,存在群發的情況,把群發拆解成獨立的通信事件,結果總計55168次通信行為。10年,5萬多次,平均下來,每天有13.7次通信行為,這讓我覺得Chauvin的“書信空間”比奧古斯丁的熱鬧多了。目前存留下來的奧古斯丁書信不超過300封,Chauvin在體量上完勝教父。

實際上,如果把每個電子郵箱理解為一個獨立的人(剔除一個人擁有多個郵箱的情況),那么Chauvin的書信空間一共有4500多個獨立的個體。毫無疑問,這是虛假繁榮的表象,因為根據鄧巴數字,Chauvin能夠維持的緊密關系不會超過150人。Chauvin的書信空間里有如此活躍的個體,要拜群發郵件所賜,讓Chauvin同許多八竿子打不著的人發生了關聯。當然,也要拜垃圾郵件所賜,一些商業公司毫無節制地商業推廣行為,極大地豐富了這個書信空間的存在度。

但不要被這個假相蒙蔽,以為Chauvin是一個大忙人。如果以他為視角做統計的話,十年內Chauvin一共發出了1890封郵件,但是收到的郵件8467封,是前者的4.5倍。由是觀之,Chauvin不僅不是一個特別活躍的人,而且是一個更傾向于被動接受資訊的人。在Chauvin的書信空間中,最勤勉的一位發件人H,發送了6567封信,而且只截止2008年,TA是誰?2009年之后,這項桂冠落到了另外一個人G頭上,TA又是誰?了解這兩個人的背景會很有意思,他們跟Chauvin的經歷轉換緊密相關。

再來看看他們都在使用哪些郵箱。或許能夠為我們揭秘關于Chauvin經歷轉換的秘密?下面是排名前25的郵箱地址:

這張圖的信息量太豐富。難怪說電子郵件屬于個人隱私資料,僅僅做一個簡單的統計,就能夠比較全面勾勒Chauvin的畫像了。首先,Chauvin被深深地打上了PKU的烙印,@pku為什么對他如此鐘情?因為Chauvin曾經在PKU求學7年,剛好涵蓋了電郵數據庫的大部分時間。那為什么Chauvin本科就讀的BNU在這里沒有一點存在感呢?不好意思,暴露年齡了,Chauvin于2001年本科畢業,在數據庫涵蓋的年份之前;而更重要的是,Chauvin是在2002年之后,才開始頻繁使用電郵作為通信手段。

還記得之前提到的那位“發件王”H嗎?沒錯,H就是PKU負責學生工作的老師,TA勤勉地為歷史系的學生傳達消息,噓寒問暖,成為Chauvin在PKU學習的最好見證。由于H總是向不同年級的歷史系研究生群發郵件,Chauvin又在PKU待了足夠長的時間,所以TA成為當之無愧的“群發之王”。那些PKU的歷史系校友們,你們是否意識到,我們曾經在某個時間節點上共存在于同一個“書信空間”中嗎?

緊隨其后的163郵箱似乎不能說明什么,因為它幾乎是最常用的公用郵箱了。163的后綴雖然過于籠統,但@前的信息意義重大,那個奪去H“發件王”桂冠的G,正是使用的163郵箱;再聯系到排名第三的NJU,如果把G的數量加入進來,那么NJU排名第二,與PKU不相上下。這恰好暗合了Chauvin從2009年進入NJU的時間軸。人生經歷的轉換,居然被電郵的后綴給暴露了。

不止如此。我們看到了cmbchina.com,還有dangdang.com、jd.com以及ctrip.com這些商業公司的后綴名。太明顯不過了,Chauvin使用著招商銀行的信用卡,經常在當當網上買書,在京東上購買電子產品,出差用攜程訂票。

gmx.de和hss.de的存在,揭示了Chauvin學習經歷的另一面。熟悉德國的同學都知道,gmx.de在德國跟163在中國一樣,是一個占有率極高的郵箱服務平臺;hss.de則是德國著名的賽德爾基金會(Hanns Seidel Stiftung)的網址。Chauvin曾經在這個基金會的資助下赴德國學習。在Chauvin回國后,基金會在中國的校友會還經常組織活動,它們出現在排行榜中也就不足為奇了。Chauvin與德國的聯系,還體現在了tongji.edu.cn的后綴上,那里的“同濟大學德國學術中心”暴露了Chauvin關心德國問題的事實。另外,alerts.stanford.edu的郵箱是一個學術信息推送平臺,Chauvin通過訂閱它們,努力地維持著當年的學霸形象。

我們還看到了令人唏噓的郵箱后綴:yahoo.com以及chinaren.com。我們都知道,雅虎郵箱于2013年停止服務,在Chauvin的書信空間中,雅虎郵箱退去的同時,另外一種郵箱卻在崛起——qq.com。把郵箱地址做一個時間軸的演變,就會發現QQ郵箱的增量明顯。很大程度上,Chauvin作為大學老師,很多學生都是用QQ郵箱與他聯系的。騰訊公司用QQ抓住了一大批穩定的用戶。

那么chinaren.com又是什么?再一次暴露年齡的分析時刻。現在的小孩都知道微信、QQ,稍微年長的還在感嘆“人人網”的衰落,而“人人網”之前的“校內網”估計知道的人就不多了,比“校內網”更早的正是chinaRen校友錄!校友網當年火爆的程度不遜于現在的微信,它是維系Chauvin高中、大學同學的紐帶。

關于Chauvin,我們從電郵數據庫中已經了解到比較豐富的信息,以我對Chauvin的了解,這些推測都是正確的。最后,我們來對這個“書信空間”做一個全景的掃描,把寄件人與收件人的行為理解為最基本的社會關系,看看能否用Gephi繪制出有趣的社會網絡圖案來。

在經歷了各種消歧后,我將Chauvin的所有郵件轉換成了囊括9661條邊文件以及4536個節點的節點文件。放到i5第三代酷睿的舊電腦里跑了30分鐘,用ForcheAtlas2的布局,描繪了一張真正意義上的“書信空間”。由于節點太多,我擔心密集恐懼癥的人士看到會有所不適,故對背景做了一些處理,然后根據算法進行了社團分析。Chauvin的交際圈就這樣被暴露出來了。

雖然在這個“書信空間”中,Chauvin是毫無爭議的中心,但非常直觀地看到了不同圈子的存在。哪怕是Chauvin在PKU學習期間,也能夠細化出各種類型:歷史系碩博同窗的“同學圈”、參加德語角活動的“德語圈”、參加戶外活動的“娛樂圈”,以及獲得巴登州獎學金的“校友圈”。請大家特別留意左下角的一片淺淺的墨綠色,它是Chauvin在PKU讀研究生期間加入《北京大學研究生學志》編輯部的一段學習經歷的記錄。NJU期間的情況要復雜一些,但仍然有歷史學院同事、世界史同行、南京大學同事以及賽德爾基金會在上海和北京的校友圈等不同劃分。

從遠距離閱讀的方式掃描Chauvin的書信空間,可以獲得全貌的認知;不過由于存在大量噪點,其實看不到太多細節,比如Chauvin跟誰互動最為頻繁?誰給Chauvin寫了最多郵件,Chauvin又寄給誰最多郵件?通過算法過濾掉聯絡頻次較低的節點,再將邊的權重體現出來,得出了另外一幅交往圖。

如上圖所示,Chauvin的大部分通信關系主要在同學與同事之間展開。一如既往地,Chauvin作為書信空間的中心節點,入度和出度極其不平衡。孜孜不倦地向Chauvin寫郵件的是招商銀行和當當網,粗粗的深藍線條表明,它們從來沒有得到過Chauvin的回應;而Chauvin向WH2和WH12兩位同事寫了最多的書信,但總體上,仍然是收到的比寄出的多。惟一的例外是他與R的互動異常頻繁。回歸到真實的交往活動,這個特征有跡可循。R是Chauvin在南京大學的德國同事,她在入職南京大學之前、之中以及之后,遇到了各種問題,為了幫助R順利度過適應期,他們在電子郵件上進行了大量溝通。

另外,在Gephi對網絡可視化的界面,如果我們把鼠標懸停在某個節點上,系統會自動測算出有直接聯系的不同節點。根據這個算法,我們能夠看到不同節點的關系。在不斷嘗試的過程中,我突然發現了下面的關聯。

在Chauvin眾多的聯系人中,只有PKU12與學志編輯部grsxz具有關聯。PKU12是Chauvin碩士班同學,他先于Chauvin加入了學志編輯部,后來推薦Chauvin加了進來。這段塵封的往事,估計也只有透過SNA的分析,才會被重新挖出來。

進入郵件的內部

到目前為止,我們一直在電郵數據庫的外圍打轉,還沒有開始對郵件內容進行分析。關于這節,我先賣個關子:欲知后續如何,請聽下回分解。

短暫小結

信件、日記等私人化的文字,向來是歷史學者重視的史料,雖然它們并不一定盡顯客觀。奧古斯丁早在一千多年前就知道,記錄在案的文字一定會成為呈堂證供,所以刻意留下了自己的書信副本,讓我們有機會窺見這位曠世奇才的精神世界。但奧古斯丁的行為太過前瞻性,甚至讓人有理由懷疑他在寫信的時候會掩蓋自己的真實想法。在這點上,電子郵件反而體現了客觀的價值。

電子郵件雖然不像傳統書信那樣長篇大論,但收件人和寄件人在當下都還沒有意識到這些文字將來有可能供人研究,它們或許更能準確表達使用者的心境。而且,發出去的郵件如同潑出去的水,只要還在服務器上,就無法撤銷,也無法刪除和修改,真正演變為脫離了作者的獨立存在。它們能夠發揮何種作用,那就靠讀者自由發揮了。

上述的分析在很大程度上是游戲之作,并不屬于嚴格的學術研究。但是也許在不久將來,如何處理電子郵件會成為歷史學家的必備技能。正如有學者提到的那樣,掌握古董硬盤的修復技術可能會是未來歷史學者的必殺技。當然,當AI技術成熟,對這種“天生數字化”資料的分析,可能是小菜一碟。不過,現在AI還在路上,我們在這里構建一位歷史學者的“書信空間”,算得上是一次技術路演吧!

(本文的寫作,得到了南京大學軟件學院劉嘉、郭建朋的技術支持,在此表示感謝!)

    責任編輯:鐘源
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 兴化市| 冀州市| 平果县| 水富县| 伊春市| 滨州市| 名山县| 新龙县| 南部县| 红原县| 东乡县| 徐汇区| 库伦旗| 天祝| 常山县| 宿迁市| 家居| 昌宁县| 彭州市| 恩平市| 京山县| 兴山县| 无锡市| 阜城县| 兴业县| 沁水县| 商南县| 襄樊市| 策勒县| 聊城市| 怀仁县| 义马市| 浑源县| 丰顺县| 历史| 黎川县| 兰州市| 扶余县| 陕西省| 桓台县| 错那县|