▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

歷史學(xué)家的新技藝:如何處理成為史料的電子郵件

王濤
2018-02-05 09:58
來源:澎湃新聞
? 私家歷史 >
字號(hào)

長久以來,對(duì)歷史學(xué)者彌足珍貴的傳統(tǒng)史料形態(tài),諸如日記、書信、回憶錄等,已經(jīng)被“數(shù)字化”的名頭剿殺了。大約十年前,我還以傳統(tǒng)的思路和方法研究奧古斯丁的書信,并提出了“書信空間”的概念,還在后記中展望了個(gè)人的“書信空間”。簡言之,“書信空間”就是用書信編織的一個(gè)獨(dú)具特色的人際網(wǎng)絡(luò)體系,參與其中的人發(fā)生關(guān)聯(lián)、互動(dòng)、影響;通過對(duì)“書信空間”的描述與研究,我們可以了解人群的交往行為。不曾料想,今天我卻面臨著無“信”可以構(gòu)建的尷尬。——我們現(xiàn)在都用電子郵件!

據(jù)說中國的第一封電子郵件是1980年代末從北京發(fā)出的,其中“越過長城,走向世界”的話語,令人唏噓。后來,電郵的便利讓我們愈發(fā)懶惰和貪婪,不愿提筆多寫一個(gè)字,也不愿多等一刻平郵的信件。

某日,在整理電腦文件時(shí),我突然在某個(gè)隱秘的文件夾里發(fā)現(xiàn)了一個(gè)舊文檔,里面是多年前為了解決電子郵箱的容量問題不得不刪除的舊信件。出于歷史學(xué)者的職業(yè)敏感,我事先下載了部分電子郵件,現(xiàn)在隨手點(diǎn)擊鼠標(biāo)看了看,居然讀到了2002年的電郵!一個(gè)想法在我腦海中閃現(xiàn),這些電郵是很有意味的新形態(tài)史料,它們能否勾勒出我過去十多年的生活軌跡,構(gòu)建我個(gè)人的“書信空間”呢?

在這個(gè)靈感的推動(dòng)下,我開始了一場實(shí)驗(yàn)。我以一名歷史學(xué)者的身份,嘗試去處理一批“天生數(shù)字化”的資料。這個(gè)過程充滿了新奇,既有傳統(tǒng)歷史研究的共性問題和解答,也有意想不到的處境和方法。或許,我的實(shí)驗(yàn)將成為未來5-10年歷史學(xué)家工作的常態(tài)。

數(shù)據(jù)整理

多年前存檔電子郵件時(shí),我并沒有想過去研究它們,也就沒有考慮到格式的問題,現(xiàn)在就不得不面臨如何將它們結(jié)構(gòu)化的麻煩。這個(gè)工作主要由南京大學(xué)軟件工程學(xué)院的郭建朋同學(xué)幫忙寫代碼,將結(jié)構(gòu)混亂的電郵數(shù)據(jù)進(jìn)行解析,整理出包括收件人、發(fā)件人、主題、文本、時(shí)間等在內(nèi)的字段,并放在了Excel表格中供后續(xù)處理。

但這個(gè)樣態(tài)的數(shù)據(jù)還不能直接用于分析。電子郵件的存檔跨度十幾年,雖然主要以新浪郵箱為載體,但郵件結(jié)構(gòu)并不是100%統(tǒng)一,寄件人的郵箱體系與新浪郵箱不兼容,發(fā)件人姓名與電子郵箱地址脫節(jié),再加上亂碼、地址錯(cuò)誤、垃圾郵件等各種問題,解析后的資料并不完美。

還要對(duì)數(shù)據(jù)做進(jìn)一步清洗,主要包括刪除重復(fù)信息,修正錯(cuò)誤的郵箱地址(有些錯(cuò)誤是發(fā)件人在錄入地址的時(shí)候打錯(cuò)了),將人與不同的郵箱匹配(一個(gè)人沒有兩三個(gè)郵箱都不好意思出來打招呼)。最典型的一個(gè)情況是,2013年8月,雅虎郵箱暫停服務(wù),導(dǎo)致很多人更換郵箱地址,也增加了消歧的工作量。雖然我編寫了Python代碼幫助提高工作效率,但還是有一些工作要手動(dòng)完成,耗費(fèi)了不少精力。所以,最終呈現(xiàn)在我面前的資料并不是一份完美的數(shù)據(jù)庫。但沒有哪位歷史學(xué)家見到過完美的史料,重點(diǎn)是能否從中引發(fā)有價(jià)值的話題。

這批電郵材料顯然存在固有的短處,它們肯定不是我所有電子郵件的全部(我究竟刪除了哪些電郵,估計(jì)只有AI知道了),也肯定不是我所有通訊活動(dòng)的全部。過去十幾年,手機(jī)短信一度成為交流的主導(dǎo),但所有短信已經(jīng)無從考證;三四年前,微信又開始取代短信,成為通訊的主要方式。很多人沒有意識(shí)到,微信或許會(huì)成為未來歷史學(xué)家研究人物的重要資料。但是,微信能下載存檔嗎?

下面的分析只能基于一份不完美的電郵數(shù)據(jù)庫,所有的郵件共計(jì)10076封,時(shí)間跨度2002-2013年,它們確實(shí)幫我搭建了一個(gè)可以與奧古斯丁媲美的“書信空間”。活躍在這個(gè)書信空間中的人,并不知道我會(huì)做這個(gè)奇怪的研究,也沒有征得他們的同意,所以我會(huì)隱去所有敏感的隱私信息。在行文當(dāng)中,除非必要,我都用代碼表示發(fā)件人與收件人,似乎面目模糊。但我想強(qiáng)調(diào),他們都是一群個(gè)性鮮明的人,在“書信空間”中熱鬧而有趣!

外圍的分析

我先假裝與我自己不熟,在“書信空間”中,TA的代碼是“Chauvin”。

這個(gè)人是誰?應(yīng)該是一位男性,因?yàn)橐恍┬偶焙羝洹跋壬薄S泻芏嘈偶兴袄蠋煛保蛟S他的職業(yè)是一名老師?單純從稱呼判斷有些勉強(qiáng),雖然統(tǒng)計(jì)到“老師”出現(xiàn)的頻率頗高。現(xiàn)在,“老師”已經(jīng)成為比較保險(xiǎn)的一種稱謂,很有可能與真實(shí)身份并不匹配。

不過,我統(tǒng)計(jì)了郵件數(shù)量與月份的信息,發(fā)現(xiàn)了一個(gè)奇怪的現(xiàn)象:郵件的數(shù)量會(huì)隨著月份周期性地改變。

隨機(jī)截取了2003-2006年間的數(shù)據(jù),發(fā)現(xiàn)每年到7、8兩個(gè)月,郵件數(shù)量都會(huì)突然減少,然后到9月份又迅速增多,1月和2月也會(huì)有所減少。這是典型的自帶寒暑假的工作模式。這個(gè)模式在整整十年的數(shù)據(jù)中依然有效,如下圖所示:

這個(gè)角度有點(diǎn)奇葩,但似乎能夠說明一點(diǎn)問題。對(duì)了,我居然忘記了一個(gè)殺手锏!既然是電子郵件,查查發(fā)件人的簽名檔不就行了嗎?不過可惜,這個(gè)家伙很懶,在10多年的通信中,一直沒有留下固定的簽名檔。后來雖然設(shè)置了簽名檔,卻只有單位信息,無法判斷職稱、身份等關(guān)鍵信息。不過,Chauvin或多或少與學(xué)校相關(guān)應(yīng)該是確定無疑了,他不是在讀書,就是在學(xué)校工作。數(shù)據(jù)沒有說謊!

Chauvin的身份大致可以確定了,所以我們也不用再繞彎子了。他過去十幾年的經(jīng)歷其實(shí)非常簡單,就是從學(xué)校到學(xué)校,雖然境內(nèi)外不同水準(zhǔn)的高校見識(shí)了不少,但基本都在同一個(gè)系統(tǒng)里晃蕩。接下來,我很想知道這些電郵能否描繪一個(gè)意料之外,或者不經(jīng)意的“自畫像”呢?

首先,Chauvin的書信空間異常活躍。整個(gè)電郵資料庫一共有1萬多封信件往來,存在群發(fā)的情況,把群發(fā)拆解成獨(dú)立的通信事件,結(jié)果總計(jì)55168次通信行為。10年,5萬多次,平均下來,每天有13.7次通信行為,這讓我覺得Chauvin的“書信空間”比奧古斯丁的熱鬧多了。目前存留下來的奧古斯丁書信不超過300封,Chauvin在體量上完勝教父。

實(shí)際上,如果把每個(gè)電子郵箱理解為一個(gè)獨(dú)立的人(剔除一個(gè)人擁有多個(gè)郵箱的情況),那么Chauvin的書信空間一共有4500多個(gè)獨(dú)立的個(gè)體。毫無疑問,這是虛假繁榮的表象,因?yàn)楦鶕?jù)鄧巴數(shù)字,Chauvin能夠維持的緊密關(guān)系不會(huì)超過150人。Chauvin的書信空間里有如此活躍的個(gè)體,要拜群發(fā)郵件所賜,讓Chauvin同許多八竿子打不著的人發(fā)生了關(guān)聯(lián)。當(dāng)然,也要拜垃圾郵件所賜,一些商業(yè)公司毫無節(jié)制地商業(yè)推廣行為,極大地豐富了這個(gè)書信空間的存在度。

但不要被這個(gè)假相蒙蔽,以為Chauvin是一個(gè)大忙人。如果以他為視角做統(tǒng)計(jì)的話,十年內(nèi)Chauvin一共發(fā)出了1890封郵件,但是收到的郵件8467封,是前者的4.5倍。由是觀之,Chauvin不僅不是一個(gè)特別活躍的人,而且是一個(gè)更傾向于被動(dòng)接受資訊的人。在Chauvin的書信空間中,最勤勉的一位發(fā)件人H,發(fā)送了6567封信,而且只截止2008年,TA是誰?2009年之后,這項(xiàng)桂冠落到了另外一個(gè)人G頭上,TA又是誰?了解這兩個(gè)人的背景會(huì)很有意思,他們跟Chauvin的經(jīng)歷轉(zhuǎn)換緊密相關(guān)。

再來看看他們都在使用哪些郵箱。或許能夠?yàn)槲覀兘颐仃P(guān)于Chauvin經(jīng)歷轉(zhuǎn)換的秘密?下面是排名前25的郵箱地址:

這張圖的信息量太豐富。難怪說電子郵件屬于個(gè)人隱私資料,僅僅做一個(gè)簡單的統(tǒng)計(jì),就能夠比較全面勾勒Chauvin的畫像了。首先,Chauvin被深深地打上了PKU的烙印,@pku為什么對(duì)他如此鐘情?因?yàn)镃hauvin曾經(jīng)在PKU求學(xué)7年,剛好涵蓋了電郵數(shù)據(jù)庫的大部分時(shí)間。那為什么Chauvin本科就讀的BNU在這里沒有一點(diǎn)存在感呢?不好意思,暴露年齡了,Chauvin于2001年本科畢業(yè),在數(shù)據(jù)庫涵蓋的年份之前;而更重要的是,Chauvin是在2002年之后,才開始頻繁使用電郵作為通信手段。

還記得之前提到的那位“發(fā)件王”H嗎?沒錯(cuò),H就是PKU負(fù)責(zé)學(xué)生工作的老師,TA勤勉地為歷史系的學(xué)生傳達(dá)消息,噓寒問暖,成為Chauvin在PKU學(xué)習(xí)的最好見證。由于H總是向不同年級(jí)的歷史系研究生群發(fā)郵件,Chauvin又在PKU待了足夠長的時(shí)間,所以TA成為當(dāng)之無愧的“群發(fā)之王”。那些PKU的歷史系校友們,你們是否意識(shí)到,我們?cè)?jīng)在某個(gè)時(shí)間節(jié)點(diǎn)上共存在于同一個(gè)“書信空間”中嗎?

緊隨其后的163郵箱似乎不能說明什么,因?yàn)樗鼛缀跏亲畛S玫墓绵]箱了。163的后綴雖然過于籠統(tǒng),但@前的信息意義重大,那個(gè)奪去H“發(fā)件王”桂冠的G,正是使用的163郵箱;再聯(lián)系到排名第三的NJU,如果把G的數(shù)量加入進(jìn)來,那么NJU排名第二,與PKU不相上下。這恰好暗合了Chauvin從2009年進(jìn)入NJU的時(shí)間軸。人生經(jīng)歷的轉(zhuǎn)換,居然被電郵的后綴給暴露了。

不止如此。我們看到了cmbchina.com,還有dangdang.com、jd.com以及ctrip.com這些商業(yè)公司的后綴名。太明顯不過了,Chauvin使用著招商銀行的信用卡,經(jīng)常在當(dāng)當(dāng)網(wǎng)上買書,在京東上購買電子產(chǎn)品,出差用攜程訂票。

gmx.de和hss.de的存在,揭示了Chauvin學(xué)習(xí)經(jīng)歷的另一面。熟悉德國的同學(xué)都知道,gmx.de在德國跟163在中國一樣,是一個(gè)占有率極高的郵箱服務(wù)平臺(tái);hss.de則是德國著名的賽德爾基金會(huì)(Hanns Seidel Stiftung)的網(wǎng)址。Chauvin曾經(jīng)在這個(gè)基金會(huì)的資助下赴德國學(xué)習(xí)。在Chauvin回國后,基金會(huì)在中國的校友會(huì)還經(jīng)常組織活動(dòng),它們出現(xiàn)在排行榜中也就不足為奇了。Chauvin與德國的聯(lián)系,還體現(xiàn)在了tongji.edu.cn的后綴上,那里的“同濟(jì)大學(xué)德國學(xué)術(shù)中心”暴露了Chauvin關(guān)心德國問題的事實(shí)。另外,alerts.stanford.edu的郵箱是一個(gè)學(xué)術(shù)信息推送平臺(tái),Chauvin通過訂閱它們,努力地維持著當(dāng)年的學(xué)霸形象。

我們還看到了令人唏噓的郵箱后綴:yahoo.com以及chinaren.com。我們都知道,雅虎郵箱于2013年停止服務(wù),在Chauvin的書信空間中,雅虎郵箱退去的同時(shí),另外一種郵箱卻在崛起——qq.com。把郵箱地址做一個(gè)時(shí)間軸的演變,就會(huì)發(fā)現(xiàn)QQ郵箱的增量明顯。很大程度上,Chauvin作為大學(xué)老師,很多學(xué)生都是用QQ郵箱與他聯(lián)系的。騰訊公司用QQ抓住了一大批穩(wěn)定的用戶。

那么chinaren.com又是什么?再一次暴露年齡的分析時(shí)刻。現(xiàn)在的小孩都知道微信、QQ,稍微年長的還在感嘆“人人網(wǎng)”的衰落,而“人人網(wǎng)”之前的“校內(nèi)網(wǎng)”估計(jì)知道的人就不多了,比“校內(nèi)網(wǎng)”更早的正是chinaRen校友錄!校友網(wǎng)當(dāng)年火爆的程度不遜于現(xiàn)在的微信,它是維系Chauvin高中、大學(xué)同學(xué)的紐帶。

關(guān)于Chauvin,我們從電郵數(shù)據(jù)庫中已經(jīng)了解到比較豐富的信息,以我對(duì)Chauvin的了解,這些推測都是正確的。最后,我們來對(duì)這個(gè)“書信空間”做一個(gè)全景的掃描,把寄件人與收件人的行為理解為最基本的社會(huì)關(guān)系,看看能否用Gephi繪制出有趣的社會(huì)網(wǎng)絡(luò)圖案來。

在經(jīng)歷了各種消歧后,我將Chauvin的所有郵件轉(zhuǎn)換成了囊括9661條邊文件以及4536個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)文件。放到i5第三代酷睿的舊電腦里跑了30分鐘,用ForcheAtlas2的布局,描繪了一張真正意義上的“書信空間”。由于節(jié)點(diǎn)太多,我擔(dān)心密集恐懼癥的人士看到會(huì)有所不適,故對(duì)背景做了一些處理,然后根據(jù)算法進(jìn)行了社團(tuán)分析。Chauvin的交際圈就這樣被暴露出來了。

雖然在這個(gè)“書信空間”中,Chauvin是毫無爭議的中心,但非常直觀地看到了不同圈子的存在。哪怕是Chauvin在PKU學(xué)習(xí)期間,也能夠細(xì)化出各種類型:歷史系碩博同窗的“同學(xué)圈”、參加德語角活動(dòng)的“德語圈”、參加戶外活動(dòng)的“娛樂圈”,以及獲得巴登州獎(jiǎng)學(xué)金的“校友圈”。請(qǐng)大家特別留意左下角的一片淺淺的墨綠色,它是Chauvin在PKU讀研究生期間加入《北京大學(xué)研究生學(xué)志》編輯部的一段學(xué)習(xí)經(jīng)歷的記錄。NJU期間的情況要復(fù)雜一些,但仍然有歷史學(xué)院同事、世界史同行、南京大學(xué)同事以及賽德爾基金會(huì)在上海和北京的校友圈等不同劃分。

從遠(yuǎn)距離閱讀的方式掃描Chauvin的書信空間,可以獲得全貌的認(rèn)知;不過由于存在大量噪點(diǎn),其實(shí)看不到太多細(xì)節(jié),比如Chauvin跟誰互動(dòng)最為頻繁?誰給Chauvin寫了最多郵件,Chauvin又寄給誰最多郵件?通過算法過濾掉聯(lián)絡(luò)頻次較低的節(jié)點(diǎn),再將邊的權(quán)重體現(xiàn)出來,得出了另外一幅交往圖。

如上圖所示,Chauvin的大部分通信關(guān)系主要在同學(xué)與同事之間展開。一如既往地,Chauvin作為書信空間的中心節(jié)點(diǎn),入度和出度極其不平衡。孜孜不倦地向Chauvin寫郵件的是招商銀行和當(dāng)當(dāng)網(wǎng),粗粗的深藍(lán)線條表明,它們從來沒有得到過Chauvin的回應(yīng);而Chauvin向WH2和WH12兩位同事寫了最多的書信,但總體上,仍然是收到的比寄出的多。惟一的例外是他與R的互動(dòng)異常頻繁。回歸到真實(shí)的交往活動(dòng),這個(gè)特征有跡可循。R是Chauvin在南京大學(xué)的德國同事,她在入職南京大學(xué)之前、之中以及之后,遇到了各種問題,為了幫助R順利度過適應(yīng)期,他們?cè)陔娮余]件上進(jìn)行了大量溝通。

另外,在Gephi對(duì)網(wǎng)絡(luò)可視化的界面,如果我們把鼠標(biāo)懸停在某個(gè)節(jié)點(diǎn)上,系統(tǒng)會(huì)自動(dòng)測算出有直接聯(lián)系的不同節(jié)點(diǎn)。根據(jù)這個(gè)算法,我們能夠看到不同節(jié)點(diǎn)的關(guān)系。在不斷嘗試的過程中,我突然發(fā)現(xiàn)了下面的關(guān)聯(lián)。

在Chauvin眾多的聯(lián)系人中,只有PKU12與學(xué)志編輯部grsxz具有關(guān)聯(lián)。PKU12是Chauvin碩士班同學(xué),他先于Chauvin加入了學(xué)志編輯部,后來推薦Chauvin加了進(jìn)來。這段塵封的往事,估計(jì)也只有透過SNA的分析,才會(huì)被重新挖出來。

進(jìn)入郵件的內(nèi)部

到目前為止,我們一直在電郵數(shù)據(jù)庫的外圍打轉(zhuǎn),還沒有開始對(duì)郵件內(nèi)容進(jìn)行分析。關(guān)于這節(jié),我先賣個(gè)關(guān)子:欲知后續(xù)如何,請(qǐng)聽下回分解。

短暫小結(jié)

信件、日記等私人化的文字,向來是歷史學(xué)者重視的史料,雖然它們并不一定盡顯客觀。奧古斯丁早在一千多年前就知道,記錄在案的文字一定會(huì)成為呈堂證供,所以刻意留下了自己的書信副本,讓我們有機(jī)會(huì)窺見這位曠世奇才的精神世界。但奧古斯丁的行為太過前瞻性,甚至讓人有理由懷疑他在寫信的時(shí)候會(huì)掩蓋自己的真實(shí)想法。在這點(diǎn)上,電子郵件反而體現(xiàn)了客觀的價(jià)值。

電子郵件雖然不像傳統(tǒng)書信那樣長篇大論,但收件人和寄件人在當(dāng)下都還沒有意識(shí)到這些文字將來有可能供人研究,它們或許更能準(zhǔn)確表達(dá)使用者的心境。而且,發(fā)出去的郵件如同潑出去的水,只要還在服務(wù)器上,就無法撤銷,也無法刪除和修改,真正演變?yōu)槊撾x了作者的獨(dú)立存在。它們能夠發(fā)揮何種作用,那就靠讀者自由發(fā)揮了。

上述的分析在很大程度上是游戲之作,并不屬于嚴(yán)格的學(xué)術(shù)研究。但是也許在不久將來,如何處理電子郵件會(huì)成為歷史學(xué)家的必備技能。正如有學(xué)者提到的那樣,掌握古董硬盤的修復(fù)技術(shù)可能會(huì)是未來歷史學(xué)者的必殺技。當(dāng)然,當(dāng)AI技術(shù)成熟,對(duì)這種“天生數(shù)字化”資料的分析,可能是小菜一碟。不過,現(xiàn)在AI還在路上,我們?cè)谶@里構(gòu)建一位歷史學(xué)者的“書信空間”,算得上是一次技術(shù)路演吧!

(本文的寫作,得到了南京大學(xué)軟件學(xué)院劉嘉、郭建朋的技術(shù)支持,在此表示感謝!)

    責(zé)任編輯:鐘源
    校對(duì):張亮亮
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            主站蜘蛛池模板: 同心县| 疏勒县| 县级市| 阳山县| 仁怀市| 定安县| 台州市| 阜城县| 新干县| 长沙市| 松原市| 林甸县| 凤城市| 河北区| 博白县| 新建县| 镇巴县| 灵山县| 南京市| 工布江达县| 泊头市| 安仁县| 隆尧县| 上栗县| 慈利县| 临泽县| 黑山县| 喀什市| 湛江市| 高台县| 镶黄旗| 泗洪县| 绥化市| 光泽县| 湖口县| 青岛市| 隆化县| 股票| 香格里拉县| 北安市| 体育|