- +1
臺(tái)大資訊工程學(xué)教授:新技術(shù)能為歷史研究提供什么幫助
數(shù)字時(shí)代,資訊科技能夠?yàn)閭鹘y(tǒng)歷史學(xué)研究帶來(lái)怎樣的變化?就目前歷史學(xué)界的研究體驗(yàn)來(lái)說(shuō),一是研究者可以利用新技術(shù)帶來(lái)的數(shù)字資源,突破原有時(shí)間、空間的界限,能夠?qū)崿F(xiàn)短時(shí)間內(nèi)占有更多的研究資料,二則是新技術(shù)帶給傳統(tǒng)歷史學(xué)研究的新方法、新思路。但另一方面,也有不少史學(xué)研究者對(duì)新技術(shù)提供的服務(wù)表示不滿(mǎn)和遺憾。
作為歷史研究的主體,以往談及數(shù)字時(shí)代的史學(xué)研究,多是由歷史研究者發(fā)聲。那么,作為數(shù)字資源服務(wù)的提供方,簡(jiǎn)單地說(shuō),就是歷史文獻(xiàn)數(shù)據(jù)庫(kù)、檢索系統(tǒng)的建設(shè)者來(lái)說(shuō),他們?nèi)绾卫斫膺@個(gè)問(wèn)題?又如何思考數(shù)字時(shí)代的歷史學(xué)研究?
5月29日,上海交通大學(xué)人文學(xué)院邀請(qǐng)臺(tái)灣大學(xué)數(shù)位人文研究中心主任項(xiàng)潔教授做客歷史系,介紹臺(tái)灣大學(xué)自1996年以來(lái)在史料數(shù)字化上的工作,并以臺(tái)灣歷史數(shù)位圖書(shū)館(Taiwan History Digital Library--THDL)為例,從史料收集與數(shù)位化、數(shù)位典藏庫(kù)建置方法、人文研究如何應(yīng)用數(shù)位數(shù)據(jù)庫(kù)等議題交流看法和心得。會(huì)后,澎湃新聞(www.kxwhcb.com)采訪了項(xiàng)教授。

項(xiàng)潔是臺(tái)灣大學(xué)資訊工程學(xué)系的特聘教授,同時(shí)也是臺(tái)灣大學(xué)數(shù)位人文研究中心的主任,曾任臺(tái)灣大學(xué)圖書(shū)館館長(zhǎng)。近幾年來(lái),他一直致力于數(shù)字人文的研究,尤其是歷史文獻(xiàn)數(shù)據(jù)庫(kù)的開(kāi)發(fā)。他主持開(kāi)發(fā)的臺(tái)灣歷史數(shù)位圖書(shū)館、云南民間古文書(shū)的數(shù)據(jù)庫(kù)等,在學(xué)界都有一定的影響力。據(jù)他介紹,臺(tái)大從1996年開(kāi)始進(jìn)行歷史文獻(xiàn)的數(shù)字化工作,2002年臺(tái)灣開(kāi)始普遍展開(kāi)數(shù)位典藏的工作,2007年,已積累了十年工作經(jīng)驗(yàn)的臺(tái)大成立了數(shù)位典藏研究中心,后來(lái)改名數(shù)位人文研究中心。從“數(shù)位典藏”到“數(shù)位人文”,名稱(chēng)改換背后,其實(shí)是一個(gè)理念的變化。
“我個(gè)人覺(jué)得數(shù)字典藏是被動(dòng)的,數(shù)據(jù)放在那里等待被使用。數(shù)字人文是主動(dòng)的,試圖與研究者的需求產(chǎn)生關(guān)系。”所謂“被動(dòng)”,就是說(shuō)數(shù)據(jù)庫(kù)中存儲(chǔ)的千千萬(wàn)萬(wàn)條文獻(xiàn)數(shù)據(jù),對(duì)使用者來(lái)說(shuō),它們只是等待被檢索的對(duì)象。除了檢索之外,使用者似乎對(duì)于整個(gè)系統(tǒng)也沒(méi)有更多面向的使用。而“數(shù)位人文”,用項(xiàng)教授自己所下定義來(lái)說(shuō),就是透過(guò)資訊科技用數(shù)字資源進(jìn)行人文研究。淺白一點(diǎn)說(shuō),他開(kāi)發(fā)、建設(shè)的系統(tǒng)并不是僅僅實(shí)現(xiàn)資料的檢索,而是要為研究者提供一個(gè)“能觀察”的環(huán)境,在這個(gè)系統(tǒng)中,能夠呈現(xiàn)資料之間的脈絡(luò)關(guān)系,以此彌補(bǔ)史料本身存在的不足,以及數(shù)字化之后,信息所呈現(xiàn)出的龐雜紛亂。
多年從事歷史文獻(xiàn)數(shù)據(jù)庫(kù)的開(kāi)發(fā)和建設(shè),項(xiàng)教授對(duì)于接觸過(guò)的資料也產(chǎn)生過(guò)一些研究想法,不過(guò)他對(duì)自己的定位很明確,“我現(xiàn)在做的不是學(xué)術(shù),是學(xué)術(shù)服務(wù)業(yè)”。
項(xiàng)潔:歷史學(xué)和人類(lèi)學(xué)是我從小的喜好,在臺(tái)灣我也花了十余年做了大量的數(shù)字史料方面的工作。對(duì)我來(lái)說(shuō),思考如何透過(guò)信息科技來(lái)使用這些數(shù)字資源從事歷史研究,這似乎是很自然的一件事。
澎湃新聞:曾與一位歷史研究者談及電子資源的使用,他說(shuō),我們使用電子資源時(shí),所感受的不足或者“麻煩”,其原因不在于技術(shù)本身,而在于技術(shù)開(kāi)發(fā)者和資源使用者之間的溝通,使用的人不懂技術(shù),管技術(shù)開(kāi)發(fā)的人又不知道使用者需要什么,而一旦他們認(rèn)識(shí)到這個(gè)問(wèn)題,技術(shù)完全能做得更好。您怎么看這個(gè)問(wèn)題?
項(xiàng)潔:我的學(xué)生大多是學(xué)資訊的,每年我要花很多時(shí)間跟他們講,我們的工作不是要幫歷史學(xué)家做研究,給他們找答案。歷史研究是一門(mén)詮釋的學(xué)問(wèn),這不像計(jì)算機(jī)科學(xué),你提出一個(gè)問(wèn)題,它給你一個(gè)答案。我認(rèn)為,我的工作是要給歷史學(xué)家一個(gè)能觀察的環(huán)境。
起初,我們做數(shù)字化的工作,一些歷史學(xué)家除了檢索之外,似乎對(duì)系統(tǒng)沒(méi)有更多面向的使用,我想這不是他們的錯(cuò),是我們的錯(cuò),我們沒(méi)有提供一個(gè)研究者愿意使用,有興趣使用的系統(tǒng)。

澎湃新聞:您認(rèn)為,歷史學(xué)家需要怎樣的數(shù)字系統(tǒng)?
項(xiàng)潔:一個(gè)好用的系統(tǒng)。以THDL為例,我們的目的一方面是要提供既深且廣的第一手臺(tái)灣史料,比如,我們“明清臺(tái)灣行政檔案”部分包括了80%的20世紀(jì)以前的中文官方檔案;“古契書(shū)”的史料囊括了從1666年到日治初期,涵蓋清代全臺(tái)灣的資料,具有相當(dāng)?shù)拇硇浴A硪粋€(gè)方面,我們也在思考這個(gè)系統(tǒng)能不能把臺(tái)灣史研究借由數(shù)位資料和資訊科技帶到一個(gè)不一樣的層次。
傳統(tǒng)檢索系統(tǒng)是這樣的,它以precision(求準(zhǔn)率)和recall(求全率)作為系統(tǒng)使用指標(biāo),其背后的預(yù)設(shè)是文件之間沒(méi)有關(guān)聯(lián)。我們?cè)诰W(wǎng)頁(yè)上使用的搜索引擎、圖書(shū)館的自動(dòng)化系統(tǒng)和大部分digital libraries(數(shù)字圖書(shū)館)都是這樣的。所謂“求準(zhǔn)率”,就是說(shuō),檢索結(jié)果是不是你要的內(nèi)容;所謂“求全率”,就是說(shuō),是不是能顯示所有相關(guān)內(nèi)容。這兩個(gè)指標(biāo)是很難在一個(gè)系統(tǒng)兼而有之,一般求準(zhǔn)率高的系統(tǒng),求全率就低,百度、谷歌就是這樣,其文件和文件之間沒(méi)有關(guān)聯(lián),反而是在“打仗”,誰(shuí)贏了,誰(shuí)就顯示在前面。
文件與文件之間是什么關(guān)系?對(duì)不同的史料來(lái)說(shuō),是不一樣的。檔案中的文件多數(shù)是彼此相關(guān)的,存在脈絡(luò);而對(duì)于一些散亂的民間文獻(xiàn),其脈絡(luò)并不清晰,需要研究者去發(fā)現(xiàn),把它聯(lián)系起來(lái)。
那么,我希望檢索系統(tǒng)能夠盡量提供文件的各種脈絡(luò)以及觀察脈絡(luò)的環(huán)境。也就是說(shuō),你輸入一個(gè)搜索詞,檢索成果可以是一個(gè)有意義的文件集,給使用者提供各種方法讓他觀察其中的脈絡(luò)。
澎湃新聞:您說(shuō),最初與人類(lèi)學(xué)家一起做數(shù)字人文的工作,彼此曾產(chǎn)生過(guò)很多爭(zhēng)論,能談?wù)剢幔繗v史學(xué)者和技術(shù)開(kāi)發(fā)者處理歷史信息的差異在哪兒?
項(xiàng)潔:人文學(xué)者講求精讀,從少量的數(shù)據(jù)里看出豐富的內(nèi)涵。數(shù)字人文則希望有能力在精讀之前,先粗略地鳥(niǎo)瞰整個(gè)數(shù)據(jù)群,其前提是要有足夠多的數(shù)據(jù)。
一開(kāi)始,我們的爭(zhēng)論——當(dāng)然還是學(xué)理上的爭(zhēng)論,主要在于數(shù)據(jù)的數(shù)字化,尤其是詮釋數(shù)據(jù)(metadata)的建立,要到什么地步才算合理。人文學(xué)者希望越詳細(xì)越好,但太詳細(xì),數(shù)字化的量就勢(shì)必不會(huì)足夠大,那么,就達(dá)不到鳥(niǎo)瞰的效果。這里還有一個(gè)問(wèn)題,就是資料數(shù)據(jù)的“標(biāo)準(zhǔn)化”,這關(guān)系到詮釋數(shù)據(jù)(metadata)字段的設(shè)計(jì),數(shù)字化的主要目的是使用,標(biāo)準(zhǔn)化會(huì)更方便使用。

澎湃新聞:為了更好地實(shí)現(xiàn)“鳥(niǎo)瞰”資料的效果,THDL有哪些分析工具,可供其他數(shù)據(jù)庫(kù)開(kāi)發(fā)借鑒?
項(xiàng)潔:我是希望在我建設(shè)的系統(tǒng)界面中,呈現(xiàn)多種與檢索結(jié)果相關(guān)的資料,所以,你可以在我們的檢索界面看到與檢索結(jié)果相關(guān)的地理分布圖、時(shí)間分布圖,還有檢索后分類(lèi),這是將檢索結(jié)果依據(jù)年代、出處、作者、分類(lèi)、地域五種面向分類(lèi),力圖呈現(xiàn)出整體分布情況,這些信息就可以形成一個(gè)信息的集合,希望這個(gè)集合有利于使用者發(fā)現(xiàn)文獻(xiàn)之間的脈絡(luò)。


在“臺(tái)灣總督府檔案”數(shù)據(jù)庫(kù)中有很多文書(shū)、契約資料,我們?cè)O(shè)有g(shù)is工具,提供“臺(tái)灣堡圖”、“地形圖”、“衛(wèi)星地圖”、“古今對(duì)照”、“行政區(qū)域”五種底圖,利用我們的檢索工具,可以查看不同類(lèi)型的契書(shū)在地理上的分布情況。

另外,我們也可以通過(guò)數(shù)據(jù)庫(kù)的設(shè)計(jì)發(fā)現(xiàn)隱藏于語(yǔ)意中的資料之間的脈絡(luò)。THDL中有近40,000件地契文書(shū),這些文書(shū)來(lái)自一百余種不同的出處,這些契約文書(shū)彼此有什么關(guān)系:哪些契約是關(guān)于同一塊(或相鄰)土地的文書(shū)?哪些契約是關(guān)于同一個(gè)大家族的?如果不借助資訊科技,要重建文件之間原有的脈絡(luò),得耗費(fèi)極大的人力和時(shí)間。那么,我們的數(shù)據(jù)庫(kù)如何實(shí)現(xiàn)這個(gè)脈絡(luò)的聯(lián)結(jié)呢?
我們可以自動(dòng)選取契書(shū)的標(biāo)題、人名、四至、土地面積、售價(jià)、地號(hào)以及時(shí)間等信息特征,通過(guò)上述信息的比對(duì),就可以找出彼此有關(guān)聯(lián)的契書(shū),而這個(gè)工作單靠人力去完成是很難的。我們把這些有關(guān)聯(lián)的契約文書(shū)串聯(lián)起來(lái),可以形成一塊土地在不同地主手中的轉(zhuǎn)移圖。目前我們?cè)谌f(wàn)多件契約中,已經(jīng)形成了2376個(gè)土地轉(zhuǎn)移圖,其中有一塊地的流轉(zhuǎn)由103件契約構(gòu)成,可見(jiàn)這塊土地背后是一個(gè)多么有趣的故事!

上圖兩個(gè)文件中涉及的人名、地名均不同,文件出處也不同,我們很容易忽略二者之間的關(guān)聯(lián)。但是仔細(xì)看,就會(huì)發(fā)現(xiàn)兩個(gè)文件涉及的土地“四至”相同,系統(tǒng)便認(rèn)定這兩份文件是來(lái)自同一塊土地的兩張契約,由此即可建立兩個(gè)文件之間的聯(lián)系。

這是一塊苗栗永和山地區(qū)的土地交易情形,圖中的主角是率先開(kāi)墾土地的廖姓家族。這個(gè)圖直接呈現(xiàn)出的資料之間的脈絡(luò)是我們通過(guò)技術(shù)可以實(shí)現(xiàn)的,但是這個(gè)圖在社會(huì)史、經(jīng)濟(jì)史和家族史上呈現(xiàn)的意義,是需要?dú)v史學(xué)家去研究的。
這樣的方法我們也應(yīng)用于明清朝廷奏折的分析,你可以發(fā)現(xiàn)奏折、上諭之間的引用、包含的關(guān)系,借此研究者可以觀察朝廷政務(wù)討論中的脈絡(luò)。
澎湃新聞:從您的角度看,數(shù)字化對(duì)歷史學(xué)研究的積極作用是什么?
項(xiàng)潔:首先,陸續(xù)發(fā)現(xiàn)的歷史文獻(xiàn)越來(lái)越多,也出版了不少資料集,但是一個(gè)問(wèn)題是,資料集出版后,如果再出現(xiàn)相關(guān)的資料怎么辦?與出版業(yè)相比,數(shù)字平臺(tái)的好處就是可以持續(xù)追加。這是一個(gè)動(dòng)態(tài)的資料集合。對(duì)歷史學(xué)研究來(lái)說(shuō),這當(dāng)然是個(gè)便利條件。
其次,就研究來(lái)說(shuō),我以為,文獻(xiàn)之間的脈絡(luò)是可以通過(guò)數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)的,而“文本”與“人文”之間的脈絡(luò)則是歷史學(xué)家需要去研究的。大量的數(shù)位史料應(yīng)該是可以拓展歷史研究的想象空間。當(dāng)然,在用數(shù)位資料的同時(shí),也需要認(rèn)識(shí)到資訊科技運(yùn)用在人文研究上所存在的限制——數(shù)據(jù)庫(kù)對(duì)相關(guān)資料的取樣是否均衡,其數(shù)據(jù)統(tǒng)計(jì)的意義,歷史研究者在利用數(shù)據(jù)庫(kù)資料進(jìn)行研究時(shí),這些問(wèn)題是需要研究者思考的。
澎湃新聞:從技術(shù)層面來(lái)說(shuō),西方學(xué)界的史料數(shù)位化是怎樣的?
項(xiàng)潔:他們更強(qiáng)調(diào)資料的互操作性。因此在數(shù)據(jù)著錄工具、檢索協(xié)議、視覺(jué)呈現(xiàn)上有很多很好的工作和成果。相比之下,對(duì)于史料脈絡(luò)的思考上反而沒(méi)有那么清楚。





- 報(bào)料熱線(xiàn): 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司