▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

E時代的文史研究④︱學術檢索與知識管理

史睿 劉姝然
2020-07-04 10:42
來源:澎湃新聞
? 私家歷史 >
字號

因疫情影響,近半年來高校等研究單位的師生大都避疫在家,無法正常利用圖書館資源。自2020年4月起,由北京大學、南開大學等高校青年學者發起的“文獻挖掘整理研究會”決定在線舉辦第三次文獻沙龍,以助力文史學者更好運用線上資源以推進研究。本次沙龍邀請北京大學(中文系、歷史系、信管系)、清華大學、復旦大學、南開大學、臺灣“清華大學”、中華書局等單位的學者,圍繞“瘟疫時期的網絡資源”“學術檢索的過去現在和未來”“古典文獻資源的整合與導航”“中華書局的數字資源與使用”“史實數據的關系表達”六個議題展開研討。

第二場對談“學術檢索的過去、現在和未來”由史睿(北京大學中古史研究中心副研究員)主持,與談嘉賓黃一農(臺灣“中研院”院士、臺灣清華大學歷史所教授)、蘇芃(南京師范大學文學院教授)、李旻(復旦大學計算機科學技術學院講師)、劉姝然(北京大學信息管理系碩士研究生)參與研討,本文系此次對談的摘錄稿下篇。

劉姝然:從檢索系統的開發者角度,從Information Science這個專業出發,怎么思考檢索系統如何更好地服務于文史研究,今天我想分享這方面的內容。

我們專業和計算機學科有交叉,但其實也和古典文獻專業有一些淵源。北大信息管理系本來叫圖書館學系,早期的圖書館學專業可能更關注對“書”的組織和檢索,而隨著信息技術的發展,現在我們重新介入“數字人文”領域,會在關注“書”這種信息載體外,更加關注“書”里的信息、知識。怎樣用命名實體識別之類的技術從這些文本中提取知識單元,對知識進行更加細粒度化的組織,如何構建知識圖譜,這是我們關心的問題。比如說,我們實驗室對《宋元學案》做處理,把里面的人、地、時等實體都提取出來,建立實體和實體之間的聯系,構建知識圖譜,再用可視化方式來呈現書中的師承關系,書中所反映的史實就“立體”起來了。

那么,這種可視化系統有沒有可能成為新媒介環境下的一種檢索系統?例如我們在這些可視化界面中可能會發現一些有趣的視覺現象,這有沒有可能讓我們發現某些有價值的新問題?我去問文史專業的同學,他們說,這類可視化系統就像是給一本書的做了個“目錄”,能夠幫助讀者快速定位信息,高效地找到需要細讀的文本。這是不是也是某種“檢索”? 檢索系統有沒有可能是可視化的?如何利用信息技術去高效地實現這樣的檢索系統?這是我們專業的同學所關心的。

從人類文字誕生的那一刻起,如何快速從大量的記錄在各種各樣的存儲媒介中查找和獲取信息,就成為一個引人注目的問題。這個問題關系到人類如何主動獲取自己需要的知識,所以說,計算機專家們對于檢索系統的研究,其實和剛才老師們從人文研究角度去討論的問題,是有很深的聯系的,其內在的脈絡是——如何讓人高效地獲取信息?所以我們以前研究書目如何編輯,現在研究書內部的信息和知識如何組織、如何被檢索。以前我們查找信息去圖書館,現在我們需要“數字圖書館”,需要對數字資源的合理組織,需要更好用的學術檢索系統。

很多人覺得現在的學術檢索系統大多不太好用,無法做到模糊檢索、檢索詞推薦、合理的檢索結果排序等等,百度、谷歌能做到,甚至京東、淘寶也能做到,但學術檢索系統還停留在關鍵詞匹配檢索的階段。那么,學術檢索系統有沒有可能模仿商業搜索引擎的路徑向更易用的方向發展呢?關于這一點,我有一些暢想。比如,京東有“語義檢索”,你搜一個詞,它可以聯想出一些另外的詞給你做推薦,它是一個基于語義的檢索,而不是呆板的關鍵詞匹配,學術檢索有沒有可能做到這樣?又比如,淘寶有“分面檢索”,你如果搜“顯示屏”,它會告訴你可以從接口類型、尺寸、面板、類型等角度去做篩選,以更快地獲取到你想要的那個型號,那么,學術檢索有沒有可能也這樣,從不同方面去輔助你檢索到自己想要的某本文獻?再比如,我們現在可以直接用自然語言和谷歌對話,你去在搜索框中問谷歌蘇格拉底最聰明的學生是誰、姚明的身高是多少,它是可以回答的。中文領域,百度也有類似的功能,最近新出現的 MAGI知識圖譜搜索引擎,不僅可以回答這些問題,還可以去溯源機器是從哪些語料中去學習到的這一條的,這在學術檢索場景下是非常有必要的,也就是說,我們不僅要將從文本中提取出來的結構化信息展示給用戶,還需要告訴用戶,這是從哪一個文獻中提取出來的,為什么這樣提取,也就是提供其“論證過程”, 你如果不認可,可以去溯源,甚至糾正。還有一些更好玩的腦洞,比如,既然有今日頭條這樣的推薦系統,有沒有可能有學術頭條、學科頭條?能不能根據用戶需求、自身所關注的領域,把最新的一些研究成果主動推薦給用戶?

探尋式搜索

現在的學術檢索還只能滿足“查詢式搜索”的需求,也就是,輸入一個關鍵詞,然后做全文匹配,出來包括這個詞的所有文章。但是我覺得對于文史研究者來說,更重要的是“研究型搜索”,我們得到的檢索結果可能不是唯一的,我們的檢索過程可能是迭代式的、漸進性的,是不斷變換檢索詞,不斷逼近自己想要的答案的過程。那么在這個過程中,我們可能會經常去重構檢索詞,就是重新換一個檢索詞再去檢索,慢慢找到自己想要的某個檢索詞。系統開發者們非常關注這種檢索詞的重構,我們在想,機器能不能去學習到這些檢索詞的變化? 用戶輸入的第一個詞什么?第二次檢索詞為什么變了?這里面發生了什么樣的需求轉變,捕捉到這種需求之后,機器有沒有可能去滿足它?我覺得檢索一個信息,和生活中找一個東西,最大不同是,信息檢索其實本質上也是一個認知重構的過程,那有沒有可能將這種認知重構的過程用可視化檢索詞的方式展現出來?這些問題都是開發者們正在探索的,希望我們可以通過這些研究,更好地滿足人文學者的檢索需求。

“檢索”和“瀏覽”是人類最重要的兩種信息行為?!盀g覽”也很重要,在有目的或無目的的瀏覽過程中,可能會產生一些信息的“偶遇”,無意中發現的一些本來沒見過的東西,但這些東西對我們的研究可能非常重要。這讓我想到,其實圖書館的閉架會大大減少這種“無目的瀏覽”的機會,也就減少了“信息偶遇”,對研究和獲取信息是有負面影響的。在“數字圖書館”中,我們也需要避免這種“閉架”,讓學者們有機會“無目的地瀏覽”到數字資源,以引發一些研究靈感。

我在思考這些問題的過程中,越來越意識到,技術專家、系統設計者和人文研究者需要更深度的對話。比如我們一直在講知識的結構化提取,知識圖譜構建,但是有哪些實體需要提???實體之間有哪些關系?這些關系具體怎么定義?這都需要引入大量的專門知識,也讓人文學者參與進來。希望可以通過我們共同的努力、更廣泛的對話,去逐步構建一個更好用的學術檢索平臺,一個作為人文研究基礎設施的“數字圖書館”。

史睿:有了現代的電子檢索的手段,我們獲取信息的視野有什么樣的變化?如果以一個光學鏡片做比喻的話,可以說我們得到了一個視野非常寬廣的魚眼鏡頭,但同時鏡頭焦距變得特別短,視野中的內容發生了嚴重的畸變。所以獲得廣闊視野的同時,我們也有很多的損失。這樣的狀況,讓我們重新審視新舊媒體在知識管理體系上的張力,思考要怎么對待這個問題。

我今天想講的是,從上世紀90年代開始,“知識發現”這個詞在計算機科學領域受到更多的關注。那個時候我剛剛開始自己圖書館員的職業生涯,我也學習到很多這方面的知識。我們在進入一個跨越傳統媒體到新媒體的時代。那么在這個時代,是不是舊的媒體就已經完全死掉了呢?如果紙本書只是作為一個知識載體的話,那這個載體被時代拋棄,沒有什么遺憾。但實際上書籍也是一個知識管理模型,這是紙本媒體的隱形特征。這些知識管理模型所承載的功能,應該平滑地轉移到新媒體中,如果沒有完成這個過程就拋棄一切舊媒體,一定是不明智的。但是問題在于,我們發現知識管理模型的“平滑轉移”并不是自然而然的一個過程,需要付出很大的努力。

從戰后到21世紀初,新媒體的信息處理功能經過了七八十年的發展歷程。在這段歷程中,計算機的信息處理能力、人機交互能力有很大的進步,但是還有很多功能,比如說自然語言處理、語義檢索、知識發現,尚無完美解決方案,讓我們不能滿意。我認為新媒體有其“原罪”:即信息黑洞和信息失序。這么說也許有點過分,但是我想用這個詞提醒大家注意。

所謂信息黑洞,是指網絡上的信息今天有一個訪問地址,明天它遷移了,我們就找不到。更糟糕的是信息失序,當我們找一條信息的時候,計算機不能將信息放在人類熟悉的知識序列中顯示,并同時帶給我們與之密切關聯的一系列的其它信息。比如,以前我們在圖書館查書的時候,用卡片目錄去查,每張卡片都是編排在某個分類體系之下,它不僅告訴我們有這一本書,而且還通過卡片排序告訴與之有關聯的其圖書。這就是清代學者章學誠《校讎通義》所說的“即類求書”。這種功能在我們開始進入到電子書目檢索以后,基本上已經完全喪失了。僅僅是這樣一種很明確,而且很傳統的知識管理的辦法,在新媒體介入以后也發生了知識模型的破壞和知識線索的斷裂。知識組合形式、知識關聯形式、邏輯關聯形式,其實在新媒體中都沒有平滑地轉移過來,我們對這種現象感到非常焦慮。

燕京大學圖書館(引得編纂處)舊址,圖片來自北京大學網站

在這樣一個新舊媒體交錯的時代,對于舊的、傳統媒體時代的知識管理體系,我們必須了解它經歷了怎樣的演變過程,積累了怎樣的經驗,哪些模型、哪些技術,我們今天可以善加利用?哈佛大學燕京學社編纂處的《引得》叢書是洪業先生與哈佛大學燕京學社在中國開辦引得編纂處,幾十年的時間里編了數十種的古籍索引,對于中國現代學術的建立起了重大的作用?;赝祟悮v史,我們發現,所有在媒體轉變的時代,都伴隨著知識管理模式的轉變,而且這兩種變革的疊加會往往激發新的學術路徑、學術思考方向的變化。比如說,在東漢末期到魏晉時代,傳統經學格局積累的知識越來越多,但是同時打破這一格局、重新組織知識的辦法也逐漸產生。從形態上看,我們看到有編纂《皇覽》這樣的類書,還有王充《論衡》這樣打破學科體系壁壘的通論,所以這個時代學術有大的飛躍性發展。從那個時代往下發展,我們可以看到,像北宋初期雕版印刷術的產生和與之相配套的人類歷史上最早書籍索引的出現,都對學術的演進,甚至人類的思維產生了巨大的影響。在洪業先生的引得編纂處所取得的成就當中,我們可以看到中國學術從前近代進入了近代這樣的一個變化。這關系到我們今天討論的主題,就是學術檢索。就像早先幾位老師們所說的,以前的學者,他們要靠背誦很多東西來把知識儲存在自己腦子里,但當知識的數量非常大,超過人的記憶能力的時候,那要怎么處理,如何去重組呢?這就是要依靠學術共同體的工作,把它做一個重新的組合。復旦大學李旻老師展示的清代人物數據庫,任何人大概都沒有辦法憑自己的記憶掌握這么多的人物信息,家世、婚姻這樣的關聯,只有做了索引或者做了數據庫以后,才能夠超越一個人自己的生命歷程和他的記憶承受能力,實現更大的飛躍和對更多文獻的掌握與處理。這個歷程的開端就是當年在私立燕京大學、國立北平圖書館、中法漢學研究所里所做的那些索引編纂事業,也是今天學術檢索必須延續下去的必經之路。

我認為書籍是知識的載體,也是管理形式,目錄是前近代學術的一個基本組織形式。我們進入圖書館,在沒有現在的搜索引擎之前,獲取知識的途徑就是查目錄卡片。索引又給我們在目錄之外另加了一個新管理形式,它的出現是建立現代學術的基礎。首先它不是以書為單位的,而是以有意義的關鍵詞為單位,它知識粒度明顯比書或者是篇章這樣的粒度要細膩的多。在關鍵詞這樣細膩知識粒度的基礎上,我們可以做更多更深入的、更專精的學問。有了這樣的功能,每個學者都可以在超越個體的經驗和能力之上,做很多事情。

索引,乃至一切傳統檢索工具,本質上都是揭示人類知識內在關聯的認知方式,而且完全符合人類的認識習慣。徹底研究索引的原理和特性,能給我們帶來極大的啟示。知識中的確定性的內在關聯提取出來,總結成為規則。索引所揭示的知識規則,是構建新媒體時代人類知識的體系的基礎,也是實現知識發現新方案的基礎。索引具有三種功能:它是學術進階的工具,知識發現的手段,也是學術評價的標準。我們認為傳統的檢索工具,其實是人類認知思維的外在表現。索引有兩種形態,分別代表了人類的兩種認知形式,即知識擴展和模式識別。知識擴展又分為兩種形式,其一是單向度的知識擴展模型,就是在同一個文獻內部提出某些關鍵詞制成索引,當讀者在一個段落中發現其中一個關鍵詞,可以經由索引擴展到本書其他段落、篇章中的其他同一關鍵詞,這是一個閉合循環的知識擴展模型;其二是開放性的知識擴展,就是讀者在書中發現一個關鍵詞,通過綜合索引跳轉至多種文獻中與之相關的關鍵詞,從而再去擴展到其他文獻。在這個模型之上,如果把多個知識關聯序列進行疊加,我們又掌握了一個新的認知形式,就是模式識別。就像李旻老師所說的,我們以自己的學術研究目的為出發點的檢索途徑。我們不是說通過一個已知的關鍵詞去找它在文獻中出現的位置,而是根據某些邊際條件探索某個關鍵詞集,即獲取位于一個相關知識序列中的知識集合。比如說,我們綜合利用唐代的士族世系表、科舉年表(登科錄)、職官年表,探索士族出身的文士通過科舉途徑入仕和此后的升遷途徑中較之寒門子弟有何優勢,甚至結合士族郡望表進一步細致分析不同地域士族的升降與科舉之間的關系。模式識別是學術研究中更為高級的思維過程。

在學術研究中經常碰到這樣的情況,我們實際上只有一些邊際條件,不知道具體目標,這種情況下,我們是不是可以織成一個“知識發現”的魚網去捕獲信息,根據確定的邊界條件在海量數據里獲取有相關性的有序的知識集合。這個知識集合,它所有的知識點都是在一個知識關聯的網絡體系當中,不是單個的珠子,而是固定在一串項鏈上,我們可以知道它的定位,知道它跟其它知識之間的關聯。這樣的知識集合比任何搜索引擎得到的數據集更準確、更有效,讓我們提高效率,而且提高準確度,這在學術研究中更為重要,能夠快速獲得我們所需要的。知識圖譜正是用以實現模式識別思維功能的方案,它由多個知識本體庫以及多個知識模型組成,把這些知識模型進行疊加以實現模式識別功能。知識圖譜的綜合架構有點像分子模型,任何一個知識點都能夠在它的生物鏈上找到,而每個生物鏈跟其他的生物鏈之間還有一種關聯,那么我們可以通過它的顏色、大小、方向來定位它到底是哪一個具體的知識。我們看單獨的知識點,它是海量中一個不確定的點,但是當我們把不同來源的知識進行拼合的時候,其實它就變成了一個某種七巧板拼成的固定形狀,它每一個單塊都是不可移動的,是互相關聯從而互相限定的。那么,以往所有的問題、錯誤,包括誤解,其實都可以在這個體系中再認識。這種知識管理方案能夠讓我們把傳統媒體中經驗、知識和智慧,平滑地移入在新媒體中,讓我們能夠實現基于規則的方案和基于統計的方案的完美結合,也就是基于計算機技術的和基于專業領域知識的知識管理方案的完美結合,并且實現更高的人工智能,輔助人類更加廣闊、深入地認識主觀世界和客觀世界。

(本場文字稿由涂亮、何青紅、廖家燕、孫紹丹、潘君杰、鄭闖輝、張國棟整理,經史睿、劉姝然審定)

    責任編輯:于淑娟
    校對:張艷
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 博湖县| 晴隆县| 高尔夫| 壶关县| 翁源县| 广元市| 军事| 扎兰屯市| 沈丘县| 连江县| 安陆市| 恩平市| 工布江达县| 随州市| 大悟县| 常宁市| 珠海市| 天峨县| 田林县| 曲阜市| 高州市| 广宁县| 凤台县| 沛县| 铁岭县| 左权县| 报价| 延川县| 正安县| 开江县| 清新县| 张家港市| 西青区| 宕昌县| 双流县| 宁陵县| 衢州市| 探索| 岳阳市| 天祝| 兴宁市|