- +1
維基百科星星之火,照亮科研征途之路
維基百科星星之火,照亮科研征途之路 原創(chuàng) 胡一冰 集智俱樂部 收錄于話題 #復(fù)雜科學(xué)前沿2021 ,136個(gè)

導(dǎo)語
達(dá)爾文在一百多年前曾贊美“通俗科學(xué)讀物”的重要性,他不是在贊美這些讀物對大眾理解的影響,而是在贊美它們對于“科學(xué)的進(jìn)步”。近日 SSRN 上的一項(xiàng)研究通過隨機(jī)對照實(shí)驗(yàn)的方法印證了維基百科——這一最大的現(xiàn)代通用和通俗著作庫對知識(shí)傳播的影響。研究表明,維基百科不僅反映了科學(xué)文獻(xiàn)的現(xiàn)狀,它還有助于塑造科學(xué)文獻(xiàn)。
集智俱樂部也在組織「集智百科」這一長期項(xiàng)目,力求建立復(fù)雜性科學(xué)及相關(guān)領(lǐng)域全面、可靠的在線百科全書,歡迎對復(fù)雜性科學(xué)感興趣、熱愛知識(shí)整理和分享的朋友加入。詳情見文末。
研究領(lǐng)域:科學(xué)學(xué),維基百科,因果推斷,知識(shí)傳播
胡一冰 | 作者
劉培源 | 審校
鄧一雪 | 編輯

論文標(biāo)題:
Science Is Shaped by Wikipedia: Evidence From a Randomized Control Trial
論文地址:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3039505
1. 通俗讀物對科學(xué)的影響
達(dá)爾文曾認(rèn)為,對于科學(xué)的進(jìn)步的來說,一般的、通俗讀物和科學(xué)論文一樣重要。正如他撰寫的《物種起源》不僅是開創(chuàng)性的科學(xué)著作,同樣也是受人喜愛的暢銷書。現(xiàn)在人們能通過許多開網(wǎng)站獲取知識(shí),這些公共知識(shí)庫(public repositories of knowledge)能很好的促進(jìn)個(gè)人和社會(huì)的發(fā)展,例如人類基因組、StackOverflow、種子銀行等等。
盡管如此,仍有許多重要的科學(xué)知識(shí)無法在公共知識(shí)庫中獲取,尤其是發(fā)表在一些重要學(xué)術(shù)期刊上的研究成果或理論。人們對這部分知識(shí)的了解往往止步于付費(fèi)文檔、晦澀術(shù)語和糟糕的寫作等等。但如果這些深?yuàn)W的科學(xué)見解被轉(zhuǎn)化為平易近人的通俗文章,是否可以在便捷的公共知識(shí)庫中獲取呢?

圖1:公共知識(shí)庫(知識(shí)共享平臺(tái))為無數(shù)學(xué)習(xí)者提供了學(xué)習(xí)資源
維基百科想必大家并不陌生,有研究表明維基百科涵蓋了頂尖學(xué)術(shù)型本科生討論的90%以上的話題,以及初級(jí)研究生研討的約一半左右的話題。很明顯維基百科反映了科學(xué),但它也同樣塑造了科學(xué)嗎?科學(xué)家們在瀏覽維基百科文章時(shí)產(chǎn)生新的想法嗎?為了客觀衡量維基百科對科研的影響,近日在 SSRN 上發(fā)表的一項(xiàng)研究通過大數(shù)據(jù)和實(shí)驗(yàn)兩種方法,發(fā)現(xiàn)了其中蘊(yùn)含的因果關(guān)系,即當(dāng)科研成果作為參考文獻(xiàn)添加到維基百科后,這些論文將會(huì)有更多的學(xué)術(shù)引用。
2. 維基百科,最好的通俗讀物數(shù)據(jù)庫之一
維基百科是一個(gè)由用戶生成和編輯的在線百科全書,是目前同類中最大的百科全書。截至2017年,維基百科有530萬篇文章。這些內(nèi)容是由大約3000萬注冊編輯完成的,其中大約12萬人是活躍者。在過去的十年中,平均每年有3000萬余次編輯,其中包括創(chuàng)建新文章和完善現(xiàn)有文章。維基百科涵蓋各種各樣主題,其中每500萬篇文章中有50~100萬篇是關(guān)于科學(xué)主題的,并且這些文章都適合大多數(shù)本科生及研究生水平讀者。

圖2:自維基百科成立以來每年增加的詞匯和文章數(shù)量
先前的一些實(shí)證研究表明,對特定研究主題的接觸會(huì)影響科學(xué)家的研究和文獻(xiàn)引用。例如有人發(fā)現(xiàn)《紐約時(shí)報(bào)》發(fā)表一篇文章的增量效應(yīng)會(huì)顯著增加潛在研究論文的引用,其中第一年的引用增加了72.8%。
維基百科的存在讓科學(xué)信息變得更易獲取,該研究預(yù)計(jì)它也會(huì)對科學(xué)文獻(xiàn)產(chǎn)生影響。然而,這種影響很難通過熟知的引文檢索等方式得出,比如曾經(jīng)有研究發(fā)現(xiàn)只有0.01%的科學(xué)文章直接引用維基百科條目。那么,該研究者假設(shè)這不是因?yàn)榫S基百科沒有影響,而是傳統(tǒng)的學(xué)術(shù)引用沒有捕捉到維基百科的影響。為了驗(yàn)證這一點(diǎn),研究者們開發(fā)了一種詞匯測量方法,并利用學(xué)者們論文中的文字直接測量效果。
3. 研究數(shù)據(jù)來源介紹
該研究有四個(gè)主要的數(shù)據(jù)來源,分別是——
(1)完整的維基百科編輯歷史,包括自維基百科成立以來對每個(gè)頁面的每一次修改。編輯歷史共包括510萬篇文章,3.53億次編輯,174億字。一般來說,新的維基百科文章開始時(shí)很短,內(nèi)容會(huì)隨著時(shí)間的推移慢慢豐富。比如圖3描繪了新創(chuàng)建的超過20個(gè)單詞的文章的大小分布。這里我們可以看到,大部分的文章開始不到200字。在分布的尾部仍有一部分字?jǐn)?shù)很多的文章,這可能是由于重命名或重新分配大型現(xiàn)有文章而導(dǎo)致的。

圖3:所研究數(shù)據(jù)范圍內(nèi)新創(chuàng)建的超過20個(gè)單詞的百科文章字?jǐn)?shù)分布
(2)第二個(gè)是自1995年以來從5215份Elsevier期刊上發(fā)表的所有文章的全文版本,用它來代表科學(xué)文獻(xiàn)的狀態(tài)。一方面研究需要文獻(xiàn)全文來了解使用的詞匯,以此判斷它們是否反映了維基百科中使用的詞匯。另一方面還需要各文獻(xiàn)的發(fā)表信息,例如作者、發(fā)表年份等等。
(3)第三是從Web of Science獲得的學(xué)術(shù)期刊文章的引用數(shù)據(jù)。它提供了定向鏈接,表明哪些論文引用了哪些論文。這一信息也被匯總為每篇論文的每月總被引次數(shù)。
(4)第四個(gè)數(shù)據(jù)源是作為隨機(jī)控制實(shí)驗(yàn)而創(chuàng)建的一組維基百科文章。
4. 數(shù)據(jù)觀察分析與結(jié)論
該分析的目的是檢驗(yàn)維基百科文章內(nèi)容和科學(xué)文獻(xiàn)中的技術(shù)內(nèi)容之間的廣泛關(guān)聯(lián),具體表現(xiàn)為確定維基百科和《科學(xué)》在許多主題的大量文章中是否存在同步變化。同步變化表現(xiàn)在語義相似度(semantic similarity)和時(shí)間線(timeline)上。
(1)語義相似度。研究者們使用了余弦相似度(cosine similarity),一種“向量空間模型”(Vector Space Model)來評(píng)估科學(xué)文獻(xiàn)中的內(nèi)容是否與維基百科中的內(nèi)容相似。也就是說,將每個(gè)文檔中的單詞形成一個(gè)向量,然后對兩個(gè)向量進(jìn)行比較。

圖4:化學(xué)主題中維基百科和科學(xué)文章之間的相似性密度
(2)時(shí)間線。為了檢驗(yàn)維基百科和科學(xué)研究之間的關(guān)系,該研究查看了維基百科中新文章出現(xiàn)前與后短期內(nèi)的科學(xué)文章。具體時(shí)間線界如圖5所示:維基百科中文章的出現(xiàn)時(shí)期為首次創(chuàng)建后的三個(gè)月,而研究所覆蓋的時(shí)間范圍包括文章發(fā)表前6個(gè)月和之后的6個(gè)月。研究假設(shè)如果維基百科對科學(xué)發(fā)展有影響,那么維基百科文章創(chuàng)建后發(fā)表的論文將比之前發(fā)表的論文更像百科文章。

圖5:維百科文章的科研影響研究時(shí)間窗
研究者們對數(shù)據(jù)進(jìn)行基本分析后,如圖6所示,明確得到了維基百科的文章創(chuàng)作與科研文獻(xiàn)的發(fā)表有明顯正相關(guān)關(guān)系。不過這種趨勢針對于一些專業(yè)科學(xué)術(shù)語,例如“臭氧”一詞在維基百科和《科學(xué)》之間體現(xiàn)了相關(guān)性,但是像“反應(yīng)”這種詞匯卻無法體現(xiàn)這一趨勢。

圖6:維基百科的文章創(chuàng)作與科研文獻(xiàn)的發(fā)表的相關(guān)性
5. 隨機(jī)對照試驗(yàn)及結(jié)論
從觀察得到的相關(guān)性結(jié)論具有啟發(fā)意義,但這并不是因果關(guān)系。為此,在2013至2016年期間,該研究設(shè)計(jì)了多組對照實(shí)驗(yàn)來確定維基百科對學(xué)術(shù)科學(xué)的因果影響。具體做法是:讓來自頂尖大學(xué)的博士生根據(jù)他們各自的研究領(lǐng)域來撰寫新的科學(xué)主題維基百科文章,其中隨機(jī)挑選一半的文章上傳到維基百科,另一半則不上傳,仍采用對比一定時(shí)間窗內(nèi)文章的相似度的方式,來考慮這些文章對科學(xué)文獻(xiàn)的不同影響。
圖7反映對照組和實(shí)驗(yàn)組中的維基百科文章對科學(xué)文獻(xiàn)的影響。其中綠色為沒有上傳至維基百科網(wǎng)站上的文章(對照組)影響,藍(lán)色是上傳至網(wǎng)站上的文章(實(shí)驗(yàn)組)影響,通過對比兩組文章與科學(xué)文獻(xiàn)的相似性后發(fā)現(xiàn):對照組低相似度的文章數(shù)量增加,而高相似度的文章數(shù)量下降。而實(shí)驗(yàn)組結(jié)果相反,低相似度文章少,高相似文章多。這表明添加一篇新的維基百科文章會(huì)導(dǎo)致類似的科學(xué)文獻(xiàn)數(shù)量增加。此外,研究者們推導(dǎo)估計(jì),維基百科的每一篇文章(在一定程度上)可以影響250篇科學(xué)文獻(xiàn)。

圖7:對照組和實(shí)驗(yàn)組中的維基百科文章對科學(xué)文獻(xiàn)的影響
6. 維基百科與科研關(guān)系的引申問題
對照實(shí)驗(yàn)的發(fā)現(xiàn)客觀的驗(yàn)證了維基百科對科學(xué)文獻(xiàn)的影響,為了更好地理解維基百科文章的影響,研究者們還對以下三個(gè)問題進(jìn)行進(jìn)一步的思考:
(1)維基百科文章的對科學(xué)文獻(xiàn)的哪些部分有影響?
我們通常把科學(xué)文獻(xiàn)結(jié)構(gòu)分成摘要、介紹、方法、結(jié)果和結(jié)論幾部分。研究表明,除了摘要部分,維基百科對文獻(xiàn)其他部分均有統(tǒng)計(jì)學(xué)上的顯著影響,其中方法部分的統(tǒng)計(jì)顯著性最弱,而介紹部分最強(qiáng)。這說明維基百科文章對科學(xué)的背景以及作者與該領(lǐng)域其他方面的聯(lián)系產(chǎn)生了最大的影響。方法論部分的弱顯著性說明科學(xué)家們更傾向于根據(jù)維基百科的內(nèi)容來塑造他們的實(shí)驗(yàn),而非將其置于上下文之中。
(2)將維基百科作為資源對科學(xué)文獻(xiàn)的質(zhì)量影響是好是壞?
研究人員將這個(gè)棘手的問題又拆分成兩個(gè)子問題:使用維基百科作為來源的文章被引次數(shù)會(huì)更少嗎?維基百科是否有助于引導(dǎo)科學(xué)家找到好的靈感?根據(jù)目前的研究看來,并沒有發(fā)現(xiàn)任何證據(jù)表明受維基百科影響的文章比不受維基百科影響的文章獲得更多或是更少的引用。
對于第二個(gè)個(gè)子問題,實(shí)驗(yàn)組中的維基百科文章文末均添加了2-3篇參考文獻(xiàn),研究人員在該篇維基百科文章發(fā)布后的兩年中查看這些參考文獻(xiàn)的平均每月引用量。結(jié)果顯示,維基百科的文章頁面瀏覽量增加一倍會(huì)使文章引用量增長13%。
(3)某些特定群體(例如無法獲得傳統(tǒng)期刊文章的群體)是否獲益過多?
人們可能會(huì)認(rèn)為,公共知識(shí)庫對那些其他知識(shí)來源較少的人特別有價(jià)值,例如無法獲得科學(xué)期刊的發(fā)展中國家研究人員。相反,如果研究者們不能訪問維基百科引用的期刊文章,他們從維基百科文章中的收獲可能會(huì)更少。我們通過考慮基于國內(nèi)人均GDP的差異效應(yīng)來檢驗(yàn)這些維基百科效應(yīng)的影響。結(jié)果表明,相對富裕的國家比貧窮的國家能從中受益更多。可能原因一是在人均GDP較低的地區(qū),維基百科的使用量較低。原因之二可能是能訪問學(xué)術(shù)期刊是充分受益于維基百科文章的必要條件。
7. 研究總結(jié)與其現(xiàn)實(shí)價(jià)值
該研究分析了公共科學(xué)知識(shí)庫的影響,通過隨機(jī)對照試驗(yàn),研究者發(fā)現(xiàn)維基百科科學(xué)文章的創(chuàng)建會(huì)影響科學(xué)文獻(xiàn)中數(shù)百篇后續(xù)文章——這有力地證明了維基百科是傳播知識(shí)的重要來源。該項(xiàng)工作超越了相關(guān)性來建立因果關(guān)系,不難得到這樣的結(jié)論:維基百科不僅反映了科學(xué)文獻(xiàn)的現(xiàn)狀,它還有助于塑造科學(xué)文獻(xiàn)。
研究者們希望這項(xiàng)發(fā)現(xiàn)能夠足以激勵(lì)更多科學(xué)家采取積極行動(dòng)為維基百科提供文章和編輯。當(dāng)然,這絕不局限于個(gè)人行為。研究者們期望相關(guān)公共政策干預(yù)能促進(jìn)科學(xué)的發(fā)展,例如降低這些公共知識(shí)平臺(tái)運(yùn)營成本,組織各行業(yè)專業(yè)協(xié)會(huì)開發(fā)全面的在線知識(shí)庫等。
參與集智百科,助力復(fù)雜科學(xué)
集智百科的目標(biāo)是做復(fù)雜性科學(xué)領(lǐng)域科學(xué)、全面、客觀的百科全書,以“知識(shí)從我而來,問題到我為止”為宗旨。目前我們詞條已經(jīng)涵蓋復(fù)雜系統(tǒng)、人工智能、統(tǒng)計(jì)物理、因果科學(xué)、計(jì)算社會(huì)科學(xué)等復(fù)雜性科學(xué)的關(guān)鍵領(lǐng)域,未來我們還會(huì)不斷為百科添加更多內(nèi)容。
現(xiàn)在,我們的團(tuán)隊(duì)有各式各樣的成員,包括海內(nèi)外知名高校的學(xué)生、教授、以及來自各行各業(yè)的科學(xué)詞條愛好者,分別處理審校、翻譯、編輯、傳播等工作。我們有一個(gè)共同點(diǎn):對復(fù)雜性科學(xué)有著濃厚的興趣,且樂于分享自己的知識(shí)。

集智百科采用“眾包生產(chǎn)”模式,持續(xù)吸引更多志愿者加入這個(gè)團(tuán)隊(duì),使百科詞條內(nèi)容得到擴(kuò)充,并為每位志愿者提供相應(yīng)獎(jiǎng)勵(lì)與資源,建立個(gè)人主頁與貢獻(xiàn)記錄,使其能夠繼續(xù)探索復(fù)雜世界。
如果你有意參與更加系統(tǒng)精細(xì)的分工,掃描二維碼填寫報(bào)名表。期待你的加入!
集智百科報(bào)名表
原標(biāo)題:《維基百科星星之火,照亮科研征途之路》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號(hào)請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司