- +1
大數(shù)據(jù)無所不能嗎?來自小數(shù)據(jù)研究者的六點(diǎn)質(zhì)疑
原創(chuàng) 新傳研讀社 新傳研讀社
寫在前面:
本期推送為你準(zhǔn)備的是著名社交媒體研究者danah boyd和Kate Crawford撰寫的論文《大數(shù)據(jù)的關(guān)鍵問題:對于一個(gè)文化、技術(shù)與學(xué)術(shù)現(xiàn)象的挑戰(zhàn)》。在這篇論文中,兩位學(xué)者對大數(shù)據(jù)研究提出了六點(diǎn)質(zhì)疑。當(dāng)然,這并非是為了否定大數(shù)據(jù)研究的價(jià)值,而是希望對“大數(shù)據(jù)狂熱”進(jìn)行更加冷靜的思考。截止今日,這篇論文的被引用量已經(jīng)達(dá)到3493次,或許可以看做是社交媒體大數(shù)據(jù)研究領(lǐng)域的必讀文獻(xiàn)。在本期推送中,我們對這篇論文的核心內(nèi)容進(jìn)行摘譯,期待可以為你提供一些有價(jià)值的反思。
大數(shù)據(jù)時(shí)代已經(jīng)來臨。計(jì)算機(jī)科學(xué)家、物理學(xué)家、經(jīng)濟(jì)學(xué)家、數(shù)學(xué)家、社會學(xué)家……都被沖入大數(shù)據(jù)的海洋之中。社交媒體中的互動、健康報(bào)告、電話記錄、政府檔案等數(shù)字痕跡,都成為了學(xué)者們熱衷于追逐的研究素材。不過同時(shí),一個(gè)重要的問題也浮現(xiàn)出來:大數(shù)據(jù)能否幫我們創(chuàng)造更大的公共價(jià)值?亦或者說,它只會成為窺探隱私和侵入式營銷的工具而已?
大數(shù)據(jù)是一個(gè)糟糕的學(xué)術(shù)名詞。在這個(gè)詞被提出時(shí),它指的是一組需要通過超級計(jì)算機(jī)運(yùn)行的數(shù)據(jù)。不過,時(shí)至今日,我們家庭的筆記本電腦也可以做這件事。實(shí)際上,大數(shù)據(jù)的意義并不在于數(shù)據(jù)量本身,而在于搜索、整合、對照大型數(shù)據(jù)的能力。
大數(shù)據(jù)是一種技術(shù)現(xiàn)象,同時(shí)也是文化現(xiàn)象。它迎合了人們“數(shù)據(jù)越大、智識水平越高”的信念。人們相信,大數(shù)據(jù)攜帶著真理、客觀和準(zhǔn)確的光環(huán),可以生產(chǎn)出我們從未企及的深度思考。另一方面,反烏托邦的觀點(diǎn)則擔(dān)心,大數(shù)據(jù)(big data)會成為一種新的老大哥(big brother),侵蝕人們的隱私空間、干擾公民行動的自由、增強(qiáng)國家權(quán)力。
如今,已經(jīng)出現(xiàn)了不少對于大數(shù)據(jù)的研究。不過,我們?nèi)耘f有必要進(jìn)行批判性的思考:何為大數(shù)據(jù)?誰有權(quán)力接近大數(shù)據(jù)?數(shù)據(jù)分析是怎樣進(jìn)行的?目的是什么?在這篇文章中,我們提供了有關(guān)大數(shù)據(jù)研究的六種反思,希望能在不同領(lǐng)域的研究者之間引發(fā)討論。
反思01
大數(shù)據(jù)改變了知識的定義
Big Data changes the definition of knowledge

同樣,大數(shù)據(jù)也不僅僅是一種工具,它還代表了研究的計(jì)算轉(zhuǎn)向(computational turn)。正如福特改變了我們制造汽車的方式,大數(shù)據(jù)也改變了知識這一客體的面貌。拉圖爾提醒我們:改變工具,你就會改變整個(gè)既有的社會理論。
大數(shù)據(jù)讓我們以前所未有的廣度和深度來收集數(shù)據(jù),這也在認(rèn)識論方面產(chǎn)生了深刻影響。《連線》雜志主編安德森認(rèn)為,我們已經(jīng)進(jìn)入到了“拍字節(jié)時(shí)代”(The Petabyte Age)。讓我們忘記那些傳統(tǒng)的社會科學(xué)吧,不管是語言學(xué)還是社會學(xué)。誰才有資格解釋人類行為呢?答案是數(shù)據(jù)。只要擁有足夠的數(shù)據(jù),數(shù)字就可以自己說話。
數(shù)據(jù)可以自己說話嗎?我們對此深表懷疑。安德森的觀點(diǎn)體現(xiàn)出大數(shù)據(jù)爭論中一種潛藏的傲慢。似乎大數(shù)據(jù)出現(xiàn)之后,其他方法就應(yīng)該靠邊站。不過,也有研究者認(rèn)為,大數(shù)據(jù)的問題恰恰在于,在洪流一般的信息背后,缺少哲學(xué)意義上的管控。
大數(shù)據(jù)有自己的局限性。例如,Twitter和Facebook是大數(shù)據(jù)研究者經(jīng)常訪問的網(wǎng)站,但它的搜索功能并不強(qiáng)大。因此,研究者更可能去關(guān)注那些正在發(fā)生和剛剛發(fā)生的數(shù)據(jù),因?yàn)闅v史數(shù)據(jù)幾乎不可能挖掘到。安德森問我們,科學(xué)是否可以向Google學(xué)習(xí)點(diǎn)什么呢?不過,我到是想說,真正有價(jià)值的問題似乎是:大數(shù)據(jù)如何改變了學(xué)習(xí)的意義,這種新的知識系統(tǒng)究竟提供了哪些可能性,又具有哪些局限呢?
思考02
大數(shù)據(jù)宣稱的客觀、準(zhǔn)確是具有誤導(dǎo)性的
Claims to objectivity and accuracy are misleading

客觀性是科學(xué)哲學(xué)長久以來的焦點(diǎn)問題。科學(xué)方法試圖將自己從主觀領(lǐng)域移除,變成一個(gè)不帶感情色彩的程序。我們提出假設(shè)、驗(yàn)證假設(shè),最后獲得知識的增進(jìn)。不過,所有研究者都無法逃離一個(gè)事實(shí)——我們需要解釋數(shù)據(jù)。按照Gitelman的說法,數(shù)據(jù)需要被想象,并且,每個(gè)研究領(lǐng)域或?qū)W科,都有自己想象數(shù)據(jù)的規(guī)范和標(biāo)準(zhǔn)。
在計(jì)算機(jī)科學(xué)家涉足社會科學(xué)時(shí),我們傾向于認(rèn)為他們的工作僅僅有關(guān)事實(shí),與解釋毫無關(guān)系——畢竟,他們只想建立數(shù)學(xué)模型。不過,當(dāng)研究者試圖去理解這些模型的意義時(shí),解釋的過程就開始了。甚至,科學(xué)家們在決定研究設(shè)計(jì)時(shí),他們也在解釋。例如,對于社交媒體數(shù)據(jù),存在著“數(shù)據(jù)清理”(data cleaning)這一道程序。哪些變量和屬性要被保留?哪些要被刪除?這個(gè)過程內(nèi)在便具有主觀性。
如果單純拒絕解釋,大數(shù)據(jù)還會讓我們產(chǎn)生幻想性的錯(cuò)覺。例如,大數(shù)據(jù)研究經(jīng)常會發(fā)現(xiàn)莫名其妙的相關(guān)性。一個(gè)有名的例子來自Leinweber,他發(fā)現(xiàn)標(biāo)準(zhǔn)普爾 500 指數(shù)基金和孟加拉的黃油生產(chǎn)量之間存在相關(guān)性。
思考03
數(shù)據(jù)越大,不一定數(shù)據(jù)越好
Bigger data are not always better data

因?yàn)門witter的數(shù)據(jù)方便獲取,學(xué)者們經(jīng)常使用它來驗(yàn)證一些列的問題。雖然很多學(xué)者都明白,來自Twitter的數(shù)據(jù)存在天然的局限性,不過,媒體報(bào)道并不在乎這一點(diǎn),他們只會告訴讀者,這篇論文研究了上百萬“人”。要知道,Twitter并不代表所有人,Twitter用戶和“人”之間也不能劃等號——有一些賬戶是多人使用,有一些賬戶是機(jī)器人在操縱,有些人甚至根本就不使用Twitter。
大數(shù)據(jù)并不意味著整體數(shù)據(jù)。如果不考慮到樣本本身的特質(zhì),數(shù)據(jù)的規(guī)模就毫無意義。例如,如果一個(gè)學(xué)者試圖理解Twitter廣播的話題頻率,但Twitter會自動隱藏那些有問題的內(nèi)容(例如色情和垃圾信息),那么,無論我們收集多大的數(shù)據(jù),結(jié)論都是不準(zhǔn)確的。遺憾的是,大數(shù)據(jù)研究者熱衷于在Twitter上收集數(shù)據(jù),但卻很少有人提到,Twitter數(shù)據(jù)有嚴(yán)重的方法論爭議,也很少有人愿意對自己的數(shù)據(jù)進(jìn)行說明。
在社會科學(xué)的計(jì)算轉(zhuǎn)向過程中,我們更需要認(rèn)識到“小數(shù)據(jù)”的價(jià)值。在任何數(shù)據(jù)層級上,都有可能產(chǎn)生研究洞見。某些時(shí)候,哪怕我們聚焦一個(gè)人,都有可能獲得卓越的發(fā)現(xiàn)。例如,Veinot 通過對于一位水電公司的巡查員的研究,試圖理解藍(lán)領(lǐng)工人的信息實(shí)踐(information practices)。她的研究更新了“信息實(shí)踐”這一學(xué)術(shù)名詞的定義。僅就她的發(fā)現(xiàn)而言,即便我們收集上百萬的Twitter賬戶數(shù)據(jù),也無法獲得。
數(shù)據(jù)規(guī)模應(yīng)該與研究問題匹配。有些時(shí)候,小即是美。
思考04:
剔除語境的大數(shù)據(jù)會失去意義
Taken out of context, big data loses its meaning

在大數(shù)據(jù)研究中,常見的兩種社會網(wǎng)絡(luò)是“節(jié)點(diǎn)網(wǎng)絡(luò)”(articulated networks)和“行為網(wǎng)絡(luò)”(behavioral networks)。
所謂節(jié)點(diǎn)網(wǎng)絡(luò),可以簡單理解為Facebook上的好友列表。不過,我選擇關(guān)注一個(gè)人,可能有不同的動機(jī),比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公眾人物,或者有意思的陌生人。所謂行為網(wǎng)絡(luò),指的是通過技術(shù)抓取到的交流信息。這種交流的種類也很多,例如給一個(gè)人流言、在照片上tag一個(gè)人等等、給一個(gè)人發(fā)私信,等等。
節(jié)點(diǎn)網(wǎng)絡(luò)和行為網(wǎng)絡(luò)對研究者具有重要的價(jià)值,不過,它們并不能被等同于人際網(wǎng)絡(luò)(personal networks)。例如,研究者經(jīng)常使用“連接強(qiáng)度”(tie strength)來理解個(gè)體關(guān)系的重要性。移動電話數(shù)據(jù)表明,人們給同事打電話的次數(shù),要多于給自己配偶打電話的次數(shù),我們難道能因此得出結(jié)論,同事比配偶的關(guān)系強(qiáng)度更高嗎?
忽略具體的交流語境,僅僅通過交流頻率或朋友列表示來測量關(guān)系強(qiáng)度,本身是有很大問題的。因?yàn)椴⒎敲恳环N(次)連接都是同質(zhì)的。
思考05
可獲得的數(shù)據(jù)并不一定就是道德的
Just because it is accessible
does not make it ethical

學(xué)者不得不面對一個(gè)問題:在社交媒體上,所謂的“公開”(public)數(shù)據(jù),究竟該如何使用?如何處理其中的研究倫理問題?一部分人已經(jīng)意識到問題的嚴(yán)重性,并呼吁平臺對用戶隱私進(jìn)行更好的保護(hù)。事實(shí)上,任何有關(guān)人的數(shù)據(jù)有難免引發(fā)隱私爭議,濫用數(shù)據(jù)的危險(xiǎn)究竟有多大,又是一件難以被量化的事。
自20世紀(jì)70年代以來,大學(xué)通過建立機(jī)構(gòu)審查委員會(IRB)體系來保護(hù)被研究對象的權(quán)利。例如,“知情同意”被廣泛作為研究倫理的基本要求之一。不過,對于大數(shù)據(jù)而言,其中的倫理意涵仍舊十分模糊。一個(gè)人在社交媒體上的廣播應(yīng)該被納入到研究數(shù)據(jù)之中嗎?萬一TA的廣播以一種脫離語境的方式被解讀呢?對此,TA有知情權(quán)嗎?如果TA在研究中遭受到了傷害,誰來負(fù)責(zé)呢?大數(shù)據(jù)研究中的知情同意應(yīng)該如何操作呢?我們不能簡單地認(rèn)為,我們可以獲得一項(xiàng)數(shù)據(jù),就等同于可以收集和分析它們。
在大數(shù)據(jù)的研究中,我們還需要關(guān)注真相、控制與權(quán)力問題。研究者擁有工具和渠道,但社交媒體用戶卻沒有。他們的廣播是在高度情景化的背景下生產(chǎn)的,也很可能不愿意自己的信息被用在其他地方。很多人并不知道,算法正在收集、儲存他們的數(shù)據(jù),以供未來使用;更多人甚至不知道,研究者會成為他們個(gè)人主頁的訪客。
大數(shù)據(jù)的研究者很少會承認(rèn),在“being in public”和“being public”之間存在著相當(dāng)大的差別。
思考06:
大數(shù)據(jù)的使用限制創(chuàng)造了新的數(shù)字鴻溝
Limited access to Big Data
creates new digital divides

不過,我們要詢問的問題是:誰可以擁有這些數(shù)據(jù)?在何種情境下?lián)碛校坑泻蜗拗疲空鏜anovich所指出的:只有那些社交媒體公司才能擁有真正大規(guī)模的社交數(shù)據(jù)——尤其是那些交易數(shù)據(jù)。那些為Facebook或Google工作的研究者們,也可以獲得其他學(xué)者無法擁有的數(shù)據(jù)。一些公司完全不提供關(guān)于自己的任何數(shù)據(jù),另一些公司則用這些數(shù)據(jù)賣錢。這就造成了一種不平等:那些有錢的、有合作關(guān)系的研究者,可以生產(chǎn)出完全不同的研究。而不擁有這些資源的研究者,既不能進(jìn)行這些研究,也沒有機(jī)會去評估這些研究的方法論主張。
在接近權(quán)之外,還有技巧層面的問題。大數(shù)據(jù)研究排斥了那些不具有計(jì)算機(jī)背景的研究者,這并不是問題。關(guān)鍵問題在于,我們將大數(shù)據(jù)方法放在了至高無上的位置,這就建造起一種基于“誰能讀懂?dāng)?shù)據(jù)”的研究階級。相應(yīng)的,傳統(tǒng)的社會科學(xué)研究者的價(jià)值可能會被低估。我們需要面臨的另一項(xiàng)挑戰(zhàn)是,如何才能培養(yǎng)出這樣的學(xué)生——既通曉社會理論,又熟練掌握算法和數(shù)據(jù)分析?
最后,我們還面臨著另一種風(fēng)險(xiǎn)。因?yàn)樯缃幻襟w公司沒有義務(wù)對研究者開放數(shù)據(jù),因此,那些獲得大數(shù)據(jù)的研究者,就不太可能進(jìn)行批判式的研究。因?yàn)橐坏┻@樣做了,他們就會立刻被剝奪擁有數(shù)據(jù)的資格。我們必須對這種寒蟬效應(yīng)加以警惕。
在研究界,大數(shù)據(jù)創(chuàng)造了大數(shù)據(jù)富人(Big Data rich)和大數(shù)據(jù)窮人(Big Data poor)。甚至Twitter的研究人員Jimmy Lin直接說,學(xué)術(shù)界最好離社交媒體遠(yuǎn)一點(diǎn),這樣我們能做得更好。這種劃分局內(nèi)人和局外人的觀點(diǎn)可能會破壞學(xué)術(shù)共同體。
Manovich認(rèn)為,大數(shù)據(jù)王國中有三個(gè)階層:那些制造數(shù)據(jù)的人、那些可以收集數(shù)據(jù)的人、和那些可以分析數(shù)據(jù)的人。我們知道,最后一類人的比重最低,也有用最多特權(quán)。同時(shí),他們也是決定大數(shù)據(jù)使用規(guī)則的人。也許在學(xué)術(shù)界,對這種不平等的批判可能會被很快放棄,不過,我們必須保持考察和質(zhì)疑。
獲取參考文獻(xiàn)

原標(biāo)題:《大數(shù)據(jù)無所不能嗎?來自小數(shù)據(jù)研究者的六點(diǎn)質(zhì)疑》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司