- +1
用數(shù)據(jù)說話就是用事實說話 | 專訪沈浩
說起數(shù)據(jù)新聞,你可能會想到數(shù)據(jù)圖表、炫酷的可視化效果;可能會想到一些工具,比如Excel、Python、Tableau等等;也可能一頭霧水。數(shù)據(jù)新聞在中國還年輕,但行業(yè)從業(yè)者、學術研究者、個人創(chuàng)作者們,已經圍繞著它做了不少探索。
這一次,中國傳媒大學新聞學院“白楊數(shù)新觀察”團隊和澎湃新聞“湃客·有數(shù)”共同推出系列訪談“數(shù)據(jù)新聞訪談錄”。
我們抱著觀察記錄、答疑解惑的想法,采訪了國內外十多位在數(shù)據(jù)新聞領域有創(chuàng)見、有思想的學者、媒體人及學子,闡釋數(shù)據(jù)新聞的新理念新發(fā)展,介紹數(shù)據(jù)新聞教育的經驗、方法和路徑,分享數(shù)據(jù)新聞作品的創(chuàng)作過程,在數(shù)據(jù)新聞的業(yè)務實踐前沿、行業(yè)發(fā)展前景、教學體系現(xiàn)狀等話題中進行思維碰撞。
輸入同一個問題,誕生于不同背景的 ChatGPT、文心一言等人工智能給出的回答不同,這是為什么?輸入給人工智能學習的數(shù)據(jù),其背后是否隱藏了不同的價值取向,輸出反饋給人類時是否會隱含偏差和誤導?這對我們的認知又將產生怎樣的影響?對于以上問題,沈浩表示,人們應當對數(shù)據(jù)抱有信心——數(shù)據(jù)依舊是最有事實的東西,在大量數(shù)據(jù)中挖掘出的隱藏在數(shù)據(jù)中的模式、趨勢和相關性,幾乎不可能造假。而數(shù)據(jù)新聞,就是用數(shù)據(jù)去呈現(xiàn)真實。

沈浩,男,傳播學博士。中國傳媒大學新聞學院教授、博士生導師,中國傳媒大學媒體融合與傳播國家重點實驗室媒體大數(shù)據(jù)中心首席科學家,中國市場信息調查業(yè)協(xié)會副會長。
2003 年,沈浩開始研究數(shù)據(jù)挖掘相關領域,后投身于空間信息分析和大數(shù)據(jù)領域。從大數(shù)據(jù)和人工智能,到區(qū)塊鏈,再到元宇宙和虛擬數(shù)字人,沈浩一直在追尋科技的前沿。2013 年,在其引導下,數(shù)據(jù)新聞專業(yè)成立。
從專業(yè)上講,沈浩從“最理科”干到了“最文科”。畢業(yè)于北京師范大學數(shù)學系的他更偏好用數(shù)學的方式解決社科,特別是新聞方面的問題。
Q1:在跨專業(yè)過程中,不同學科的邏輯思維體系是否有很大的差別,您又是如何將它們融合再運用的?
沈浩:我可以說是從“最理科”干到了“最文科”。微博剛出來的時候,我經常在微博發(fā)一些數(shù)據(jù)相關內容,網(wǎng)上會有一些人會和我杠,質疑我一個新聞學老師怎么會懂大數(shù)據(jù)、人工智能呢?文科、理科的思維方式是普遍存在的,盡管我不喜歡這樣的二分。
近幾年我愈發(fā)認識到數(shù)學的重要性,會向文科生灌輸數(shù)學思維方式和腦句,這在解決實際問題中很有作用。雖然我現(xiàn)在可能有些走極端,就是說我更偏好用數(shù)學的方式解決社科問題,特別是新聞方面的問題,我越來越重視大數(shù)據(jù)智能技術對傳統(tǒng)新聞變革的影響,因為我們本身就是做傳播研究方法的,做方法需要定性定量。
不過,數(shù)據(jù)新聞做的是產品,是有組織的團隊創(chuàng)新。新聞報道的思路和深度的數(shù)據(jù)挖掘過程需要共同討論和仔細考量,靠一個人不能完成這么工作量大的任務。
Q2:您剛剛提到數(shù)據(jù)新聞的生產是需要團隊的,為什么當下中國沒有形成高度專業(yè)化的數(shù)據(jù)新聞團隊形式?
沈浩:我們是有意識在帶領學生形成團隊去做數(shù)據(jù)新聞生產的,但是互聯(lián)網(wǎng)或者說新媒體中傳播效率不如預期。
當數(shù)據(jù)新聞起來的時候,除了探討數(shù)據(jù)技術要求,我們還需探討這種數(shù)據(jù)報道形態(tài)。這種形態(tài)是一種產品,既然是產品,那就跟傳統(tǒng)的新聞宣傳報道是不一樣的。產品是有成本的,我們需要去考慮這個產品能不能賣得出去,它的受眾是什么,以此來衡量能不能做。如此龐大繁雜的過程,決定我們的數(shù)據(jù)新聞不是一個人能做出來的——我們需要 News room。國外就有很多這種 News room,News room 里有一些編碼程序員,還有數(shù)據(jù)科學家。境外的數(shù)據(jù)新聞主要是揭露造假腐敗國際政府陰暗面的維度,我們對這維度不擅長,于是我們更加偏向于人文關懷,還有社會重大事件,比如青島爆炸、深圳垮塌事件、周老虎事件,就是對已經確認的腐敗通過天眼查去做。
然而,數(shù)據(jù)新聞選題是最重要的,我們做的是一種新的深度報道,新聞的生產已經發(fā)生了根本的改變,現(xiàn)在的數(shù)據(jù)新聞已經不是以前狹義的數(shù)據(jù)新聞了。數(shù)據(jù)新聞傳入的時候,當時還沒有人工智能,只有大數(shù)據(jù),但同學處理不了大數(shù)據(jù),只能處理小數(shù)據(jù),只是在可視化方面玩得好一點。
Q3:您剛剛提到現(xiàn)在挖的都是小數(shù)據(jù),沒有真正應用到大數(shù)據(jù)。那作為一個學生,或是從業(yè)者,應該怎么利用大數(shù)據(jù)讓新聞更好地實現(xiàn)敘事作用呢?
沈浩:為什么說“大數(shù)據(jù)才有數(shù)據(jù)新聞,小數(shù)據(jù)沒有數(shù)據(jù)新聞”?這樣說可能有點絕對,但其中還是有些道理的。新聞要有 5W1H 要素,但小數(shù)據(jù)沒有這些要素。大數(shù)據(jù)是邊生產邊應用、邊應用邊生產,有時效性。而小數(shù)據(jù)是實證的,例如 45 天出一份報告,沒有時效性。真正的大數(shù)據(jù)新聞應當是具有時效性的深度報道。大數(shù)據(jù)挖出來的東西不是靠直覺發(fā)現(xiàn)的,甚至是違背直覺的東西,是事先不知道的,缺乏相關理論的。大數(shù)據(jù)運用的技術更像是類似知識圖譜或關系圖譜,關系圖和空間地理天生有可視化的效果,于是我們就有挖掘的能力。
目前來講,希望學習新聞的同學們能在數(shù)據(jù)選題和敘事上有特色,努力開辟報道角度和敘事方式的獨特性;并且了解數(shù)據(jù)新聞生產的過程,同時與寫代碼的、具有可視化表現(xiàn)能力的人通力合作。
Q4:數(shù)據(jù)的標準化過程中會不會存在傾向性,如何保證標準化后的數(shù)據(jù)的代表性呢?
沈浩:這是一個很技術的問題。為什么要標準化呢?其實主要是針對特定的分析,數(shù)據(jù)的量綱不一樣,所以我們需要標準化。標準化是數(shù)據(jù)處理,或者叫數(shù)據(jù)預處理的工作。這里邊包括三個方面。
第一個方面,就是我們在分析中把變量進行標準化。把量綱一致化之后,就可以進行相應的處理。在標準化的過程中可以產生“轉換”,比如說數(shù)據(jù)過去不服從正態(tài)分布,我們通過一種標準化的方式,那么就可以使它顯示出正態(tài)分布的形態(tài)。
第二個方面,就是在像排名這樣的問題上。排名是技術,發(fā)布是藝術。排名的過程中,數(shù)據(jù)可能來自于不同的指標和不同的權重,那么為了能夠加權,指標應該都是標準化的,但是在這個過程中如何標準化?是否會影響權重?這是很明顯的。
第三個方面,就是標準化的預處理模式。比如去除異常值,這個算不算標準化呢?這就看廣義的標準化概念。異常值的清洗,包括兩個變量的相關性。如果兩個變量具有相關性的話,那我們其實可以只用一個變量就可以了。所以標準化過程,其實也是一個數(shù)據(jù)消解的過程。
Q5:由數(shù)據(jù)分析得出的結論可信度高嗎?評估標準是什么呢?它能夠如實反映真實情況嗎?
沈浩:我剛才說了一句話,其實內涵比較深,就是“排名是技術,發(fā)布是藝術”。也就是說,什么樣的排名、用哪些變量,是人在決定。但如何排、如何標準化,其實也是一個重要的人為因素。在這個過程中,一個合格的數(shù)據(jù)分析人員應該秉承客觀的理念,循著符合數(shù)理邏輯的過程。這不是篡改數(shù)據(jù),而是改變算法。像傳統(tǒng)的回歸、因子分析、主成分分析,甚至包括現(xiàn)在我們的深度學習技術、比如最近的火的 ChatGPT,所有輸入給計算機學習的數(shù)據(jù)都是需要經過標準化的。
那么標準化的過程會不會帶來所說的“偏向”呢?這就是看到底是算法的偏,還是人為的、有意或者無意的偏,這二者是截然不同的。如果探討人的原因,人有意篡改數(shù)據(jù),希望模型怎么樣,那又是另一個問題,這事情就變得復雜了。所以我們只能談算法,這種算法會不會比另一種算法更有欺騙性?我們在模型訓練的時候,一般都有 training data 和 testing data 以及 validation,經歷不同的數(shù)據(jù)的分區(qū)和不同的標準化以后,算法是要經過不斷驗證的,以保證最后能夠實現(xiàn)對新數(shù)據(jù)的應用,這是算法的問題,而不是人類在這里考慮的因素。
Q6:《數(shù)據(jù)如何誤導了我們》一書中認為,“闡釋數(shù)據(jù)背后意義的權利”為國家所掌控,您認為這和實際情況相符嗎?當前數(shù)據(jù)新聞是否承擔起了“展現(xiàn)真實情況”的責任?
沈浩:除了上帝,都應該用數(shù)據(jù)說話,數(shù)據(jù)是最有事實的東西,用數(shù)據(jù)說話就是用事實說話。
在大量的數(shù)據(jù)中挖掘出的隱藏在數(shù)據(jù)中的模式、趨勢和相關性,幾乎不可能造假。在這種情況下,我們需要去思考數(shù)據(jù)的價值是什么,數(shù)據(jù)能否揭示商業(yè)和社會發(fā)展規(guī)律的問題。
到了大數(shù)據(jù)時代,數(shù)據(jù)已經不僅僅是我們的一門學科,而且成為國家掌控的重要的信息來源。我們經常談信息戰(zhàn)、輿論戰(zhàn),實際上信息戰(zhàn)就是數(shù)據(jù)戰(zhàn)。
新聞是新近報道的事實。數(shù)據(jù)新聞從數(shù)據(jù)中挖掘,它一定是事實。事實是否是真相,是否符合社會倫理,這里面涉及到價值的問題。我們說數(shù)據(jù)呈現(xiàn)了真相,但是受眾如何理解,這需要我們去了解和判斷。當然結論一定是數(shù)據(jù)新聞通過數(shù)據(jù)展現(xiàn)真實,這是不可或缺的要件。否則你做出來的數(shù)據(jù)新聞可能就是假的,會誤導別人。
然而,這些概念、我們討論的語境都是普世價值范圍內的。如果我們要打的是輿論戰(zhàn)、認知戰(zhàn),那我們也知道,“造假”也是一種新聞。這種 disinformation、misinformation,像 BBC、紐約時報,他們那些東西盡管呈現(xiàn)了所謂的客觀真實,但是他的用意可能對我們來講就是敵意。
我們還是需要有數(shù)據(jù)支撐的,至少比沒有數(shù)據(jù)更好。但是用數(shù)據(jù)說謊、統(tǒng)計的謊言——數(shù)據(jù)所帶來的偏,這些其實一直伴隨著數(shù)據(jù)和統(tǒng)計的發(fā)展。我們可以看一看 ChatGPT。ChatGPT 是一個由全人類的數(shù)據(jù)生成的一個知識信息機器人。但是我們同樣會思考,ChatGPT 后邊有沒有價值觀的問題?文心一言是不是也有這樣的問題呢?這些東西其實都是不可或缺的話題,也是需要我們去深入研究的。
Q7:您認為數(shù)據(jù)新聞為傳統(tǒng)新聞注入了怎樣的新鮮血液?
沈浩:未來的新聞是數(shù)據(jù)分析。今天的數(shù)據(jù)新聞是讓新聞更具有科技感,圖像、語言文字、聲音都可以進行智能處理,所以有“有圖像無真相”的事情。現(xiàn)在做新聞的人,都變成了事實審核師。對開源的情報信息可視化技術、對事實進行追查和核實,都將帶來數(shù)據(jù)新聞一種新的功能體現(xiàn)——新聞真實。尤其針對 disinformation(虛假信息),針對輿論戰(zhàn)和信息戰(zhàn),對故意傳播的新聞進行審核,這是數(shù)據(jù)新聞的能力和方向,這是第一點。
第二點,數(shù)據(jù)新聞在智能媒體出現(xiàn)后,可能會借助智能媒體快速生成新聞的新的表達形式,生產出既具有數(shù)據(jù)新聞的特色,同時又有更好的表達形式和傳播能力的新聞產品,來測繪社會,使受眾感知。
第三點,現(xiàn)在的武器在媒介化,媒介在武器化,對于國際上的傳播,我們如何通過數(shù)據(jù)對敵,加強我們用數(shù)據(jù)說話外宣的能力,這是很重要的內容。
我作為一位 30 多年教齡的老教師,沒辦法跟上年輕人的節(jié)奏,這些東西都是年輕人的事業(yè)。我從數(shù)學到新聞又離開新聞,每天在寫代碼還有學新的東西。學生的創(chuàng)意完全超過老師,對于全新的東西,學生和老師都在共同成長。
采寫 / 文知知 黃燦 宋京豫 董雨荷
編輯 / 徐心遠 賈司瑒
統(tǒng)籌 / 詹新惠 汪惠怡 湃客·有數(shù)

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司