- +1
來自開放數據的閃電新聞:如何從數據中找到新聞線索
原創:
服老思

談及“數據新聞”,我們通常有兩種操作思路:一是通過「數據挖掘」(data mining),找到新聞點;二是在已有的新聞中,添加呈現數據的元素。
其中,“數據挖掘”指從數據庫中尋找到有價值新聞點。這些從數據庫中爬取的信息可能會給新聞調查帶來新的調查思路。最終呈現出來的作品也許根本就沒有完全反映數據的使用,好像還是傳統新聞那樣,主要還是內容仍舊是采訪與照片。但其實這整個的新聞熱點,都是科學地由數據挖掘而來。
另外一種方式,便是用數據來呈現、解釋新聞點。其中會涉及多種圖表和一些交互性功能的使用,在科學領域我們通常稱之“數據可視化”。
本篇文章側重講解“數據挖掘”(data mining),也就是探討如何從數據中挖掘新聞,或者說,找到新聞線索。

從新聞線索發展為一個完整的新聞故事,則需要結合傳統的和新興的新聞操作手法。
本篇文章中,為了方便討論,我們使用“新聞”廣義的定義——公眾獲得了他之前所不了解的信息,也可以理解為“新的信息”。所以“新聞”有可能是當前事件的最新狀態,或是對讀者來說的“新知識”。
(某些知識可能對于一些領域的專業人士是常識,但對于普通受眾而言,那就是全新的知識了。)
正如中文常說的“大道至簡”:最復雜的理論往往是用最簡單的語言構建 。
所以我們其實不用難懂的編程技巧,拋開復雜的電子表格工具(spreadsheet),只用一些最最基礎的計算機常識(computer literacy),再加上我們敏銳的新聞嗅覺,就已經可以從數據中找到很多有意思的“新聞點”了。
接下來,我們會通具體的例子來進一步解釋如何在數據中尋找新聞。
這些例子都來源于新聞系的本科生。
這些數據表,是這些本科生們,在數據新聞的第二堂課上,用僅僅二十分鐘時間,從香港政府網站上爬取下來的。
我們從網站的公共數據集開始,仔細審視這些數據表,來尋找有趣的新聞點。
這個過程十分快速,以至于我們給它取了一個猴塞雷的名字:「閃電新聞」(Lightning News)。
那么,應該如何提高自己“Lightning News”的能力呢?
大量的日常訓練!
大量的日常訓練!
大量的日常訓練!
大量的日常訓練后,新聞敏感性和數據敏感性都會有很大提升。
讓我們從這篇文章開始日常訓練的第一步吧!


【分析】
1. 最后一排展現的是香港過去幾十年的年齡變化情況。
2. 比較男性和女性的年齡中位數,重點關注紅色圓圈圈起來的數字,我們發現:不包含外籍家庭傭工的情況下,女性普遍比男性年長。
3. 單看男性的數據,我們可以發現,包含和不包含外籍家庭傭工的兩組數據并沒有顯著的差異。
問題就來了:是因為沒有男性的外籍家庭傭工嗎?還是有數據背后隱藏著細小的區別呢?事實是,還真有男性的外籍傭工存在。
所以接下來,你就可以進一步去挖掘他們的故事了。
02 數據庫:政府在教育方面的開支

【分析】
很容易發現,政府在教育上花費的開支絕對數字是在增長的(綠色方框標注),但是教育開支占所有開支的比例卻是在減少的(紅色方框標注)。
那么,新聞線索便呼之欲出:政府在教育上的投入到底是增加了?還是減少了?
03 數據庫:按種類劃分的平均固體廢物數量

【分析】
1.相比之前的例子,這張圖表上有更多有價值的數據點。
通常情況下,為了便于更清楚地發現最重要的信息,我們會使用“低亮”(與“高亮”相反的操作)的方法,即通過灰白色來隱藏一些繁瑣的細節。
在序列數據中,它的起點/終點/中間點這三部分是我們最關注的。
當拿到一張圖表示,你只需要快速掃視圖表中的的這三個關鍵數據,便能很快判斷出整體的變化情況。
變化情況一般分為四種:上升,下降,先下降后上升或者先上升后下降(符號表示:/, , V, ^)。

舉例如下:
這場圖表總體來看,【城市固體廢物】排放量不斷增加,其中【生活垃圾】略有減少,【商業垃圾】幾乎翻了一番,而【工業垃圾】則增加了一半。
通過以上信息分析,【商業類】和【工業類】固體廢物的迅速增長,是否表明城市經濟正在進行結構上的轉變?
注意,這些數據還很適合通過折線圖的方式進行展示。
詳細可參考HOWTO 這篇文章(點擊閱讀原文觀看)和下面的例子:


分析
1. 從圖表中我們發現,無論是申請補助計劃的人數,以及申請成功的案例,其數量都在減少。
2. 那么,是什么原因導致沒有那么多成功的申請者的呢?
這種趨勢是否表明整體經濟形勢在變好,所符合補助資格的人數在變少?
或者僅僅是因為申請成功的標準在變嚴格?
05 15歲及以上人口的教育程度分布

分析
1.從上表中我們發現,教育程度在「小學及以下」和「中學」的人數在減少。這是否表明全民教育成功普及?
或只是因為年輕人教育程度普遍較高,同時低學歷的老年人去世,導致教育程度較低的人數整體減少?
2.學位課程有哪些潛在途徑?更普遍的問題是,小學畢業后,學生的教育路徑/職業晉升路徑是什么?
互聯網的發展讓很多非本地讀者也能瀏覽到當地的新聞。
只經歷過數十年標準化/統一教育體系的內地讀者很快就會發現,在香港,中學教育通??缭?-7年,大學教育跨越2-5年。這和內地的教育體系有很大的不同。

http://www.hkihrm.org/index.php/component/phocadownload/category/16-business-case-business-knowledge?download=80:jul29-post-secondary-education-in-hong-kong-profkwan
06 跨境(內地和香港)車流量

分析
1.上圖是按類型和年份統計的過境巴士數量表格??梢钥吹?,過去16年間,跨境車輛的數量有了很大的變化。最明顯的一點:過境的人變多了,過境的貨變少了。
2.這種趨勢是否意味著兩邊的交流變多?抑或這種現象是由于邊境政策放松所導致?
3.進一步挖掘表內信息,比如,工作日流量,邊境管制點流量,香港境內/目的地流量,香港境外/目的地流量,乘客人數百分比,以旅行為目的,在香港/大陸逗留的時間等等,恰好可以回答了我們在新聞生產中常常會問到的六個問題:who, what, when, where, how and why。
單一的數據往往不能回答我們以上的所有問題。當我們發現有價值的新聞點時,我們需要做更全面的調查進一步的挖掘背后的故事,以6個W的問題為線索深入。
PS:拿到數據后,我們首先要注意清晰主要的故事點,而用波形圖(Sparkline)來展示數據的變化是一個很不錯的方式。
但在繪制折線圖之前,我們首先要對原始數據進行整理。
另外需要注意的是,Excel2010及之前的版本或者是在兼容模式之下,是不能用折線圖的,所以我們可以在處理數據之前,另存為新的格式,或者重新打開Excel。


分析
縱觀香港三個主要地區近年的人口變化(綠色框),香港島的人口在減少,而九龍和新界的人數有了很大程度的增加。
根據所發現趨勢,我們可以進一步思考:這種趨勢的發生是自然出生/死亡率下的正常波動導致的呢?還是因為新界和九龍地區更適宜居住,導致了人口的大量遷移?
由紅色框數據可知,整體來看,香港島的人數在下降,但香港島南部的人數卻沒有下降,反而有細微的增加。是否是因為此地區近年交通運輸方式的改善(比如南港島線)?還是因為近年此地區提供了更多的工作機會(比如說,香港島南部的數碼港)?
08 二零零七年食物中毒病原體統計數字

分析
1.二零零七年的食品中毒案例中,細菌和病毒是兩個主要病原體。
2.細菌病原體導致中毒的事件主要發生在夏季,而病毒病原體導致的中毒事件主要發生在冬季。
不同病原體導致的中毒事件的發生根據季節變化有明顯不同,季節是否為其中重要的影響因素?還是2007年有特殊的事件發生?
產生這樣的疑問后,一方面,為進一步驗證我們的猜測,我們需要查找更多年份的相關數據。
另一方面,我們也得到了一個重要的信息:季節是食物中毒的重要影響因素。
可見,數據庫中的異常值是應該重點關注的,它們很有可能給我們帶來一些新的思考。
09 工資指數

分析
1.最后,上圖是一個已經進行過可視化的圖表,從中我們依舊可以關注到一些有意思的信息,譬如,金融保險行業在近幾十年中平均工資始終遙遙領先,另外,除了制造業以及能源產業,其余行業與金融行業間的工資差距在慢慢減小。
2.但,僅憑這樣一張圖表就開始撰寫新聞顯然是不嚴謹的,我們需要始終葆有懷疑的態度,進一步檢查所用數據是否有一定的局限性。
圖表的左上角的標示顯示,這些數據展示的“中層經理與專業人才”的薪金變化。
表中數據是在這樣有職位限制的情況下收集的,這就能很好地解釋為什么各行業之間的平均工資差距比我們印象中的要小很多,這是因為所收集的數據都來自各行業內的管理層人員。
方法總結
通過以上的案例分析,我們總結出兩種從數據中挖掘新聞的方法。
一種是縱觀所有數據后,尋找趨勢,模式,共同規律,普遍現象。
另一種是尋找數據中的異常,由此探討異常背后的原因。
那么,如何尋找趨勢呢?
一個比較快速便捷的方式是,我們可以通過抓取起點值/中點值/終點值迅速分析數據的大致變化趨勢(是上升?還是下降?是先降后升?還是先升后降?)
不過,盡管數據可視化圖表可以讓我們清晰觀察到整體趨勢,我們依然需要根據實際情況進行進一步的分析和判斷。
那么又如何尋找異常呢?
最有效的方法是關注最大值和最小值。
相比尋找到數據的平均值/中位數,最大值和最小值更易被發現。
對于復合結構或者多維結構的數據表格來說,向下鉆取數據(drill-down)非常有用,常常被應用地理緯度表格,以及日期時間緯度表格。
當發現一個新聞/新聞點時,我們需要通過詢問6個W的問題進一步推進。
在數據領域,這時,我們就需要查找其他相關的數據,找到更有力的證據。
最后需要注意的是, 數據常??梢灾苯踊卮鹞覀僕ho/What/When/Where這幾個問題,
很少回答我們關于How的問題,
而幾乎不會回答我們關于why的問題。
此時,就要靠高素質的新聞記者去查證,挖掘出新聞點背后的真相,回答how and why了。
原文首刊登于The Data & Society News
時間為2018,02,22
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司