- +1
新冠肺炎病毒肆虐,疫情數據如何辨真偽?
自Covid-19新冠狀病毒肺炎疫情爆發以來,作為鏑次元數據分析團隊的數據專家,我一直在跟蹤研究疫情數據。除了政府官方數據之外,我們還同步監測全國騰訊,新浪,網易,搜狐,鳳凰,澎湃,丁香園,頭條,百度,財新,支付寶11家媒體和機構發布的數據。
昨天早上,監控平臺顯示的媒體數據差異讓我有些擔憂。
我們提供昨天上午監測到的各家媒體關于疫情的數據文檔,詳見文末的文檔附件一
四家看起來都在實時公布數據的網站,數據差異很大。請看:“較昨日新增”這一項數據,鳳凰網在2月14日上午9:03 是15153例;網易在9:05 是5030例;騰訊在9:06 是3989例;新浪在9:11是4857例。

這是什么原因?
數據來源都一樣,都是國家衛健委、各省市區衛健委、各省市區政府以及港澳臺官方渠道的公開數據。也都說是權威發布、實時數據。但為什么差異如此巨大?我們到底該信哪一家的?這會不會帶來數據誤傳誤用的風險?
我們研究監測到的數據記錄后發現,造成這一現象的原因主要包括以下幾個方面:
1. 近期統計口徑發生了變化,湖北省新納入了“臨床確診病例”這個維度,把“臨床確診”算到確診,以前這部分是屬于疑似病例的。這種改變讓各大媒體出現了短暫的迷茫與數據統計方式上的不統一;

2. 對每天的數據收集處理方法不同,一些媒體對于疫情數據采取增量記錄的形式(圖1);一些媒體對于疫情數據采用累積總量的形式(圖2);


3. 數據更新頻率不同,一些媒體每天更新一次或者若干次數據,一些媒體是采用實時更新的方式來展示數據的。


以上的因素都會或多或少的對您看到的數據產生影響。這似乎為五花八門的疫情數據找到了原因。
但是下一個問題來了,到底相信誰的數據、用誰的數據呢?這個問題的答案取決于你是誰,你為什么要用這些數據?
目前我接觸到的主要是兩類人群:
第一類:專業人士。
通過疫情數據來做數據分析或者科學研究,對于這類數據使用者,他們的特點是數據使用場景專業,采用數據十分嚴謹。建議專業人士通過權威的數據來源獲取數據,并且及時與政府發布網站進行數據核查,保證數據的準確性;
第二類:非專業人士。這類人群并不是那么在意某些特定的細節數值,只是想通過數據來觀察疫情的總體趨勢,這種情況下就不用糾結于細節的數字,主要看趨勢。但如果您對數據非常認真或存疑,建議還是去各級衛建委官網查看數據。
如果大家覺得去官網查找和整理數據麻煩,也歡迎到我們鏑數 (dydata.io)查看數據,我們平臺收錄了官方權威網站、澎湃新聞美數課、丁香園等來源的全球、全國以及各省市級疫情數據,每日更新,目前也在為央視新聞調查提供數據支持 。除此之外我們也提供疫情相關的其他數據供大家參考比如SARS相關數據等。

另外再推薦一下澎湃美數課整理的共享疫情數據文檔(見文末附件二)。在這次疫情數據的收集與整理上,澎湃美數課除了開放自己的疫情實時地圖為公眾提供第一手數據外,還非常貼心的整理了每天全球、全國各級的增量數據,多維度的數據收集與整理為疫情現狀與發展趨勢提供了完備的數據基礎,很值得一看。
我們昨天還注意到丁香園的疫情數據指標有了新的變化,全國數據統計指標由原來的3個變成現在的6個。從這點也看出國家對于疫情的掌握越來越細致,各方面對數據的統計也是越來越清晰了,這里只想對“現存確診”這個屬性從數據的角度做一個解釋,方便用戶更好的理解數據,即:
現存確診 = 累計確診 - 累計死亡 - 累計治愈

綜上所述,我們日常查看數據新聞可視化內容或者使用數據時,一定要確認以下三點:
l 收集數據的截至時間或收集數據時間范圍的一致性
l 數據的來源:數是否是權威機構發布(國家衛健委,統計局等)
l 數據本身在同一時間維度上的其他信息維度是否一致(地理位置,人物,信息粒度大?。?/p>
文檔附件一:疫情數據發布數據鏑數監測-2月14日
https://shimo.im/sheets/Chyq3JXhc8TXKrc6/Qcpqa/
注:疫情數據地圖的數據更新頻率情況是通過技術手段監控獲得,以上是監測自真實數據的若干數據片段,旨在為文中數據觀點提供必要的實際佐證。
文檔附件二:澎湃美數課新型肺炎疫情數據&報道整理文檔
https://shimo.im/sheets/tyWrrrqppYVwQtCW/
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司