- +1
治道|面對肺炎疫情,政府的數據開放還有很大空間
自武漢新型冠狀病毒感染的肺炎疫情爆發以來,國家和地方各級政府部門通過各種渠道發布了許多領導指示、疫情通報、自我防護知識、相關政策通知,這些信息的發布有助于公眾獲知疫情的發展情況和相關知識,在一定程度上滿足了公眾的信息需求。
然而,進入了大數據時代,除了以上政府發布的信息,公眾可能還想知道一些更具體的數據,比如:所在城市或區縣每天有多少確診和疑似病例,增長情況如何?也想了解一些有關病人基本情況的數據,比如:病人從哪里來,去過哪里,哪天發病的,那些疑似病例后來確診了沒有,如果沒確診,他們得的又是什么病?
雖然我也不斷會從網上和身邊的朋友那里得到各種各樣的小道“消息”,但這些消息是真是假,難以確定。而且這些信息比較零碎,無法讓我全面系統地了解疫情的進展情況。我想知道有關疫情的最新的、權威的、準確的官方數據。
一、國家衛健委網站數據
于是,我來到了國家衛生健康委員會的網站,看看這里有沒有公開的官方數據。打開國家衛健委的官網后,首先在網頁最上方位置看到了“全力做好新型冠狀病毒感染的肺炎疫情防控工作”橫條。(以下未經特別注明者,均截圖于1月23日。)

點進橫條,可以看到頁面最上方是“疫情通報”、“防空動態”兩個版塊,在“疫情通報”中可以看到國家衛健委發布的各省確診病例和疑似病例數據。

1月23日這天發布的疫情通報詳細列出了17例死亡病例的病情介紹。但是,我如果還想知道其他幾百例確診和疑似病例的情況,就無從得知了。

此外,國家衛健委發布的數據只到了省一級,而沒有每個城市或區的數據。于是,我搜到了武漢市衛健委的官網,來看看這里有沒有城市一級的數據。
二、武漢市衛健委網站數據





然而,無論在國家、湖北,還是武漢衛健委的網站上,我都沒有找到這樣一張表格。實際情況是,有關疫情的數據以碎片化的、不連續的、不完整的方式散落在不同的政府網站、頁面和文件里。大部分公眾不可能有精力和能力去各個政府網站上提取和整理這些數據,其結果是,雖然各級政府認為它們已經發布了這些疫情數據,但老百姓并沒有獲得感。
武漢市衛健委發布的情況通報中還包括了新增病人的男女人數、病人最小和最大年齡等統計數據。然而,這些數據是對原始數據進行加工和歸總形成的結果,并不是一手的原始數據。原始數據可以用來做進一步的深入分析,但統計數據的再利用空間就很小了。
比如,情況通報中公布了新增病例的最小年齡是15歲,最大年齡是88歲,但15歲到88歲這個區間實在是太大了,如果我想知道在15-88歲之間,病人主要集中在哪個年齡段,我和我的家人是否正好屬于這個年齡段,僅通過15和88歲這兩個統計數據是無法回答我的這些問題的,只有得到經過統計歸總前的每一個病人的年齡數據才行。
當然,我并不需要知道每個病人的姓名、住址和電話等個人信息,而只需要得到有關他們的一些基本特征的數據就可以了。這些經過匿名化處理的數據,既能被用來做出有用的分析,又不會侵犯到病人的隱私。
之后,我還在人民日報官方微博上看到過每日發布的“疫情速報”,這些帖子以短平快的方式發布最新疫情。但這些數據仍然是碎片化的,無法幫助我系統全面地了解疫情全貌。


1月24日,我在手機上看到了由醫學知識共享網站“丁香園”和澎湃新聞 “美數課”欄目制作的全國疫情數據,這些數據的呈現,相較于政府網站要系統、直觀和清晰很多。



為采集和整理這些數據并進行符合受眾需要的制作,這些社會化機構一定花了不少時間和精力。然而,由于政府發布的數據具有碎片化、不完整、顆粒度低等特點,它們的數據展現方式雖然已經非常不錯,但在展現內容上仍然無法提供出更全更細的數據。
四、香港特區政府衛生署網站數據
有鑒于此,我來到了香港特別行政區政府衛生署的網站。在這個網站的首頁上,我在第一排的顯眼位置就看到了“嚴重新型傳染性病源體呼吸系統病”的版塊。






同時,這張表格上還有多個細節值得關注。
首先,在發布病人基本信息的同時,去除了患者的具體姓名,保護了個人信息。
其次,在發布當日新增數據的同時,還在后面列出了之前發布的累計數據,并將當日數據和歷史數據用白色和陰影兩種顏色區分開來。這樣公眾就不用再去“爬樓”, 把之前發布的一個個表格下載下來再整合起來了。就這一個貼心的舉手之勞,就給用戶帶來很大的便利。
第三,特別需要關注的一個細節是,在表格之后還附上了“備注”,對數據采集的背景方法和呈現方式進行了詳細說明。不要小看這個備注,這能幫助公眾更準確地理解和使用表格中的數據,避免誤解和誤用。
樸素干凈的一張表,卻填滿了細節和溫度,體現了背后真正的用戶視角和數據思維。
唯一的小遺憾是,這些數據還是以PDF的格式發布的,還需要人工做一下轉換處理后才能直接利用。PDF格式便于閱讀,不易被修改,但不便機器讀取,以進行加工利用。如果能在PDF格式之外,還能提供機器可以讀取的excel或csv等格式,就更加便于專業研究者用戶進行分析利用了。
五、政府數據開放的基本原則
暢想一下,如果類似“丁香園”這樣的社會化機構也能得到這樣的疫情數據,它們能開發出來的可視化應用會更全更細,給用戶帶來更好的體驗。而且,它們也不再需要花費大量的時間精力去搜集整理各種碎片化的、不符合標準格式的政府數據,而是可以集中精力將數據可視化應用做得更直觀更生動。
在這個過程中,政府作為數據的供給側把數據開放出來,市場上的專業組織作為數據的利用者把數據開發成各種應用,然后一起為社會公眾提供信息服務。政府和市場實際上以數據為原料實現了一種協同治理,便于共同應對疫情。

而這正是數據開放和信息公開的一個重要區別。政府信息公開的主要目標是保障公眾的知情權,提高政府透明度,而政府數據開放則不僅要讓社會知情,還要讓社會能對政府數據進行開發利用,從而釋放數據的能量,創造社會和經濟價值。
目前,在各國的政府數據開放實踐中,開放數據通常呈現為以電子化、結構化、可機讀格式開放的數據集。數據集是指由數據組成的集合,通常以表格形式出現,每一列代表一個特定變量,每一行則代表一個樣本單位,這樣的形式更便于數據利用者進行開發利用。
為推動數據的開放和利用,2007年,一群開放數據倡導者提出了政府數據開放的八項基本原則:
第一,完整(Complete)。除非涉及國家安全、商業機密、個人隱私或其他特別限制,所有的政府數據都應開放,以開放為原則,不開放為例外。
第二,一手(Primary)。開放從源頭采集到的一手數據,盡可能保持數據的高顆粒度,而不是開放被修改或加工過的數據。
第三,及時(Timely)。數據盡可能以最快速度發布,以保持數據的價值。
第四,可獲取(Accessible)。盡可能地拓寬開放數據的用戶范圍和利用目的。
第五,可機讀(Machine-readable)。對數據進行合理的結構化處理,使之可被計算機自動處理。
第六,非歧視性(Non-discriminatory)。數據對所有人都平等開放,無需登記。
第七,非專屬性(Non-proprietary)。數據以非專屬格式存在,從而使任何實體都不能獨占和排他。
第八,免授權(License-free)。數據不受版權、專利、商標或貿易秘密規則的約束,除非有合理的隱私、安全和特別限制。
目前,該標準已被國際開放數據領域廣泛接受。
六、面對疫情的政府數據開放當大有作為
面對疫情,公眾只有掌握了充分的信息,才能做出更理性的決定,采取更有利的行動。有量化研究表明,媒體的報道量增加十倍,傳染病的感染數將會減少33.5%。在互聯網和社交媒體已如此發達的數字社會,公眾如果不能及時獲得來自政府的權威數據,而只能在網上看到各種真真假假的小道消息,只會增加他們的恐慌感。
因此,讓公眾在疫情初期就能獲得充分的信息,從而加強自我防護,減少出行聚會,有利于政府防控疫情。反之,片面地以避免社會恐慌為出發點,采取“外松內緊”的策略,即政府雖然在內部努力防控,但卻沒有將疫情信息充分告知社會,會造成公眾在不知情的情況下,繼續毫無防護地四處游走,最終反而助長疫情的傳播。
進入大數據時代,社會公眾的信息需求也發生了變化。面對疫情,公眾想知道的不僅僅是自我防護知識、官方疫情通報、相關政策通知,還想獲得權威的、完整的、一手的、準確的、及時的數據。顯然,目前各級政府相關部門在各個渠道上發布的碎片化的、不連續的、不完整的數據,還不能滿足公眾的數據需求。
傳統的信息公開主要以非結構化的、文本的形式提供,而在大數據時代,公眾希望能獲得結構化的、可機讀的數據,便于其理解和加工利用。政府數據開放由此走上前臺,將開放的對象推進到了信息的底層——數據層。
而且,防控疫情也不能只靠政府一方來孤軍奮戰,還需要整個社會的充分參與。政府將自己掌握的疫情數據作為一種基本的原料開放給社會,然后社會力量可以將這些數據開發成各種應用,更好地滿足公眾的數據需求。最終,政府和社會之間可以實現協同治理,控制疫情,讓廣大民眾受惠于大數據帶來的便利。
近年來,我國中央和地方層面已出臺了多項有關公共數據開放的政策法規。2017年2月,中央全面深化改革領導小組第三十二次審議通過了《關于推進公共信息資源開放的若干意見》,要求推進公共信息資源開放,促進信息惠民,著力推進重點領域公共信息資源開放,釋放經濟價值和社會效應。2018年1月,中央網信辦等多部委聯合印發了《公共信息資源開放試點工作方案》,確定在北京、上海、浙江、福建、貴州開展公共信息資源開放試點,并要求試點地區著力提高開放數據質量、促進社會化利用,探索建立制度規范。
2019年8月,上海市政府第61次常務會議審議通過了我國第一部專門針對公共數據開放的地方政府規章《上海市公共數據開放暫行辦法》。該辦法要求上海市各級公共管理和服務機構向社會提供具備原始性、可機器讀取、可供社會化再利用的公共數據集。
近年來,我國的政府數據開放工作也正在穩步推進。根據復旦大學數字與移動治理實驗室近期發布的《中國地方政府數據開放報告(2019年下半年)》,自上海市于2012年6月上線了我國第一個地方政府數據開放平臺后,截至2019年下半年,我國內地已有102個地級以上的地方政府推出了數據開放平臺,國家公共數據開放平臺也將于近期上線。
然而,當前的政府數據開放仍然面臨著很多挑戰和難點問題。例如,政府數據開放,在字段和顆粒度上做到多細才合適?怎樣開放數據才能既滿足公眾知情權,有利于社會對數據進行開發利用,又能維護社會安定和個人隱私?怎樣防止數據在開放后被人濫用,以保護公共利益和第三方利益?如何才能在數據開放利用全過程的事前、事中、事后各個階段既促進數據利用,又加強安全防護?如何面向不同人群,針對不同類型的數據,以不同的方式分級分類地開放?這些問題都還需要各地各級政府進一步探索和研究。
無論如何,面對疫情,政府數據開放還有很大空間可以作為。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司