- +1
美國(guó)CDC、JHU在用的疫情數(shù)據(jù)庫(kù),來(lái)自這個(gè)武漢姑娘的華人團(tuán)隊(duì)
原創(chuàng) 文摘菌 大數(shù)據(jù)文摘

作者:劉俊寰
剛剛,根據(jù)CovidNet網(wǎng)站數(shù)據(jù),新冠肺炎導(dǎo)致的美國(guó)確診病例累計(jì)突破200萬(wàn),全球累計(jì)確診病例數(shù)突破700萬(wàn),除了美國(guó),巴西、俄羅斯、西班牙、英國(guó)、印度和意大利6個(gè)國(guó)家累計(jì)確診數(shù)已經(jīng)超過(guò)20萬(wàn)。

數(shù)字無(wú)法取代每一個(gè)鮮活的生命,但從這些看似冰冷的數(shù)字中,我們?nèi)匀豢梢缘贸鲆恍┯袦囟鹊男畔ⅲ瑢⑦@些信息分享給更多的人。
基于“一畝三分地”這個(gè)北美華人論壇的新型冠狀病毒世界疫情動(dòng)態(tài)追蹤平臺(tái)CovidNet,就是郭昱和團(tuán)隊(duì)正在著手經(jīng)營(yíng)的項(xiàng)目,這是一個(gè)實(shí)時(shí)追蹤新冠疫情數(shù)據(jù)的網(wǎng)站,在1月初美國(guó)還沒(méi)有其他實(shí)時(shí)的疫情追蹤網(wǎng)站時(shí),郭昱就已經(jīng)開(kāi)始和4位全職數(shù)據(jù)工程師著手打造這個(gè)網(wǎng)站了。
如今各國(guó)都建立起了實(shí)時(shí)疫情追蹤網(wǎng)站,其中最知名的或許要屬約翰霍普金斯大學(xué)(JHU)新冠追蹤網(wǎng)站,但其實(shí),該網(wǎng)站的美國(guó)數(shù)據(jù)完全引用于CovidNet的數(shù)據(jù)。3月26日,美國(guó)疾病控制與預(yù)防中心(CDC)正式采用CovidNet的數(shù)據(jù),這也是美國(guó)官方對(duì)民間數(shù)據(jù)網(wǎng)站的重要肯定。

讀者還可以進(jìn)行跨區(qū)域的疫情橫向比較,比如當(dāng)選中國(guó)家后可以用鼠標(biāo)滑過(guò)不同地區(qū)查看相應(yīng)地區(qū)的疫情數(shù)據(jù),除此之外,CovidNet還提供了各種動(dòng)態(tài)圖進(jìn)行展示。


https://coronavirus.1point3acres.com/zh/world
不僅如此,為了讓更多人從中受益,5月14日,郭昱團(tuán)隊(duì)將CovidNet的建立過(guò)程和技術(shù)細(xì)節(jié)以預(yù)印本形式進(jìn)行了分享,并且向數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘領(lǐng)域的相關(guān)會(huì)議進(jìn)行了投遞。

https://arxiv.org/abs/2005.10948?from=timeline&isappinstalled=0
截止到預(yù)印本發(fā)表時(shí)刻,CovidNet已經(jīng)覆蓋了英語(yǔ)、中文、法語(yǔ)、日語(yǔ)、西班牙語(yǔ)5種語(yǔ)言,共覆蓋國(guó)家或地區(qū)188個(gè),其中有州或省份級(jí)別數(shù)據(jù)的國(guó)家有25個(gè),覆蓋州、省份974個(gè),覆蓋北美郡、市3169個(gè),CovidNet的數(shù)據(jù)信息源總數(shù)達(dá)到了2038條,用戶提交的新聞線索報(bào)告數(shù)量達(dá)到16240條。
截止至本文發(fā)表,CovidNet已經(jīng)覆蓋39個(gè)國(guó)家的分省/州數(shù)據(jù),網(wǎng)站訪問(wèn)量更是超過(guò)了2.25億。
由于數(shù)據(jù)發(fā)布的及時(shí)準(zhǔn)確,CovidNet已經(jīng)引起了海內(nèi)外不少媒體的興趣,包括《星島日?qǐng)?bào)》、CGTN、鳳凰衛(wèi)視在內(nèi)的多家媒體都已對(duì)郭昱以及CovidNet進(jìn)行了跟蹤報(bào)道。

4月,美國(guó)著名學(xué)術(shù)期刊,根據(jù)Gardner的說(shuō)法,她和實(shí)驗(yàn)室6名學(xué)生共同撐起了整個(gè)網(wǎng)站的運(yùn)作,她們的數(shù)據(jù)來(lái)源除了地方衛(wèi)生局和各地媒體,美國(guó)國(guó)內(nèi)3149個(gè)郡、市的實(shí)時(shí)疫情數(shù)據(jù)完全來(lái)源于CovidNet。
即使Gardner說(shuō)得比較克制,但從她的介紹中,我們?nèi)匀荒軌蛳胂笠?shí)時(shí)更新的新冠疫情追蹤網(wǎng)站是有多么不易。相比于約翰霍普金斯新冠追蹤網(wǎng)站,郭昱團(tuán)隊(duì)最初只有4位全職工程師,如今CovidNet還擁有了超過(guò)50位志愿者。他們共同面對(duì)當(dāng)下最具挑戰(zhàn)性的全球性的數(shù)據(jù)追蹤問(wèn)題,這不僅包括數(shù)據(jù)收集,還要進(jìn)行實(shí)時(shí)的數(shù)據(jù)核實(shí)和深入調(diào)查。
最重要的是,在全世界的監(jiān)督之下,這里的數(shù)據(jù)容不得一點(diǎn)差錯(cuò)。
首先,數(shù)據(jù)收集就是一個(gè)難關(guān)。郭昱表示,在公開(kāi)數(shù)據(jù)上,CovidNet主要通過(guò)以下兩種方式獲取,一個(gè)是國(guó)家官方系統(tǒng)提供的開(kāi)源數(shù)據(jù),另一個(gè)是官方統(tǒng)計(jì)的當(dāng)天最新數(shù)據(jù)。
這其中根據(jù)每個(gè)國(guó)家報(bào)道的范式不同,上述兩種方式還需要細(xì)分。
對(duì)于第一種情況,有的國(guó)家以病例為單位進(jìn)行報(bào)道,比如菲律賓或哥倫比亞,有的國(guó)家以行政區(qū)為單位進(jìn)行報(bào)道,比如意大利或西班牙。針對(duì)此,郭昱團(tuán)隊(duì)采取的做法是將前者聚合成后者的數(shù)據(jù)范式,這樣不僅能保持?jǐn)?shù)據(jù)一致性,還能為全面準(zhǔn)確地更新疫情數(shù)據(jù)提供良好的數(shù)據(jù)來(lái)源。
對(duì)于第二種情況,鑒于歷史數(shù)據(jù)大都以各種格式保存在歷史檔案或新聞存檔中,他們對(duì)能夠從官方存檔中獲取到所有的歷史數(shù)據(jù)進(jìn)行匯總,并且僅更新當(dāng)日官方報(bào)道的最新數(shù)據(jù)。
除此之外,根據(jù)全球各異的數(shù)據(jù)發(fā)布方式,郭昱團(tuán)隊(duì)設(shè)計(jì)了不同的數(shù)據(jù)處理機(jī)制。
很多時(shí)候,國(guó)家/地區(qū)-省/州-郡/縣各級(jí)衛(wèi)生機(jī)構(gòu)發(fā)布數(shù)據(jù)的時(shí)間節(jié)點(diǎn)不同步,如果以不同級(jí)別的信息源各為參照源,就會(huì)導(dǎo)致數(shù)據(jù)總和出現(xiàn)差異,例如,在某一時(shí)刻,各個(gè)郡/市的統(tǒng)計(jì)數(shù)據(jù)之和與省/州總數(shù)并不相等,他們會(huì)優(yōu)先選擇參照更基層的數(shù)據(jù)來(lái)源,同時(shí)在網(wǎng)站上公開(kāi)解釋和高一級(jí)官方數(shù)據(jù)源不一致的原因。
除了數(shù)據(jù)上的整合之外,各國(guó)的診斷標(biāo)準(zhǔn)不同,從時(shí)間上看將出現(xiàn)病例匯報(bào)的渠道和方式的前后差異,比如,疫情初期通常是個(gè)例報(bào)道,每例都會(huì)提供詳細(xì)信息,但隨著確診人數(shù)的增加,個(gè)例報(bào)道逐漸演變成確診數(shù)字統(tǒng)計(jì),從空間上看每個(gè)國(guó)家處于疫情的不同階段,根據(jù)確診定義的發(fā)展數(shù)據(jù)標(biāo)準(zhǔn)也在同步變化。
這不只表現(xiàn)在不同國(guó)家之間,在其他級(jí)不同區(qū)域之間同樣存在類(lèi)似情況,比如某些區(qū)域的數(shù)據(jù)增長(zhǎng)過(guò)快,或者同一份報(bào)告中的數(shù)據(jù)不一致,在總趨勢(shì)中出現(xiàn)了累計(jì)統(tǒng)計(jì)總數(shù)下降等,都是需要考慮的地方。
針對(duì)上述種種變化,郭昱表示,為確保質(zhì)量控制和數(shù)據(jù)的準(zhǔn)確,他們結(jié)合自動(dòng)搜集和人工更改、查驗(yàn)的方式,同時(shí)也會(huì)按照當(dāng)?shù)匦l(wèi)生機(jī)構(gòu)統(tǒng)計(jì)的方法,隨時(shí)針對(duì)數(shù)據(jù)獲取和統(tǒng)計(jì)方式進(jìn)行修正,包括以人工核查的方式過(guò)濾掉媒體或者衛(wèi)生部門(mén)報(bào)告中的噪聲,在根據(jù)原始信息進(jìn)行更新的基礎(chǔ)上密切關(guān)注后續(xù)發(fā)展,對(duì)歷史數(shù)據(jù)進(jìn)行回查等。

根據(jù)郭昱介紹,CovidNet的工程師團(tuán)隊(duì)成員都屬于“一畝三分地”的全職工作人員;負(fù)責(zé)數(shù)據(jù)核查的50多位志愿者們則是通過(guò)網(wǎng)絡(luò)招募加入,主要是華人群體或北美留學(xué)生,他們中有數(shù)據(jù)科學(xué)家、工程師,也有各專業(yè)學(xué)生、學(xué)者、教授。盡管有著不同的職業(yè)或?qū)I(yè)背景,每個(gè)人都能在團(tuán)隊(duì)統(tǒng)籌下完成數(shù)據(jù)統(tǒng)計(jì)和核實(shí)工作,不少志愿者還對(duì)流程的制定和迭代優(yōu)化也做出了不小貢獻(xiàn)。
團(tuán)隊(duì)是在并行異步地更新數(shù)據(jù),為了保證減少時(shí)滯,同時(shí)避免數(shù)據(jù)多重更新等難題,團(tuán)隊(duì)設(shè)計(jì)了相應(yīng)的流程和分級(jí)處理,在規(guī)范統(tǒng)籌數(shù)據(jù)更新模式和流程之后,對(duì)于不同地區(qū)的數(shù)據(jù)整理和校對(duì),也設(shè)有專人對(duì)應(yīng)地進(jìn)行負(fù)責(zé)。
郭昱表示,團(tuán)隊(duì)每?jī)蓚€(gè)小時(shí)就會(huì)查看并檢查是否有最新數(shù)據(jù),如果有,便會(huì)把相關(guān)數(shù)據(jù)實(shí)時(shí)更新到數(shù)據(jù)庫(kù)中。
“我們秉承從所能獲取的最原始數(shù)據(jù)出發(fā)的原則,每次更新都對(duì)歷史數(shù)據(jù)進(jìn)行全面的核查校對(duì),因此需要用戶在使用我們數(shù)據(jù)庫(kù)的時(shí)候需要及時(shí)更新全部的數(shù)據(jù)庫(kù)而僅非當(dāng)天數(shù)據(jù)。”郭昱說(shuō)道。
事在人為,CovidNet的北美成長(zhǎng)史
以北美為例,我們來(lái)看看CovidNet的成長(zhǎng)史。
在CovidNet之前,全球范圍內(nèi)除了中國(guó)丁香園,絕大多數(shù)主流COVID-19追蹤平臺(tái)提供的是國(guó)家層級(jí)的數(shù)據(jù),比如國(guó)際衛(wèi)生組織(WHO)和歐洲疾病預(yù)防控制中心(ECDC)等國(guó)際組織,但這些數(shù)據(jù)往往滯后于快速發(fā)展的疫情,難以為身處混亂信息中的各地民眾帶來(lái)迫切需要的透明、及時(shí)的信息。

事在人為。為了彌補(bǔ)官方公共衛(wèi)生渠道在實(shí)時(shí)性和一致性方面的不足,從1月21日開(kāi)始,CovidNet數(shù)據(jù)團(tuán)隊(duì)展開(kāi)了對(duì)北美確診、死亡、治愈(recover)三項(xiàng)統(tǒng)計(jì)數(shù)據(jù)的追蹤,也逐步引入了一系列查證、核實(shí)方式,綜合應(yīng)對(duì)當(dāng)?shù)胤旨?jí)匯報(bào)系統(tǒng)帶來(lái)的額外挑戰(zhàn)。
同時(shí),CovidNet團(tuán)隊(duì)也與COVID Tracking Project團(tuán)隊(duì)展開(kāi)合作,將檢測(cè)數(shù)量和病床占有數(shù)等統(tǒng)計(jì)指標(biāo)納入到數(shù)據(jù)展示中,構(gòu)建了對(duì)區(qū)域疫情更為完整清晰的刻畫(huà)。
比如在疫情爆發(fā)的不同階段,用戶對(duì)數(shù)據(jù)的關(guān)注點(diǎn)會(huì)有所變化,CovidNet在疫情爆發(fā)的不同階段采用了不同模式的數(shù)據(jù)整合方法,同時(shí)把使用不同模式的時(shí)期劃分成了疫情的三個(gè)階段:
主動(dòng)搜索模式階段:疫情浮現(xiàn)初期和中期,確診數(shù)目較低。在這一模式下,志愿者團(tuán)隊(duì)主動(dòng)搜索相關(guān)媒體新聞和官方報(bào)道,進(jìn)行多來(lái)源比對(duì)以保證不出現(xiàn)重復(fù)計(jì)算;
用戶匯報(bào)模式階段:疫情擴(kuò)展期,確診數(shù)目增加、地理擴(kuò)散加速。在這一時(shí)期,團(tuán)隊(duì)利用早期建立的用戶群基礎(chǔ),開(kāi)辟用戶匯報(bào)通道。主動(dòng)搜索仍然發(fā)揮著重要角色,而用戶匯報(bào)通道模式的開(kāi)辟也在很大程度上保證了CovidNet數(shù)據(jù)平臺(tái)的實(shí)時(shí)性;
自動(dòng)收集模式階段:疫情爆發(fā)期后,每日新增確診數(shù)目激增、地理覆蓋廣泛。在這一模式下,工程師團(tuán)隊(duì)建立了一套完整的自動(dòng)化更新系統(tǒng),實(shí)時(shí)追蹤可靠數(shù)據(jù)源的數(shù)據(jù)更新(包括各地官網(wǎng)和可信的主流媒體平臺(tái)),并及時(shí)反饋給志愿者團(tuán)隊(duì)。志愿者團(tuán)隊(duì)則主要負(fù)責(zé)進(jìn)一步查證,以確保數(shù)據(jù)歷史的一致性,完成最終數(shù)據(jù)錄入。
針對(duì)不同階段,基于數(shù)據(jù)源所提供信息的詳略程度,工程師團(tuán)隊(duì)對(duì)后端數(shù)據(jù)的存儲(chǔ)格式也持續(xù)進(jìn)行著相應(yīng)調(diào)整、更新,后端數(shù)據(jù)的儲(chǔ)存格式也會(huì)有相應(yīng)的變化:
信息細(xì)化型格式:不同的案例被分別單獨(dú)記錄。每一條記錄中包含以下信息:案例數(shù)目,確診/死亡日期,確診/居住地區(qū),性別,年齡,感染原因,數(shù)據(jù)來(lái)源,病例概述等。在疫情初期和中期,此格式作為主要格式被長(zhǎng)期使用;
信息密集型格式:數(shù)據(jù)記錄只保留了時(shí)間和地點(diǎn)兩大信息。疫情大規(guī)模爆發(fā)后,各大數(shù)據(jù)源逐漸取消了對(duì)詳細(xì)案例信息的報(bào)道,這使得密集型格式成為更加合理和高效的選擇。這一格式從4月底成為CovidNet數(shù)據(jù)庫(kù)主要格式,一直沿用至今。
輔助統(tǒng)計(jì)表格:輔助統(tǒng)計(jì)表格不作為直接數(shù)據(jù)的記錄方式,用來(lái)存儲(chǔ)區(qū)域性數(shù)據(jù)的衍生統(tǒng)計(jì)信息。具體實(shí)例包括:州、郡數(shù)據(jù)的當(dāng)前案例數(shù)統(tǒng)計(jì)。
除了在數(shù)據(jù)整合和呈現(xiàn)上所做的貢獻(xiàn)外,CovidNet還開(kāi)辟了美國(guó)醫(yī)護(hù)人員防護(hù)物資需求整合及發(fā)布板塊、疫情新聞板塊,希望能給更多收到疫情影響的人提供幫助。
提供真實(shí)數(shù)據(jù),是整個(gè)團(tuán)隊(duì)的初心
作為CovidNet的創(chuàng)建人和一畝三分地的聯(lián)合創(chuàng)始人,郭昱曾獲得哈佛大學(xué)生物統(tǒng)計(jì)學(xué)博士學(xué)位,目前在Uber自動(dòng)駕駛機(jī)器學(xué)習(xí)平臺(tái)任高級(jí)主管一職。
郭昱介紹道,目前她的主要工作是領(lǐng)導(dǎo)整個(gè)疫情地圖的開(kāi)發(fā),決定收取怎樣的數(shù)據(jù),如何用不同的信息源進(jìn)行查證,怎樣做到真實(shí)可信,以及自動(dòng)化的實(shí)現(xiàn)等。
“除了吃飯睡覺(jué)和上班,我其余時(shí)間每一分鐘都用在這上面了。”郭昱說(shuō)道。
她在領(lǐng)英中寫(xiě)道:“由于新冠疫情,我的家庭成員和很多幼年朋友仍居家隔離中,2月我的叔叔感染病毒過(guò)世。雖然我無(wú)法在武漢為他們做些什么,但我真的想以某種方式提供幫助。”

說(shuō)到志愿者團(tuán)隊(duì),郭昱介紹道,他們來(lái)自不同的地方,參加項(xiàng)目的原因各不相同。盡管如此,大家有一個(gè)共同的目標(biāo),就是希望通過(guò)疫情網(wǎng)站給用戶提供最接近真實(shí)的疫情發(fā)展信息。無(wú)論是好是壞,真實(shí)數(shù)據(jù)的傳達(dá)不僅可以幫助大家減少恐慌,也可以能幫助大家在疫情期間合理做決策。
這些人平時(shí)散落在各個(gè)角落,分布在街頭巷尾,就像每天上班途中地鐵上看到的每個(gè)普通人一樣,各自為生活努力著。他們和你我一樣,都會(huì)受到疫情影響,也會(huì)為疫情感到焦慮。
如今,CovidNet的網(wǎng)站訪問(wèn)量已經(jīng)超過(guò)了2.25億,就產(chǎn)品角度而言這可以說(shuō)是一次巨大的成功,郭昱也表示,“不可避免地會(huì)進(jìn)行產(chǎn)品層面上的關(guān)心,但更關(guān)心的是疫情得到控制。實(shí)際上,訪問(wèn)量下降反而是一件好事,這表示疫情過(guò)去了”。

原標(biāo)題:《剛剛,美國(guó)確診超200萬(wàn)!美國(guó)CDC、JHU在用的疫情數(shù)據(jù)庫(kù),來(lái)自這個(gè)武漢姑娘的華人團(tuán)隊(duì)》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司