- +1
疫情中數據的作用無法忽視,但也不能盲信模型 | 專訪前DHS生物監管總監
原創 文摘菌 大數據文摘

作者:劉俊寰
截至2月27日24時,據31個省(自治區、直轄市)和新疆生產建設兵團報告,現有確診病例39919例(其中重癥病例7952例),累計治愈出院病例36117例,累計死亡病例2788例,累計報告確診病例78824例,現有疑似病例2308例。累計追蹤到密切接觸者656054人,尚在醫學觀察的密切接觸者65225人。
不只是國內,日本、韓國、意大利等多個國家都出現了新冠患者,全球感染形勢似乎已成定局。
在疫情全球肆虐之下,作為科技從業者,數據能在哪些方面助力疫情,哪些數據需要及時地公開和披露,如何利用這些數據,面對日趨復雜的數據和模型,應該保持怎樣的態度等,都是值得我們思考的問題。
針對這些問題,文摘菌專訪了兩位SAS的專家,SAS聯邦醫療支持經理,華盛頓大學流行病學和生物統計學教授Theresa Do,和SAS全球政府行業實踐總監,美國前國土安全部國家生物監管總監Steve Bennett,站在更宏觀的視角下,面對大數據和新技術,他們是如何解答這些疑問的,他們的解答對于我們而言相信也會是不小的啟發。
疫情前中后期,數據作用都無法忽視
數據是不會騙人的。
在病毒爆發前,Steve Bennett認為,數據就已經在發揮作用了,數據可以清楚地顯示出人類與動物接觸方式和頻次的明顯增多,以及多地物種數量呈密集分布等,基于此,科學家不難分析出病毒有更高幾率來源于動物,比如這次新型冠狀肺炎。
回顧此前的SARS、MERS、新型流感病毒,還有在西非爆發的埃博拉病毒等大范圍爆發的流行病,科學家估算出,約四分之三的新病毒都是源于動物,多達80萬種未知動物病毒可以傳染給人類。這正是數據所告訴我們的。
得到了這樣的結論,我們就可以更好地再次利用數據,整合已知病毒、動物數量、人口統計等,利用AI等新技術來預測新病毒可能出現的區域,從而幫助政府和公共衛生機構提前采取措施,至少可以在疫情爆發前做好準備和預防工作。
Steve Bennett說道,美國國土安全部曾研發出一個試用方法,即通過機器學習來挖掘出社交媒體數據中指出的異于常規流感的癥狀,反復研究實時物流和急救車調用數據,利用機器學習查找某些病患送往醫院的異常信息。再利用AI與這類數據結合,不僅可以更準確地偵測到非正常疾病,還能更快采取行動,如果從傳統疾病報告中查出端倪,則需要花費數周時間。

通過數據分析,結合出行、人口和疾病數據,可以預測疫情傳播區域和速度。Steve Bennett指出,這不僅需要公共衛生和科學的快速研究,還需要利益相關方更快速地共享信息。
Theresa Do補充道,針對如新型冠狀病毒這類傳染病的爆發,若要準確辨識出誘發和潛在威脅因素,必須整合所有數據進行綜合考量。如果想要檢測公共衛生健康狀況,需要綜合利用病案報告、電子健康記錄和實驗數據等傳統公共衛生數據資源。
隨著數據全球化進程的增速,將病案數據與確診病例的遷徙數據(例如飛行軌跡、遷入遷出國家、酒店信息等)打通,對于快速采取診斷、分診和隔離就顯得至關重要,進而能防止疫情擴散。
而在疫情被控制或者消除后,數據的作用仍然不可忽視,政府和國際衛生組織需要做出決策,如何更好地控制和阻止類似疫情的再爆發。這時,機器學習就可以用來測試政策和公共衛生舉措,模擬出可能的結果。

不能盲信模型,做好預防才是上策
各種數據的綜合利用,往往是以不同的預測模型作為結果呈現出來,疫情爆發至今,不只是中國,包括英美日等多國專家紛紛對疫情走勢做出預測,有人認為目前形勢比較樂觀,疫情將在2月中下旬到達頂峰,也有人認為疫情最終將導致世界范圍級別的感染。
面對眾說紛紜的預測模型,Steve Bennett指出,在計算模型領域有句話“所有的模型都是錯誤的……其中一些是有用的”。由于新病毒可能具備未知的、可怕的傳播力等因素,傳染病數據建模想要達到絕對的精準是不太可能的,一般都是不確定的,任何一個傳染病模型與疫情預測的絕對精準不存在必然聯系。
評估一個模型是否實用,最重要的是該模型是否嚴謹依據歷史信息。此前一些世界精英科學家采用了非常先進的計算方法進行預測,但是實際證明預測結果是錯誤的,而且偏差很大。
雖然對模型的準確性需要保留態度,但不可否認的是,這些模型可以幫助了解傳染病,指出哪些區域最容易遭到疫情侵襲,讓公共衛生機構和政府人員采取更有效、更快速的決策和行動。
舉個例子,無論預測案例數量是否精確,用出行模式和人口統計數據標記出最有可能受到新傳染病侵襲的區域,隨后政府有關部門就需要根據預測,增強公共衛生監測并提前介入該片區域的疫情管控,進行資源的部署。
在經濟方面,本次疫情帶來的損失已經不容忽視。針對不同的經濟預測,Steve Bennett也指出,就算沒有疫情干擾,要預測2020年的全球經濟,也有很多影響因素。
盡管所構建的模型表明,隔離決策確實會給經濟帶來重創,但是依舊需要與未實施隔離政策所帶來的潛在經濟損失進行對照評估,大量未經對照核查的疫情傳播信息和公共衛生研究結果則會帶來更大的損失,不僅僅是經濟層面上,還有生命。

此外,Steve Bennett也呼吁大家,不要因為模型的預測感到悲觀或焦慮,采取正確的預防措施才是上策,勤洗手、保持社交距離,在實際生活中這可比模型有效多了。
社交媒體充當關鍵節點,數據能成為救人工具
在Steve Bennett提到美國國土安全部的試用方法中,社交媒體也可能充當著疫情檢測的關鍵節點。
正如這次新冠疫情中,社交媒體數據可以與其他哨點監測數據、傳統的公共衛生數據資源相結合,深入挖掘并識別出誘因和錯誤信息。
在如何高效利用社交媒體數據上,就需要AI登場了。比如,自然語言處理(NLP)能進行信息篩選,辨識來源于非傳統公共衛生資源的數據,其中或許就包括可能威脅公共衛生的潛在因素和預兆。算法則能幫助從自然語言甚至是未經組織的語言中自主辨識關鍵詞和短語。
再次回顧2003年SARS時期,當時可利用的數據資源相當匱乏,社交媒體、物聯網設備和技術遠不如現在發達,數據資源也不足以協助進行醫療診斷,畢竟SARS后第4年,第一臺iPhone才首次問世,可以想見,用手機應用軟件協助健康追蹤和診斷在當時是怎樣一種瘋狂的想法。如今,隨著智能手機的不斷更新,帶動移動應用和創新技術的發展,可利用的數據也豐富了許多。
SARS爆發還處于一個十分敏感的時期——互聯網時代初期,患者不得不泄露個人信息,還需要每天手動測量并同步體溫。相比之下,如今信息接收者可以獲得更豐富的信息,物聯網設備快速讀取體溫并上傳,借助于文本信息和其他手段的分享,每個人都能提前預警身邊可能存在的威脅,例如小區感染人數等。
溝通方式的多樣,使得公共衛生預防信息得到了更高效的傳播,雖然也不可避免地帶來了一些謠言,但在技術之下也都被逐一偵破。

除此之外,民間組織所采用不同的、非傳統的數據,在本次疫情中也得到極大的彰顯,這對疫情控制也有著至關重要的作用,最關鍵是利用好這些數據。通過大數據技術、高級分析和AI,特別是機器學習,數據是能夠成為救人的工具。
不過,數據越豐富越多樣化,就越難以綜合考量并從中挖掘出重要因素,這也是需要警覺的地方。
病毒基因序列有助于疫情控制和解決,AI功不可沒
不管是對數據的利用,還是具體的通過數據構建模型,AI在其中扮演著不容忽視的角色。
在一些常見應用中賦能AI,可以幫助人們快速識別常見病癥,同時,通過助力實現自動數據分析,基于威脅因素識別模式并構建模型,來協同完成病毒傳播的場景分析。當AI成功識別出病毒傳播路徑后,便可以辨識出宿主或指示病例,甚至識別出潛在宿主。
在研制目前熱切關注的病毒疫苗時,AI同樣發揮著巨大的作用,其中,基因序列是關鍵。在生物學上,遺傳信息可以清楚地揭露出,威脅公共衛生的因素是否在變化,或者病毒將如何威脅人類的健康。
通過整合基因分析過程中所獲取的數據,幫助了解表層蛋白質和病毒進化,進而找到和疾病相關的遺傳信息,就算不是遺傳信息序列分析領域的專家,也可以通過研究基因序列和辨識序列共性,來確定數據統計的顯著性。
這都得益于AI技術的參與,整個過程才能如此迅速高效地進行。在實驗中,通過AI算法,可以在基因數據中采用深度學習和神經網絡,幫助更快地了解序列和病毒畸變之間的關系,深入研究科學理論和基因分析之間的關系等。

共享基因序列地重要性不言而喻,這使得研究人員能夠盡早地對其他冠狀病毒展開分析。新冠病毒的相關研究顯示,其與SARS有很高的相似性,源頭上也都與蝙蝠有牽連。后期,隨著掌握病毒基因序列越來越多,研究人員就可以通過對比研究它們的共性。
短時間內從基因序列中挖掘中的信息越多樣,就越能幫助我們減緩病毒的遺傳適應進程。
在未來,Theresa Do希望,能開發出更先進的診斷工具,不僅能夠實現更快的病毒株測試,還能識別遺傳資源保護因素,特別是通過在精準醫學領域的進一步研究,這將使得研究人員更加準確地識別出哪些保護因素是有效的,哪些是無用的。
另外,Theresa Do還希望技術的創新發展將更準確地辨識出個人行為模式的異常表現,基于醫療設備的多樣性和數據的高度聯通,針對這些可能需要醫療幫助的人提供及時預警,同時,技術創新能有效保障數據安全,這樣數據才可以在高度保密之下,更快地辨識傳染病的傳播模式。
原標題:《疫情中數據的作用無法忽視,但也不能盲信模型 | 專訪前DHS生物監管總監》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司