- +1
美國疫情分析:檢測數(shù)據(jù)背后的政治“學問”
原創(chuàng) 冰山君 數(shù)據(jù)冰山
你可能身在美國,或有親友在美國,一直在用各州新冠病毒感染確診人數(shù)來比較疫情嚴重程度。
這套數(shù)據(jù),有一個壞消息,一個好消息。
壞消息是:這套數(shù)據(jù)自帶3個缺陷,誤導性很強,你想比的它幫不了你。
好消息是:只要細品品,還是能品出點秘密的。
好,咱來看看這組數(shù)據(jù)在哪、干不了啥、能干啥、未來走勢如何。
首先,各州檢測數(shù)據(jù)在哪?
要瀏覽和下載美國各州最新和歷史數(shù)據(jù),需要能上谷歌文檔。大西洋(The Atlantic)雜志和號稱「數(shù)據(jù)博士」Cloudera 聯(lián)合創(chuàng)始人 Jeffrey Hammerbacher 合作發(fā)布在谷歌文檔上一套數(shù)據(jù),實時從各州數(shù)據(jù)源抓取最新數(shù)據(jù)并匯總。數(shù)據(jù)可以下載。數(shù)據(jù)包括各州上報的檢測數(shù)、確診數(shù)、疑似數(shù)、排除數(shù)和死亡數(shù)。
截止到3月15日確診數(shù)前20州是這樣的:

不能用來比較各州疫情嚴重程度。
因為,這組數(shù)據(jù)有3個大bug,造成各州之間「蘋果根本沒法跟桔子比」。
第一個bug是:各州確診絕對數(shù)看不出疫情濃度。各州人口不同,如果用同樣的力度和方法檢測,人均確診數(shù)才是一個體現(xiàn)中招者在人群中濃度的指標。
比如,你可能覺得確診數(shù)769的華盛頓州比確診數(shù)729的紐約州只是嚴重那么一點點。但是如果你知道華盛頓州和紐約州的總?cè)丝诜謩e是760萬和1950萬呢?這樣一算,華盛頓州的人均確診率是101人/百萬人口,而紐約州只有38人/百萬人口。
這樣一算,你可能以為:「華盛頓州的疫情濃度是紐約州的2倍多呢」。真的嗎?
第二個bug來了:各州的檢測力度不同,數(shù)字低,也許只是證明「不檢測就不存在」定律。
紐約州這個人口大州總檢測人數(shù)是5272,人均檢測率為271人/百萬人口;而人口不及一半的華盛頓州總檢測人數(shù)為10220,人均檢測率高達1342人/百萬人口。所以,紐約的檢測人數(shù)上2.6萬的時候,檢測力度才能追上華盛頓州。否則就有瞞報漏報之嫌。
另外,這個bug還警告我們:遠離夏威夷!那個140萬人的州簡直就是個黑匣子,那么多世界各地的游客,到現(xiàn)在只有區(qū)區(qū)7人確診,聽起來很安全吧?可是...一共只檢測了7個人啊!
即使人均檢測率相當,還有第三個bug搗亂:各州接受檢測的標準不同,有的嚴有的松。雖然紐約確診率是14%而華盛頓州是8%,誰也不知道是因為紐約疫情更嚴重還是紐約只給新冠疑似度更高的患者檢測。
所以,用這組數(shù)據(jù)橫向比較各州疫情嚴重程度,那是很扯的。
那這組數(shù)據(jù)能干啥?
這組數(shù)據(jù)中的檢測數(shù),可以從絕對數(shù)和相對數(shù)方面橫向比較各州檢測力度。
先看絕對數(shù)。
我們把50個州加哥倫比亞特區(qū)按總檢測數(shù)排名:


嗯,「齊夫定律」。這個詞被自然語言處理(NLP)愛好者們私下用來不動聲色地識別同類。今天曝光一下他們私藏的這個外行過濾器。
齊夫定律(Zipf's law)是哈佛大學的語言學家喬治·金斯利·齊夫(George Kingsley Zipf)1949年發(fā)表的經(jīng)驗規(guī)律:在自然語言的語料庫里,一個單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現(xiàn)的頻率大約是出現(xiàn)頻率第二位的單詞的2倍,而出現(xiàn)頻率第二位的單詞則是出現(xiàn)頻率第四位的單詞的2倍。

這條冪函數(shù)曲線在雙對數(shù)坐標里是直線:

像摩爾定律一樣,齊夫定律也是一條很「驚艷」的經(jīng)驗定律。
「數(shù)量和排名成反比」這個習性,不光英語有,其他語言也有;不光藏在語言里,還藏在生活的方方面面。比如:
亞馬遜或天貓某品類單品銷量和排名
某國家城市人口和排名
網(wǎng)頁訪問頻率和排名
這些事物的共性是:排名靠前的更容易增長。比如:
銷量高的單品更容易出現(xiàn)在消費者搜索頁面前排,因而獲取更多銷量;
最常用詞匯更容易被受眾熟悉,進而使受眾也更頻繁使用;
人口規(guī)模更大的城市有更多就業(yè)機會,進而吸引更多人口;
訪問量大的網(wǎng)頁更容易出現(xiàn)在搜索結(jié)果前列,因而獲取更多流量。
所以,齊夫定律直覺上就是馬太效應所說的「富者越富」:如果數(shù)量排名靠前能給數(shù)量繼續(xù)增長帶來額外優(yōu)勢,那么數(shù)量與排名的關系很可能遵循齊夫定律。
新冠檢測這件事,是不是聞起來也有點齊夫的味道?
檢測數(shù)較多的州,確診數(shù)有機會排名靠前,會促使該州更重視,投入更多的檢測;
檢測數(shù)較少的州,確診數(shù)肯定排名靠后,容易讓本州人「眼不見為凈」,姑且茍安,后續(xù)檢測力度也不強。
我們?nèi)?shù)看看全美各州加哥倫比亞特區(qū)的檢測數(shù)排名是否像齊夫定律所說的,遵循直線。(由于齊夫擬合通常越到尾部偏差越大,我們剔除了夏威夷和懷俄明兩個尾部數(shù)據(jù)點。)

分布符合齊夫定律,感覺很自然;但是你看到這個排名有沒有發(fā)現(xiàn)什么不自然?

干脆,我們按州長所屬的政黨把50個州都標一下藍州(民主黨)和紅州(共和黨)。特朗普是共和黨,所以首都DC算紅的。

如果我們把藍色和紅色看成兩個不同的總體,檢測數(shù)和排名的雙對數(shù)圖是這樣的:

但是,在對數(shù)坐標上,共和黨和民主黨的齊夫直線斜率不同,位置也不同。共和黨的擬合線完全在民主黨的下方。
兩黨執(zhí)政的州仿佛是平行世界般的存在。
這張圖顯示,無論州大州小,迄今為止共和黨執(zhí)政州在疫情檢測的絕對數(shù)上,全面落后于民主黨執(zhí)政州。
如果想知道人均檢測率的相對數(shù),各州排名如下:

所以說,如果你在共和黨執(zhí)政州,很遺憾,迄今為止你們的平均檢測率還不到民主黨執(zhí)政州的1/4。
當你看到自己州確診數(shù)排名不高,放心地逛超市下館子去健身房時,你根本意識不到遭遇傳染者的風險到底有多大。
所以,民主黨這頭驢在比共和黨大象更加努力地檢測疫情,這已經(jīng)是實錘了,不管他們是真的更加關注公共衛(wèi)生,還是更加致力于在大選年扳倒抗疫不力的共和黨。
美國全國疫情檢測會改善嗎?
目前的數(shù)據(jù)對上一階段美國的疫情檢測是一個總結(jié)。值得高興的是,美國全國疫情檢測不利的局面本周起會有大幅改善。
截止3月15日,全美人均檢測數(shù)118人/百萬,大約是中國廣東2月底(2828人/百萬)的1/20,英國3月8日(347/百萬)的1/3。美國檢測力度最大的華盛頓州,人均檢測率1342人/百萬,接近廣東的一半。
3月15日周日晚,美國衛(wèi)生與公共服務部助理部長布雷特·賈諾(Brett Giroir)在特朗普和彭斯主持的白宮新聞發(fā)布會上宣布,從周一開始,全美將有多達2000個化驗室配備可同時處理多個樣本的高速新冠病毒檢測儀,一周內(nèi)將有約190萬個測試盒就緒。賈諾稱,預計這些化驗室每周能將增加幾萬到幾十萬次的檢測。
過去一周,全美檢測數(shù)為3.5萬,未來幾周的檢測產(chǎn)能有望提高一個數(shù)量級。如果真的用掉190萬個測試盒,全美的人均檢測率將達到6000多人/百萬人口,大約是廣東2月底人均檢測率的兩倍。
我們拭目以待,讓美國大幅提升的人均檢測率幫我們離各州疫情的真相越來越近。
總結(jié):
截止到3月15日,美國匯總的各州檢測和確診數(shù)據(jù),沒有考慮各州人口、檢測率、和檢測標準的差異,不足以支持橫向評估疫情嚴重程度,但可以用來比較各州檢測力度。
各州檢測總數(shù)和各州排名符合齊夫定律。
民主黨執(zhí)政州和共和黨執(zhí)政州的檢測數(shù)分別排名各自符合齊夫定律,但是參數(shù)不同,仿佛存在于兩個平行世界。政治可以掰彎測量,但不能消滅真相。
迄今為止,民主黨執(zhí)政州比共和黨執(zhí)政州檢測更用力,人均檢測率是后者的4倍多。
如果3月15日白宮新聞發(fā)布會檢測舉措兌現(xiàn),美國未來幾周有望實現(xiàn)2倍于廣東的人均檢測率。
雖然,數(shù)據(jù)往往不夠豐滿,但洞察就像溝,只要擠一擠,總還是有的。
原標題:《美國疫情:檢測數(shù),屁股說了算,政治玩著科學的蛋》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司