- +1
AI社會學|不,這不是“中國人在不在乎隱私”的問題
這看起來像是發生在上個世紀的事。
2002年,初出茅廬的統計學碩士安德魯·波爾(Andrew Pole)在美國排名僅次于沃爾瑪的連鎖超市Target開始打人生的第一份工。作為底層打工人,彼時他接到的任務是,從Target收集的用戶數據里(信用卡號、購買商品,年齡、性別等等),“找出”那些正在懷孕的女顧客。
對壓力山大的市場部來說,懷孕的女顧客們就是金礦——心理學家們很早就發現,在消費者漫長的一生里,有少數幾個會徹底改變他們購物習慣的時刻,迎接新生命就是其中之一。如果一家超市能在顧客懷孕待產的階段針對性推送她們感興趣的商品優惠券,準媽媽們很可能就此被套牢,在嬰兒降生無暇他顧的時段里習慣性地從Target反復購物,從此成為該店至死不渝的忠實顧客。

Duhigg, Charles. "How companies learn your secrets." The New York Times 16, no. 2 (2012): 1-16.
問題是,要從茫茫汪洋般的用戶數據里找出可能正在懷孕的顧客,并不是一件容易的事。那時,統計學在海量用戶行為數據里施展神通的時代才剛剛開始。波爾反復對已知懷孕顧客的購物數據進行分析,搭建了一個所謂的“懷孕預測模型”,以及與此模型相關的25項商品。
波爾發現,在懷孕的不同階段,女性顧客們購買的商品會呈現出非常相似的規律,例如懷孕初期她們會購買大瓶的無香身體乳,中期會購買一些維生素,孕后期則是大包裝的無香香皂和棉球。
根據Target已有的數據,波爾模型預測顧客懷孕的準確率高達87%,如果一名顧客真的懷孕了,模型甚至能預測她們正處在孕期的第幾個階段,并推算出準確的預產期。
在波爾創建“懷孕預測模型”一年后,一個中年男人走進了Target 位于美國明尼蘇達州的門店,憤怒地向店員投訴,他還在上高中的女兒收到了各式嬰兒用品的優惠券——“她還是個孩子!你們卻給她寄嬰兒搖籃和衣服的優惠券?你們是想鼓勵她懷孕嗎?”很快,男人發現,他正在上高中的女兒真的懷孕了。
正如模型搭建者波爾所說:“We’ll be sending you coupons for things you want before you even know you want them” 。依賴真實可靠的用戶數據和統計模型,Target遠在顧客的購物行為之前,就已經預測到了購物意愿的發生。
這就是AI時代“隱私故事”的開始,如今,它仍在繼續。
AI時代行為預測的另一個里程碑,出現在2013年——鼎鼎大名的《美國國家科學院院刊》(PNAS) 刊發了由大衛·斯蒂爾威爾(David Stillwell)和麥克·科辛斯基(Michal Kosinski)團隊合作的論文 “Private traits and attributes are predictable from digital records of human behavior”(“人類行為的電子足跡可以預測私人特質”)。
這篇論文依據臉書(Facebook)用戶的點贊數據建模,用以預測用戶的性格特征,迄今已有2000多次引用。論文使用的數據集為斯蒂爾威爾此前為臉書開發的第三方性格測試小工具myPersonality—— myPersonality使用經典的心理學量表測量用戶的人格特質(譬如開放性、穩定性等等),當時就吸引了多達600萬的臉書用戶。
論文發現,僅僅通過用戶的點贊數據,算法模型就可以精確地預測出用戶的某些性格和人口學特征。比如,模型對種族和性別的預測準確度可以達到90%以上。當然,模型還推算出一些只有相關性并無因果性的特質,供君茶余飯后一笑。譬如,喜歡圈圈薯條(curly fries)的人可能智商相對較高,喜歡絲芙蘭(Sephora)的人可能智商相對較低;點贊游泳、《圣經》、《傲慢與偏見》的人對生活滿意程度較高;而點贊《科學》雜志、iPod的人對生活的滿意程度較低。
誰也沒料到,這篇論文會成為日后臭名昭著的“臉書數據門”的起點。論文發表一年之后,斯蒂爾威爾和科辛斯基的劍橋同事、另一位心理學家亞歷山大·科根(Aleksandr Kogan),與英國數據公司“劍橋分析”(Cambridge Analytica)達成協議,由科根依葫蘆畫瓢式地寫了一個心理學小程序,在眾包平臺上雇傭臉書用戶填寫,并購買他們的行為和人口學數據。
值得注意的是,科根的小程序不僅收集和購買用戶數據,同時還收集用戶網絡里好友的數據——雪球越滾越大,到“臉書數據門”爆發的時候,“劍橋分析”號稱已經掌握5000萬臉書用戶的行為數據。
這5000萬泄露的用戶數據到底在2016年美國大選和之后英國脫歐里扮演了怎樣的角色,迄今仍是個未解之謎。有人說“劍橋分析”完全可以利用算法推算出社交網絡上用戶的各項人口學特征、性格以及政治取向,從而針對性地發送政治競選廣告。譬如,對在民主黨和共和黨間搖擺的白人單身媽媽們狂轟濫炸特朗普的競選廣告。
“劍橋分析”對種種指控予以否認。然而,不可否認的是,“臉書數據門”曝光的2018年是臉書跌入谷底的一年,大佬扎克伯格從此頻頻出入國會聽證會,成為監管部門的重點關注對象,臉書更在2019年被美國聯邦貿易委員會(FTC)課以高達50億美元的罰款。
之后,扎克伯格說,“我們有責任保護人們的隱私……我們要為我們的行業建立一個全新的標準。”
然而,這僅僅是隱私的問題嗎?
2017年,臉書開發了另一個人工智能算法,號稱可以通過用戶發表的帖子和帖子下面朋友的回復,找出那些具有“自殺傾向”的人。這個人工智能算法建立在行為模式識別的基礎上,在早先已經被證明“有自殺可能”的帖子的數據集里進行訓練。從科技向善的角度上來說,這樣的算法當然可以在早期進行自殺干預,或是為用戶提供各類預防性求助服務。
但是,就在同一年,英國《衛報》根據一份泄露的內部材料報道說,臉書在某次與廣告商金主爸爸的內部懇談會上聲稱,它可以通過其平臺上收集的數以萬計的用戶信息,實時監控年輕人的情感狀態。換句話說,使用類似的人工智能算法,它可以知道哪些人在此時此刻正在感到“壓力大,焦慮,緊張,愚蠢,無用和失敗”;也可以知道哪些人正在討論健身、減肥和塑身,以及哪些人正在對自己的外表和體型感到不滿。盡管《衛報》并沒有正面討論臉書收集這些數據和搭建模型的目的,但由于報道采用的內部材料是臉書為廣告商們準備的,其算法的目的基本不言自明。
很長一段時間里,我們對科技平臺收集數據的警覺和干預,停留在“隱私”的層面。決策者和立法者們會說,用戶數據屬于隱私,有關平臺在采集數據時,應秉承“公開透明”的原則,告知用戶數據收集的種類、過程和方式,并取得用戶的“同意”。
然而,在AI時代,完全的“公開透明”可能嗎?傳播學者馬修·克雷恩(Matthew Crain)的回答是“否”。在那篇題為“The limits of transparency: Data brokers and commodification”(“透明的局限:數據掮客和商品化”)的著名文章里,克雷恩指出,對平臺來說,用戶數據早已經不再是數據,而是商品。而用戶數據商品化的過程,注定了數據會在不同平臺和黑市里被打包,經由數據掮客(data broker)的轉手,被層層交易至任何平臺、組織或個人都無法溯源的層面。也就是說,在用戶數據問題上,真正的“公開透明”是不存在的。為此,克雷恩建議從源頭上杜絕個人信息的商品化,也就是改變平臺通過變賣用戶數據及其衍生產品“算法”來盈利的模式。
另一批學者則對用戶數據的屬性進行追問——用戶數據是隱私嗎,或者,僅僅是隱私嗎?在“隱私”的框架下,用戶數據是屬于個人的,但事實上,在AI算法的眼里,是沒有完全“個人”的數據的——算法可以從你個人的數據里推算出跟你類似的那群人的喜好。比如,網飛(Netflix)會告訴你,因為剛剛看過《哈利波特》的人都繼續看了《指環王》,你可能也會喜歡《指環王》。換句話說,你的數據其實并不僅僅屬于你個人。
杜克大學的公共政策學者飛利浦·那不勒斯(Philip M. Napoli)認為,在“隱私”框架下將數據私人產權化,其實錯誤地理解了AI時代數據的價值。他以新近出現的“付費換隱私”的操作為例。
近來有不少初創公司承諾不收集用戶個人信息,前提是該用戶定期支付一定的費用——通常是5美元/月。也就是說,用戶每個月付5美元,就可以換取個人數據不被收集的“隱私權”。這種操作的弊端是顯而易見的:
其一,將“隱私”和“個人數據”明碼標價,嚴重損害了弱勢群體的利益——如果你付不起每月5美元,是否說明你就不配享有隱私權?
其二,單獨個體的數據也許只值5美元/月,100萬個用戶的數據合起來,通過算法建模,其價值可能難以估量——可以被用來預測城市交通、流感趨勢,乃至下一屆大選。
平臺權力的起點也許是5美元/月的個人數據,然而,定義其權力邊界的卻是數以萬計的群體數據。
那不勒斯因此認為,用戶數據應該從私有平臺里分離,被歸類為“公共資源”, 并受到政策法律的強力監管。
2018年,百度大佬李彥宏曾在某次采訪里說:“我想中國人可以更加開放,對隱私問題沒有那么敏感。如果他們愿意用隱私交換便捷性,很多情況下他們是愿意的,那我們就可以用數據做一些事情。”
從前我們常常會問“中國人真的不在乎隱私嗎”;現在這句話的關鍵也許在于,“用數據做什么事情?”
大型科技平臺有權在用戶情感脆弱的時刻推送個性化——譬如減肥/瘦身/整容——的廣告嗎?它們有權在用戶人生的關鍵時期——譬如懷孕時——發送能改變用戶終身購物習慣的優惠券嗎?它們有權根據用戶不同的人格特征和性格取向推送可能影響選票的政治選舉廣告嗎?
上文說到臉書的“自殺預測”算法,它既可以用來提供對弱勢群體的公共幫助,也可以用來推送針對性的廣告。但是,如果一家平臺的廣告收入占到其總收入的90%以上,這樣的算法更有可能被用來做什么呢?
2020年的最新數據顯示,即使在全球瘟疫大流行時期,臉書的總收入仍強勢逆襲,同比增長22%,達到860億美元,其中廣告收入增長21%,達到842億美元。這一年,廣告收入占到其總收入的98%。
顯然,臉書并不是唯一一家以廣告為生的科技平臺。
參考文獻:
[1] Duhigg, Charles. "How companies learn your secrets." The New York Times 16, no. 2 (2012): 1-16.
[2] Kosinski, Michal, David Stillwell, and Thore Graepel. "Private traits and attributes are predictable from digital records of human behavior." Proceedings of the national academy of sciences 110, no. 15 (2013): 5802-5805.
[3] Kelion, Leo. "Facebook artificial intelligence spots suicidal users." BBC News, March 1 (2017).
[4] Levin, Sam. "Facebook told advertisers it can identify teens feeling insecure and worthless." The Guardian 1 (2017).
[5] Crain, Matthew. "The limits of transparency: Data brokers and commodification." new media & society 20, no. 1 (2018): 88-104.
[6] Philip M. Napoli, "Who should own your digital data?" The Hill, 2019.
[7] “李彥宏:中國人多數情況下愿意用隱私交換便捷性”,http://news.sina.com.cn/s/wh/2018-03-26/doc-ifysrivq8493582.shtml
-----
作者沈虹,畢業于美國伊利諾伊大學香檳分校傳播學系,現任職于美國卡內基梅隆大學。她用社會學的方法研究新興科技。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司