- +1
沒有誰能看穿牌局,人工智能也不可以?
原創 Maria Konnikova 神經現實 收錄于話題#深度 | Deep-diving113#認知科學2

“撲克牌是測試不完全信息博弈的主要基準項目。”2018年春天一個溫暖的午后,桑多姆在匹茲堡的辦公室與我會面時這樣說道。原來撲克牌已經成為了人工智能開發中的試金石。
桑多姆又高又瘦,戴著金屬邊眼鏡,整齊的頭發襯著一張和善的臉。他主持研發了三個能與人類撲克牌選手較量的電腦程序:Claudico,Libratus和最新的 Pluribus(我們見面時Libratus還處于蹣跚學步的階段,而Pluribus尚未出世)。研究的目的并不是破解撲克牌的玩法,而是要創造出能夠應對撲克博弈中不完整的信息,以及那些隨機、不可預知的局面的算法。進而將他們的決策能力應用于其他隨機領域,比如軍事、金融、政治、信息安全,甚至醫療健康。

盡管第一個程序Claudico很快就被人類玩家擊敗了——一位旁觀者將程序稱為“輸得只剩內褲的機器人”。Libratus卻在一系列雙人對局中戰勝了美國頂尖的線上玩家。
Libratus得益于三個主要模塊。第一個模塊里包含整個游戲的基本戰術綱領,使它能比上一代程序更快地到達納什均衡。其中使用了一種叫做蒙特卡羅反事實遺憾最小化(Monte Carlo Counterfactual Regret Minimization)的算法,這種算法對所有可能的行動進行評估,從而找出帶來最少遺憾的一種。遺憾是人類天生的情感。對電腦而言,遺憾僅僅意味著知道某個未被選擇的行動本應比實際采取的行動帶來更好的結果。“直觀地說,遺憾代表了人工智能因為過去沒有做出某一選擇而后悔的程度。”桑多姆說。遺憾值越高,下一次選擇這一行動的幾率也就越大。
這是一種實用的思維方式——但人類的心靈很難將其付諸實踐。我們預測情緒的能力是出了名的低下。我們會對一件事感到多么后悔?我們會對沒做某件事感到多么后悔?對我們而言,這種計算背負著情緒的重量,使我們往往無法正確地求解。對電腦而言,這一切無非是數值的運算。它最后悔沒做的事,不正是本該產生最佳預期收益的那一件嗎?
第二個模塊是子游戲解析器。它把對手過去犯下的失誤納入考量,并且顧及每一種可能的手牌組合。最后一個模塊是自我改良器——這就是大數據和機器學習能派上用場的地方了。試圖利用對手的弱點是危險的——這會將你的弱點暴露給對方,使你反被利用。當電腦程序與人類對手博弈時,人類更精通于此。所以自我改良器并不嘗試這樣做,而是讓對手的行動告訴程序該把關注點放在哪里。“讓對手用行動告訴我們,(他們)認為我們戰術的破綻在哪兒。”桑多姆解釋道。這能幫助算法構建一個整體戰術,以填補那些漏洞。
這其實是一種頗具人性的調整方式。我不會一上來就想著占你便宜,而是要看看你想怎么占我便宜,然后再隨機應變。孫子一定會贊同這個做法。要關注別人怎樣看你,而不是你怎樣看待自己。畢竟你的對手們才是觀察者,而他們的觀點,不論正確與否,才是你在安排戰術時唯一需要考慮的那個。一夜之間,算法就能根據分析的結果,將整體戰術修補完善。

Libratus還能做到最后一件事:在概率不明的情形下進行博弈。博弈論里有一個概念叫做“顫抖的手(trembling hand)”:在最優策略下,游戲樹里有一些分支是理論上永遠無法到達的。然而身為凡人,你的對手有一定的幾率會手抖,他們犯了個錯誤,結果你一下子就身處一種全然陌生的境地。以前,這會給電腦帶來嚴重的麻煩,因為在游戲樹中尚未涉足的區域里,程序不知道該如何應對。但如今,我們有了對策。
當然,完美的算法并不存在。Libratus打撲克時,本質上是在一個零和環境下工作。它贏了,對手就輸了。對手贏了,他就輸了。盡管現實生活中確實有一些零和的往來——我想到的是信息戰——其余諸多情形并沒那么直截了當:我贏了,不見得你就輸了,我們不是在爭奪固定總量的獎勵,這種交互或許更接近正和(positive-sum)博弈。

此外,在現實生活中我們還需面對撲克牌游戲中不涉及的問題:決策中的不同因素的權重。在撲克比賽里,這無非就是一個利益最大化的問題。但在人類世界中,“利益”指的是什么呢?桑多姆協助策劃世界第一次肝腎交換移植時,就曾面臨過這一問題。你是想追求效率,以最快的速度交換最多的器官呢?還是想追求公平,卻因此降低效率呢?你是想盡可能救助更多人——還是說有什么比數量本身更重要嗎?等待腎臟時間長的患者應該優先嗎?孩子們應該優先嗎?諸如此類。桑多姆說,把目的和手段區分開至關重要。在尋找手段之前,人必須明確自己的目的是什么。
“在Libratus這樣的算法的幫助下,世界最終會變得更加安全,”桑多姆告訴我。我不太明白他的意思。撲克競技中通過輸贏使得自己的利益最大化——我想大多數人不會把這稱作是避風港。
“邏輯是個好東西。而且人工智能分析戰術的能力將一直遙遙領先于人類,”他解釋道。“它排除了非理性,不受情感左右。它也更加公正。假如你擁有人工智能,它可以使非專業人士站到行家的高度。資歷尚淺的談判者將立刻得到更好的武器。我們可以開始縮減數位落差。”
我們的討論在這樣一個樂觀的展望中結束——從一個競爭激烈的零和游戲中,最終產生出一個更加公平、理性的世界。

我還想了解更多,想看看數學和算法能否真的能創造更具人性、更注重心理活動的交互方式。因此當天晚些時候,我去了匹茲堡超級計算中心,在首席科學家尼克·尼斯特羅姆(Nick Nystrom)的陪同下,參觀了支撐著Libratus等項目的處理中心。超級計算中心就是運行著桑多姆所有智能打牌程序的地方。
經過半小時的車程,我們到了一個大型玻璃建筑旁的停車場。我原本期待看到更具未來感的建筑,而不是千篇一律的玻璃盒房子。建筑內部,卻挺像那么回事兒。先是要過安檢,然后再坐電梯,電梯往下(而不是往上)走了差不多三層。我們進入了一個迷宮走廊,這里的每一個節點都設有讀卡器,以防有人偷偷溜進來。最后一道屏障是亮著紅光的擋板,后面是擠在兩扇門間的狹小空間。我能聽見對面傳來的轟鳴聲。
“進去之前我先告訴你里面都有些什么,”尼斯特羅姆對我說,“我們一進去,就什么也聽不到了。”
我即將目睹的,是這座超級計算中心的心臟。27個大型容器整齊地排列,每一個都裝有許多處理器,其運算能力和速度超出我的理解范疇。房間里的溫度,如同嚴冬與酷暑的更替——所謂的“冷”行與“熱”行交替排布——計時器旁邊有風扇運轉,在處理器橫掃千百萬兆數據時為它們降溫。在冷行里,機器人似的指示燈規律地閃爍著藍綠二色的光。在熱行里,一團五顏六色的導線糾纏成捆。
角落里佇立著那些已經輝煌不再的機器。這里有讓我心中涌起暖流的夏洛克,一臺老式的克雷計算機。還有一臺沒有名字的可憐計算機,它外殼上安迪·沃霍爾(Andy Warhol)的湯罐頭裝飾稍許彌補了無名的悲哀(這是為了向匹茲堡出身的沃霍爾致敬)。

那么Libratus住在哪里呢?我問道。哪一臺計算機才是Bridges,運行著我和桑多姆討論過的那些程序的機器呢?
原來,Bridges并不是一臺獨立的計算機。它是一個有著不可思議的處理能力的系統。運行Libratus需要使用2.5 PB的存儲空間。1 PB相當于100萬 GB(十億字節):這足夠讓你看十三年的高清視頻,存一百億張照片,逐字收錄美國國會圖書館的全部書籍。這是相當龐大的運算能力。而這也僅僅是為了在有限的情況下,在雙人撲克牌游戲中取得勝利。
盡管坐擁著令人屏息的強大運算力,Libratus的實力仍然頗為有限。它的確戰勝了擊敗Claudico的對手,但是職業撲克選手在許多專業工具的使用上受到了限制,比如他們在實際線上對局中使用的對手分析軟件就沒能在與機器對戰時使用。并且,人類會疲憊。Libratus可以馬不停蹄地運轉兩周,而人類的頭腦早就罷工了。
但還有許多它做不到的事情:多人對局,在線對局,或者贏下每一局。撲克牌中有更多人性的東西是Libratus尚未征服的。“有一種觀點認為這一切僅僅關乎統計學和相關性,可我們不敢茍同,”在我們告別Bridges時,尼斯特羅姆解釋道,“相關性有時是好的,但整體來說,它們是極具誤導性的。”
兩年之后,桑多姆的實驗室將創造出Pluribus。Pluribus可以與五名玩家對局——而且只在一臺計算機上運行。人類的大多數優勢,在很短的時間內就將不復存在。算法已經進步了,計算機也如此。人工智能,似乎正在飛躍成長。
這是否意味算法確實終將戰勝人類,通過計算解開繁雜的人際關系,就像馮·諾依曼(John Von Neumann)所說的那樣,去辨別“騙人的小伎倆,問問自己別人會如何理解我的意圖”呢?
早在我與桑多姆對話之前,我遇到了凱文·斯萊文(Kevin Slavin),一個全才式的人物。他曾經創立了一個游戲設計公司,一個互動式藝術空間,還在麻省理工的傳媒實驗室成立了娛樂系統小組。斯萊文的觀點和Pluribus的開發者們從根本上不一致。“一方面來說,他(馮·諾依曼)是個天才,”凱文·斯萊文思索道,“但也很自以為是。”
斯萊文堅定地和賭徒們站在一邊,他們能看清不確定性的本質,所以能在必要時承擔可預估的風險,同時還能操縱玩家對結果的信心。你所能做的最多也就是隨緣——真正的撲克玩家并不指望自己能猜中結果,他們認為這種自信只是自大的表現。對斯萊文而言,計算機真正的神奇之處在于,“它們能生成奇妙的,復雜的隨機現象。”那么他對于用算法破解概率的觀點呢?“這是讓他們大顯身手的機會,”他說。“但這與計算機真正的美妙之處剛好對立:它們可以做出無法被預測的行動。對我來說,這才是魔法。”
可是,它們真的能夠成功預測不可預測之事嗎?那才是我想知道的。因為我所見到的一切都在告訴我,絕對的成功不可能實現。沒人能看穿牌局。
“想走到這一步,需要經歷千辛萬苦。但你最終能獲得什么呢?假如他們真的成功了,我們將生活在一個沒有上帝,沒有自我意志,也沒有運氣的世界里。”斯萊文回答道。
“我可不想住在這樣的地方,”他又說道,“我真的不想住在這種地方。”
好在就目前看來,我們還用不著擔心這個。生活里有許多東西還沒被寫成算法。我們還沒有可靠的測謊軟件——不論是針對面部、皮膚,還是大腦的。在最近一次玩牌中詐唬戰術的檢測中,電腦錯的一塌糊涂。我們可以檢測到異常,但我們檢測不出這種異常的根源——撒謊、疲憊,緊張,它們表現得都差不多。當然,人類還能表現出并不存在的緊張情緒,讓情況更加復雜。
Pluribus也許很強大,然而馮·諾依曼的挑戰仍在眼前:游戲的本質,人性最深處的東西,還未能被征服。
作者:Maria Konnikova | 封面:Almasty ?
譯者:焉哉乎也 | 審校:王波小
排版:光影
原文:
https://undark.org/2020/07/17/the-deck-is-not-rigged-poker-and-the-limits-of-ai/

原標題:《沒有誰能看穿牌局,人工智能也不可以?》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司