- +1
人工智能在IMO上的突破顯示:大力仍可出奇跡
·通過分析本次國際數學奧林匹克競賽(IMO)各題目的解題表現,我們可以清晰地看到不同算法如何提升和補充了人工智能模型的能力。
近日,DeepMind的AlphaProof/AlphaGeo在國際數學奧林匹克競賽(IMO)中取得了前所未有的成績,解出了六道問題中的四道獲得銀牌。這一成就無疑將與“深藍”擊敗卡斯帕羅夫和“AlphaGo”擊敗李世石一樣,成為人工智能挑戰人類智力巔峰的又一里程碑,同時也將引發新一輪關于機器智力邊界的討論。
早期發現和培養數學天才的重要性已經被很多人認可,他們提出了一個顛覆性的數學教育理念——將前沿科學研究轉化為不需要專業知識背景的抽象基礎數學問題,用這些問題在更小年齡段選拔科研人才。在這種思路下,分子結構,線性規劃等復雜的科學問題被簡化為如雞兔同籠、牛吃草等基礎數學題。與傳統注重知識點的教育模式相比,奧數更考驗包括歸納和推理能力在內的“流動智力”。奧數解題過程更接近科研工作的本質——將具體問題抽象化,或將抽象問題具體化,然后在不同抽象層級間穿梭。這種教育理念在選拔數學人才方面取得了卓越成功——許多IMO參賽者后來成為杰出數學家,其中16名獎牌得主更是獲得了數學界最高榮譽菲爾茲獎。
奧數題目注重通用邏輯能力的特點,使其成為衡量人工智能邏輯能力的理想工具。與大多數針對特定知識點和基本邏輯判斷的人工智能基準測試不同,奧數可以通過多重邏輯推理和難以窮舉的考核方式來評估人工智能的能力。這意味著最有效的解題方法不是簡單的“背題”式預訓練,而是運用通用推理方法——這也是人類在奧數中取得優異成績和進行科研工作所需的核心能力。
AlphaProof/AlphaGeo在國際奧數比賽中獲得銀牌,僅次于54名金牌選手,標志著人工智能系統在通用推理能力上的進步。與“深藍”和“AlphaGo”擊敗人類頂尖選手不同,奧數涵蓋的領域更加廣泛,對創造性思維和解決前所未見問題的能力要求更高,同時對論證的嚴謹性要求極為苛刻。這些特點讓我們看到了人工智能在科研工作中取代人類的巨大潛力。
人工智能在國際奧數比賽上的突破主要源于三大創新:神經/符號雙系統架構,人造數據訓練方法,探索式舉一反三。
神經/符號雙系統架構巧妙地結合了神經網絡和符號系統的優勢。神經網絡基于深度學習模型,具有強大的歸納能力,可從海量數據中發現隱藏規律。雖然它可能產生“幻覺”,但這種“創造力”對突破常規思維很有價值。與之互補的符號系統則擅長嚴謹的邏輯推理,能在邏輯框架內做出準確判斷。DeepMind將這兩個系統融合,創造出一種獨特的問題解決方法。
目前,數學界最受關注的機器命題證明系統是Lean語言,這也是IMO主辦者提供給人工智能的題目格式。首先,它將題目轉換為機器可讀的Lean命題,讓符號系統進行邏輯推導,得出更多命題。如果這還不足以解決問題,神經網絡就會介入,運用“擴散性思維”(基于蒙特卡洛樹搜索)尋找可能正確的中間命題,搭建已知條件和待證明結論之間的橋梁。經過大量訓練,神經網絡在尋找關鍵推理步驟方面變得越來越高效。
第二個突破是采用“人造數據”方法創建訓練集。符號引擎生成了數十億級的奧數題,這些題目雖然缺乏實際比賽題目的巧妙性,但正確性有保證。通過隱藏中間步驟,這些題目需要神經網絡和符號系統協作來解決。訓練過程重點關注需要神經系統參與的蒙特卡洛樹搜索步驟,提升了模型預判關鍵推理環節的能力。雖然這些人造題目與實際比賽題目有所不同——后者更注重巧妙和獨特的解法,而非通用方法——但由于數據量龐大,許多經典證明方法也被隨機生成,在豐富了模型的知識庫的同時也驗證了模型和人類推理的互通之處。
第三個突破是搜索和驗證個例的人工智能模塊。DeepMind與多位數學家在《自然》雜志上發表的研究闡述了深度學習模型在前沿數學中的潛在應用,其中搜索和驗證個例的方法在AlphaProof中得到驗證。數學家的工作過程與模型相似,包含“擴散式探索”和嚴謹論證兩個部分。對于一個命題,數學家首先創造個例,然后嚴格驗證命題在個例中的正確性。如果發現不正確,他們需要憑直覺改進命題,排除錯誤個例,再繼續驗證。“創造個例”和“驗證個例”由符號引擎完成,而改進命題則由擴散式神經網絡負責。如果引擎能創造足夠多的個例,神經網絡就能從這些數據中的規律判斷出更可能正確的命題。DeepMind介紹了這種擬人工作方式在拓撲學和抽象代數上取得的突破,這些成果得益于深度學習能夠發現不明顯的、非線性的、需要大量計算的規律。
通過分析本次國際數學奧林匹克競賽(IMO)各題目的解題表現,我們可以清晰地看到不同算法如何提升和補充了人工智能模型的能力。
Q4作為一道典型的幾何題,展示了DeepMind今年早些時候發布的AlphaGeo算法的能力。與更為通用的AlphaProof不同,AlphaGeo專注于通過幾何題引擎和輔助線解決幾何問題。它通過建立一個包含一億條復雜命題證明的龐大數據庫,培養了神經網絡判斷輔助線效用的能力。這個理解輔助線功效的神經網絡能夠從數十條可行的輔助線中篩選出最具潛力的方向。這種高效篩選使AlphaGeo能在搜索樹上深入探索,從而解決更具挑戰性的問題。由于幾何題的搜索空間最小,AlphaGeo在拿到題后19秒就證明出來了,遠快于任何人類。(圖為AlphaGeo的解法和輔助線)


Q2則考驗了“中間命題”的廣度。與幾何題不同,數論問題的中間步驟搜索空間更為廣闊。在Q2中,如果參賽者(無論是人類還是AI)能洞察到x=ab+1這個巧妙的中間步驟,整個問題就會簡化為僅需三行即可證明的簡單命題。這意味著,AlphaProof與人類一樣,需要具備發現x=ab+1的洞察力。考慮到這個構造在已知題庫中前所未見,對它的洞察力必然源于AlphaProof在生成數十億訓練樣本的過程中,反復嘗試類似問題后產生的涌現能力。

Q1和Q6則考驗了AI反復創造和驗證個例的能力。具備這種能力的AI可以基于已知命題生成大量個例,通過驗證這些個例是否符合證明條件,不斷探索正例和反例的邊界,最終找到正確的命題。這種主動探索能力的出現,預示著AI有能力在尋找未知解時探索新穎路徑,并在過程中不斷調整方向。最令人驚嘆的是,在這次比賽中,只有五名人類選手解出的Q6,AlphaProof卻給出了滿分證明。這有力地證明了AI在某些方面已經超越了人類的通用推理能力。


然而,AI未能解出的Q3和Q5,都屬于奧數中的“排列組合”問題。這類問題的特點是解空間極其發散,且命題相對更加開放。這導致AlphaProof在構建人造題庫時難以進行更深入的搜索,從而限制了它在這類問題上的解題能力上限。這不僅展示了AI在數學推理方面的巨大進步,也揭示了它在解空間更廣的領域存在的局限性,為未來AI算法的改進指明了方向。


人工智能在IMO的成就,為我們展示了人工智能如何助力前沿數學研究。雖然這類模型從狹義上看并非“通用人工智能”——其訓練集和用途局限于解決不等式、平面幾何、數論等特定題目,但其開發方法為人工智能在高級智力勞動中的應用提供了寶貴啟示。IMO模型的成功也指明了未來科研工作者與深度學習模型可以如何合作。
首先,數學家必須將前沿理論轉化為計算機可讀形式。近年來,包括陶哲軒在內的多位數學家呼吁用開源推理語言Lean表達數學成果(這也是AlphaProof模型答題的形式)。目前,這個生態系統已包含超過15萬項定理,為未來基于深度學習的數學研究奠定了基礎。這個工作不止需要數學界把已經發表的論文和證明轉化成機器可讀/可驗證模式,它還可能改變數學家的工作流程。假如確信某些相對繁瑣的需要列舉不同情況證明步驟可以用人工智能證明,數學家會更多選擇“大力出奇跡”的證明方式。曾經,有一萬種分類的證明方法是不會被數學家嘗試/接受的,因為審稿者也無法確認其正確性,但現在可以由人工智能完成。此外,眾多數學家指出,在形式化證明助手Lean中,“簡單命題”和“繁瑣命題”的概念與人類直覺存在顯著差異。隨著Lean逐漸發展成為一種普遍應用的工具,人類數學家將擔當起“向導”的關鍵職能,其核心任務是將數學問題的研究路徑轉化為Lean更易理解和處理的形式。
其次,存量數據和創造人工數據的方法將變得至關重要。2018年,DeepMind在預測蛋白質結構方面取得了超越人類的突破,這得益于全球生物實驗室積累的大量蛋白質折疊數據。然而,真實世界的科研數據往往稀缺。高質量數據集,尤其是具有創新性的數據集,數量有限且難以獲取。合成數據可以彌補這一缺口。精心設計的合成數據生成算法可以創造出包含各種抽象模式和推理路徑的數據,幫助它訓練出的深度學習模型培養更深層次的數學直覺和創造力。這個過程和AlphaProof/AlphaGeo研發一樣,需要有對領域理解極深的人類做準備工作,并在模型能力和可擴展性上找到平衡點。由于深度學習中的規模法則目前尚未遇到瓶頸,我們有理由相信,合成無限量的訓練和測試樣本可以進一步提升深度學習模型的抽象能力,提高擴展性,甚至催生出更具創新性的思辨能力。
AlphaProof/AlphaGeo的突破是算力增大過程中產生“涌現能力”的有力證據。DeepMind在訓練模型時使用了驚人的三百億PetaFLOPS算力,相當于訓練了GPT-4級別的大語言模型。近期,大語言模型的應用似乎進入了瓶頸期,市場上出現了認為“算力缺口”并不存在的觀點,認為現有算力已足以支持大語言模型的市場需求。然而,DeepMind在IMO上的成果有力地反駁了這種觀點——即使通用大語言模型的算力需求進入瓶頸,同等規模的算力仍然可以在科研前沿等高價值領域做出大量超越人類巔峰的工作。更重要的是,我們尚不清楚更高數量級的算力是否能在理論物理、能源和材料科學等更多人類智力巔峰領域取得超越人類的成果。另外,假如更高數量級的算力可以在深度學習領域有和人類一樣的創新能力,那未來最好的科研模型可能完成自我迭代,指數式地超越人類智能極限。
人工智能超越人類智能的征程,或許才剛剛開始。
(作者系加拿大國際數學奧林匹克競賽集訓隊員,普特南競賽全球百強選手。2014年畢業于哈佛大學應用數學系,現致力于人工智能在金融領域實踐。聯系方式:nirvanatear@hotmail.com。)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司