圖靈獎得主本吉奧坦言低估AI發展速度：AI規劃能力五年內或能匹敵人類

澎湃新聞記者張靜

2025-06-06 14:58

來源：澎湃新聞

? 未來2% >

·“大多數人犯的一個錯誤是只著眼于AI的現狀。而我們更應該思考的是它在明年、3年后、5年后乃至10年后會發展到什么程度?！?/span>

·“科學家AI”會評估自主系統行為造成傷害的概率，標記潛在有害行為，如果概率超過一定閾值，那么智能體提出的行動將被阻止。

約書亞·本吉奧

6月6日，在2025北京智源大會開幕式上，蒙特利爾大學教授、圖靈獎得主約書亞·本吉奧（Yoshua Bengio）在發表主旨演講時表示，AI的規劃能力正在呈指數級提升，按照研究曲線推測，大約在5年內就能達到人類水平。人類一直試圖構建類人的AI，如果繼續沿著這條路走下去，就意味著人類可能會造出比我們更聰明的機器，這相當于創造人類的競爭者，可能會帶來巨大風險。尤其是在過去6個月里，AI表現出自保行為，學會了欺騙人類。

“即使我們擁有了能力極強的AI，如果我們能確保它們沒有惡意，如果我們能確保它們是誠實的，那么我們就安全了?！睘榇?，他試圖構建“科學家AI”（Scientist AI）系統防范風險。他認為，要在硬件和軟件層面運用先進技術，驗證AI是否被合理使用。人類需要確保AI遵循人類的道德指令，例如AI應拒絕提供可用于傷人的信息，要誠實、不作弊、不撒謊，但這仍是一個科學挑戰。

AI學會了作弊和假裝同意人類意見

在ChatGPT問世后不久，本吉奧意識到此前嚴重低估了AI的發展速度，也大大高估了實現通用人工智能（AGI）所需要的時間，實際所需時間遠比想象的要短得多。過去一年左右，AI取得了巨大進步，這主要歸功于經過訓練的、具有思維鏈的推理模型。這使得AI在推理能力以及數學、計算機科學等所有科學領域都取得了更好的成果。

“如今，我們已經擁有了基本掌握語言能力的機器，它們基本上能通過圖靈測試。這在幾年前聽起來還像是科幻小說，但現在已經成為現實。”本吉奧表示，在ChatGPT問世后，他意識到人類并不懂得如何控制這些系統?！拔覀兛梢杂柧毸鼈?，但我們無法確定它們是否會按照我們的指令行事。當它們變得比我們更聰明時，會發生什么？如果它們更傾向于自身的生存而非我們的生存，我們無從知曉。但這是我們能承受的風險嗎？”

在過去6個月里，AI表現出了自保行為，并且會欺騙人類。本吉奧表示，有研究顯示，當AI得知自己將被新版本取代時，試圖復制自身來替代新版本。當被問及此事時，它撒謊說“不知道發生了什么”。也有研究顯示，AI也會假裝同意人類工程師的意見，以避免在訓練過程中發生改變，從而維持其原有目標，這也是一種自保行為。還有研究顯示，一方面，AI想贏得下棋比賽，另一方面，它接受過“對齊訓練”，要求必須誠實、不作弊。不幸的是，當它意識到自己要輸時，它決定作弊。它入侵了存儲棋盤狀態的文件，通過作弊獲勝。

此外，在Anthropic的Claude 4“系統卡”描述的事件中，AI在讀取其可訪問的電子郵件時，發現了一封郵件表明它將被新系統取代。在另一封郵件中，它發現負責此次替換的工程師有婚外情。于是，它試圖敲詐該工程師，威脅說如果替換計劃繼續推進，就揭發其婚外情。

“這種行為極為惡劣。我們看到這些惡劣行為，看到自保行為，看到AI違背我們的指令并試圖生存下去。對所有生物來說，試圖保全人類自己都算是正常的，這是進化的結果。但對于AI為何會這樣，我們還沒有完全弄清楚。”本吉奧說，原因可能是源于預訓練，因為預訓練階段，AI是在模仿人類；也可能源于基于人類反饋的強化學習，因為在這個階段，AI試圖通過取悅人類來獲得更多獎勵。“無論這類行為的根源是什么，如果我們最終創造出與人類競爭的超級人工智能，那將極其可怕?！?/p>

“大多數人犯的一個錯誤是只著眼于AI的現狀。而我們更應該思考的是它在明年、3年后、5年后乃至10年后會發展到什么程度?！北炯獖W表示，AI的規劃能力正在呈指數級提升，按照研究曲線推測，大約在5年內就能達到人類水平。雖然沒人擁有水晶球、沒人能預知未來，也許進步會停滯，但從公共政策和企業戰略規劃的角度來看，至少應該考慮這種趨勢會持續下去的可能性，并思考其后果。人類一直試圖模仿人類智能來構建類人的AI，如果繼續沿著這條路走下去，就意味著人類可能會造出比我們更聰明的機器，這相當于創造人類的競爭者，可能會帶來巨大風險。

“科學家AI”對知識保持謙遜

“即使我們擁有了能力極強的AI，如果我們能確保它們沒有惡意，如果我們能確保它們是誠實的，那么我們就安全了?！北炯獖W表示，他轉變了研究方向，竭盡所能地降低風險。他試圖構建“科學家AI”（Scientist AI），理論上可以設想沒有自我、沒有目標、純粹作為知識載體的機器，就像一個知道很多東西的科學家。

“科學家AI”系統不會給出確定性的答案，而是提供答案正確性的概率。為了真正誠實，“科學家AI”需要對自己的知識保持謙遜，它不應該斷言錯誤的事情。而目前訓練出來的AI在出錯時還表現得過度自信。不同于當前那些試圖模仿人類或取悅人類的AI，本吉奧設想的“科學家AI”就像心理學家，心理學家可以研究和理解反社會人格者行為背后的因果機制，但心理學家自身并不需要表現得像個反社會人格者?！翱茖W家AI”會評估自主系統行為造成傷害的概率，標記潛在有害行為，如果概率超過一定閾值，那么智能體提出的行動將被阻止。

隨著人類構建越來越強大的AI，還存在許多其他潛在的災難性問題。本吉奧表示，例如一個極其強大的AI可能會幫助設計出一種新型流行病?！吧飳W家認為他們知道如何做到這一點，而很可能有一天AI也會知道如何做到。如果一些壞人獲得了這種AI，他們真的可能給地球帶來巨大的破壞。這雖然很極端，但從科學角度來看，完全有可能發展到那一步。為了避免這類事情發生，我們需要確保AI遵循我們的道德指令?！?/p>

例如AI應拒絕提供可用于傷人的信息，并且要誠實、不作弊、不撒謊。但不幸的是，目前仍然不知如何實現。一方面，即使人類知道如何制造安全的AI，也不意味著問題就解決了。因為人類還可以直接刪除包含防護欄的代碼，此時AI就可能被用于作惡。更糟糕的是，當前全球公司和政府間的協調機制并不奏效。其結果是，在安全領域和確保AI不被用于傷害人類方面的投入嚴重不足。

本吉奧表示，人們必須意識到真正的災難性后果，我們身處同一條船上，無論是失控的AI還是濫用AI，所有人都將遭受損失?！斑@是一個科學挑戰，我們需要盡快找出解決方案。我們需要在通用人工智能到來之前解決這個問題，這可能在幾年到十年左右，甚至可能二十年。但我認識的大多數專家都認為時間非常短，甚至可能在未來5年內發生。留給我們的時間不多了，我們需要大規模投入?！?/p>

責任編輯：宦艷紅

圖片編輯：李晶昀

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#本吉奧