解讀｜谷歌AI搜索為何會教人在披薩上涂膠水？

澎湃新聞記者喻琰

2024-05-29 07:47

來源：澎湃新聞

? 未來2% >

·谷歌AI Overview“胡扯”引發科技圈熱議，有專家分析認為，AI技術并未學會因果關系，AI不知對錯。

·當前，谷歌正面臨激烈的市場競爭，搜索引擎Bing、OpenAI等競爭對手在AI領域已先行一步。

曾以提供高質量而聞名的谷歌搜索引擎在有了AI加持后卻因提供錯誤、荒謬的答案引發爭論。

今年5月15日剛剛上線的谷歌AI Overview功能，旨在通過人工智能技術，在搜索結果頂部提供AI生成的答案，以增強搜索引擎的用戶體驗。谷歌表示，它將為美國用戶的在線查詢提供人工智能生成的答案，這是其搜索引擎25年來最大的更新之一。但該功能上線后近卻出現了一系列錯誤和不當建議，引發網絡熱議。比如，有網友在谷歌搜索中查詢“芝士和披薩粘不到一塊”的解決辦法時，AI給出的建議是在醬料中加入1/8杯的無毒膠水以增加粘性。另一位用戶詢問“兔子是否曾在NBA打過球”，AI說“是”，因為搞混了將球員的名字與“兔子”這一詞匯。

被網友發現谷歌AI Overviews在“胡扯”。

AI搜索為何會出現這一現象，以及谷歌為何將這一看上去并沒有完全準備好的產品著急推出？澎湃科技為此采訪了相關人士。

業內專家分析：AI技術無法理解因果邏輯關系

針對AI Overviews出現的胡扯，谷歌隨后回應表示會繼續改進相關算法進行修正，但也在官方聲明內容中稱，“基于我們的觀測情況，網友分享的很多示例并非常見查詢，且部分示例存在被篡改或無法重現的情況”，谷歌表示將根據內容政策迅速采取適當措施。

不過，谷歌首席執行官桑達爾?皮查伊日前在接受外媒采訪時也承認，這些AI Overviews功能產生的“幻覺”是大語言模型（LLM）的固有缺陷，而大語言模型正是AI Overviews功能的核心技術。

所謂AI“幻覺”，是指AI在處理和生成信息時，會錯誤地創建不存在的事實或數據，從而誤導用戶。皮查伊表示，這個問題目前尚無解決方案。

清華大學交叉信息研究院助理教授、斯坦福大學博士于洋向澎湃科技（www.kxwhcb.com）分析認為，谷歌AI Overview出現“胡扯”，實際上恰恰體現了人工智能本身學會了語言結構、語法等，但并未學會因果關系（即邏輯依據）。

于洋稱，通過他們小組研究表明，光靠投喂數據，AI很難學會因果關系——因為在高維關系中，能夠預測準確的相關關系非常多，而因果關系只是其中之一。畢竟，沒有因果教育，人都會產生“正月剃頭死舅舅”這樣的錯覺，更何況當前的AI技術。

于洋認為，目前AI的范式本身造成了AI不知對錯，現有的架構從數據到模型架構再到訓練、檢驗都在鼓勵AI找用于預測準確的相關性，而不是理解因果。人工智能無法理解因果、學會知識、懂得對錯。

“現在不管哪個大模型都有這個問題。”于洋說，出現“胡扯”內容也較為正常。

觀安信息聯合創始人兼CTO胡紹勇同樣指出，當前大模型技術主要依靠海量的數據訓練進行。由于人類向AI的提問較為多樣且發散，AI會提供基于統計概率相近的答案，而非準確的答案。在這種情況下，AI給出的答復雖然看似合理，卻可能與事實不符。因此，做好數據清洗是避免誤導信息傳播的重要環節。

上海市人工智能標準化技術委員會副秘書長、上海人工智能行業協會標準研究部部長陳曦在接受澎湃科技采訪時分析認為，谷歌AI系統使用Reddit數據訓練，沒有做好數據清洗，這正是導致其提供錯誤信息的關鍵原因之一。

陳曦推測，AI Overview很可能采用了檢索增強生成（RAG），并將信息來源網站進行過優先級的設定，Reddit（美國社交網站）作為合作方被優先在知識庫中進行答案搜集并整合給大語言模型處理，這其中就包含了類似“給披薩涂膠水”這類網友在社交網站上撰寫的看似合理實則是玩笑的答案。

谷歌正面臨激烈的市場競爭

有技術人員分析指出，此前ChatGPT有“扯淡”的回答，大家會笑話一下，以挖出程序錯誤為樂，但現在用戶不再為此類錯誤買單，這也間接體現了谷歌推出AI Overview的時間窗口可能不合適。另有技術人員猜測，Google搜索引擎一直依據質量評分者指南（eeat）評估搜索內容、判斷搜索內容是否可信，這次被網友抓包，很有可能是因為著急上線。

科技媒體The verge分析指出，谷歌當前正面臨著激烈的市場競爭，目前搜索引擎Bing、OpenAI等競爭對手在AI領域已先行一步。Bing于2019年推出了自己的AI助手“Bing智能”，OpenAI也在5月14日凌晨推出了GPT-4o模型。

當前，年輕用戶越來越多地轉向TikTok等新興平臺,用戶習慣和信息獲取方式發生了改變，谷歌需要通過創新來吸引用戶，谷歌推出AI Overviews是人工智能領域的一次突破，為了在人工智能時代重新定義搜索,提升用戶體驗,在競爭中保持領先,并不斷優化和改進產品,以贏得用戶的信任。

今年2月21日，谷歌宣布與美國社交平臺Reddit達成合作，將其平臺上的內容用于訓練谷歌的AI模型。公開資料顯示，Reddit被稱為“美國版百度貼吧”，是一家擁有18年歷史的社交媒體平臺，用戶可以在上面發帖、評論、交流各種話題。

陳曦稱，Reddit話題雖然豐富多樣，但其中也包含大量噪聲和不準確的信息，例如用戶半開玩笑的那些“高級答案”。如果沒有充分的數據清洗和過濾，訓練出的模型容易受到這些錯誤信息的誘導。

責任編輯：宦艷紅

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#谷歌AI #大模型幻覺 #AI搜索