- +1
專家吐槽谷歌Gemini:只是小進步,飛躍談不上
“Gemini 是這波生成式 AI 浪潮的頂峰,但并非下一個高峰的開端。”
12 月 6 日晚,谷歌 DeepMind 推出了其“迄今為止最強大、最通用的模型”Gemini。一位觀察家表示,Gemini 是一臺“萬能機器”,在各種性能上都是同類最佳的。谷歌及其母公司 Alphabet 的首席執(zhí)行官桑達爾 - 皮查伊(Sundar Pichai)在接受采訪時也表示:“這對我們來說是向前邁出的一大步。”
是的,對于谷歌而言,相比此前飽受詬病的 Bard,Gemini 是進步,但對整個 AI 領域來說未必是一個巨大的飛躍。
作為對 OpenAI GPT-4 的回應,谷歌 DeepMind 聲稱,Gemini 在 32 項標準性能指標中,有 30 項指標都優(yōu)于 GPT-4。然而,它們之間的差距其實是微乎其微的。谷歌 DeepMind 所做的,其實只是將人工智能目前最好的能力整合到一個強大的軟件包中。從演示來看,它在很多方面都做得很好,但很少有我們以前沒見過的東西。
Gemini 可能是一個跡象,表明我們已經(jīng)達到了人工智能炒作的頂峰。至少現(xiàn)在是這樣。
華盛頓大學專門研究在線搜索的教授 Chirag Shah 把這次發(fā)布比作蘋果公司近年推出的新款 iPhone。他說:“也許我們現(xiàn)在只是上升到了一個不同的閾值,在這個閾值上,這并沒有給我們留下那么深刻的印象,因為我們已經(jīng)看過太多(類似的產(chǎn)品和功能了)。”
與 GPT-4 一樣,Gemini 也是多模態(tài)的,這意味著它經(jīng)過訓練可以處理多種輸入:文本、圖像、音頻。它可以將這些不同的格式結合起來,回答從家務到大學數(shù)學到經(jīng)濟學等各種問題。
在昨天為記者進行的演示中,谷歌展示了 Gemini 的性能,它可以截取現(xiàn)有圖表的截圖,分析數(shù)百頁的研究報告和新數(shù)據(jù),然后根據(jù)新信息更新圖表。在另一演示中,Gemini 顯示了在平底鍋中烹飪蛋餅的圖片,并詢問(使用語音而非文字)蛋餅是否已經(jīng)熟透。Gemini 也能準確地答上來:“還沒熟,因為蛋液還是流動的。”
目前,Gemini 還未完全上線。今天推出的版本是谷歌基于文本的搜索聊天機器人 Bard 的后端。Gemini 的全面發(fā)布將在未來幾個月內分期進行。經(jīng)過 Gemini 強化的新 Bard 最初將在 170 多個國家(不包括歐盟和英國)提供英語版本。負責 Bard 的谷歌副總裁 Sissie Hsiao 說,這是為了讓公司與當?shù)乇O(jiān)管機構“接觸”。
具體而言,Gemini 有三種規(guī)格:Ultra、Pro 和 Nano。其中,Ultra 是全功率版本;Pro 和 Nano 則是為計算資源有限的應用程序量身定制的。Nano 則專為在谷歌新款 Pixel 手機等設備上運行而設計。開發(fā)人員和企業(yè)將從 12 月 13 日開始訪問 Gemini Pro。Gemini Ultra 是功能最強大的規(guī)格,將在“明年初經(jīng)過”廣泛的信任和安全檢查“后推出。
“我認為大模型已經(jīng)到了 Gemini 時代,”皮查伊表示。“這就是谷歌 DeepMind 在人工智能領域的構建和進步方式。它永遠代表著我們在人工智能技術方面取得進展的前沿。”
更大、更好、更快、更強?
OpenAI 最強大的模型 GPT-4 被視為業(yè)界的黃金標準。雖然谷歌夸口說 Gemini 比 OpenAI 之前的模型 GPT 3.5 性能更強,但公司高管回避了關于該模型比 GPT-4 強多少的問題。
在與同類大模型相比時,谷歌特別強調了一個名為 MMLU(大規(guī)模多任務語言理解)的基準。這是一套測試,旨在衡量模型在涉及文本和圖像的任務中的表現(xiàn),包括閱讀理解、大學數(shù)學以及物理、經(jīng)濟和社會科學方面的多項選擇測驗。皮查伊說,在純文本問題上,Gemni 的得分率為 90%,人類專家的得分率約為 89%,而 GPT-4 在這類問題上的得分率為 86%。在多模態(tài)問題上,Gemini 的得分率為 59%,而 GPT-4 的得分率為 57%。皮查伊說:“這是第一個跨過這個門檻的模型。”

的確,在數(shù)據(jù)上,Gemini 的成績好于 GPT-4,但真的不多。
新墨西哥州圣達菲研究所(Santa Fe Institute)的人工智能研究員 Melanie Mitchell 就表示,“很明顯,Gemini 是一個非常復雜的人工智能系統(tǒng)。”但“在我看來,Gemini 的能力實際上并沒有明顯超過 GPT-4,”她補充說。
此外,斯坦福大學基礎模型研究中心主任 Percy Liang 也談到,雖然該模型有很好的基準分數(shù),但由于我們不知道訓練數(shù)據(jù)的內容,因此很難解釋這些數(shù)據(jù)。
Mitchell 還指出,Gemini 在不同基準上的表現(xiàn)也沒那么穩(wěn)定,語言和代碼方面的表現(xiàn)要比在圖像和視頻方面好得多。她說:“多模態(tài)基礎模型要想在許多任務中發(fā)揮普遍而強大的作用,還有很長的路要走。”
據(jù)悉,谷歌 DeepMind 利用人類測試者的反饋對 Gemini 進行了訓練,使其能地反映事實,在被要求時給出歸因,并在面對無法回答的問題時回避而不是胡言亂語。谷歌稱,這可以減輕幻覺問題。但是,如果不對基礎技術進行徹底改革,大型語言模型將繼續(xù)胡編亂造。
專家表示,目前還不清楚谷歌用來衡量 Gemini 性能的基準是否能提供那么多的洞察力,而且在不透明的情況下,也很難核實谷歌的說法。
華盛頓大學計算語言學教授 Emily Bender 說:“谷歌宣傳 Gemini 是一臺萬能機器 -- 一個可用于多種不同用途的通用模型。”但是,該公司正在使用狹隘的基準來評估它期望用于這些不同用途的模型。“這意味著它實際上無法得到徹底評估,”她說。
Shah 表示,最終,對于普通用戶來說,與競爭模型相比的進步可能不會帶來太大的影響。“這更多的是便利性、品牌認知度和現(xiàn)有集成,而不是人們真正認為‘哦,這個更好’,”他說。
漫長而緩慢的積累
Gemini 的誕生由來已久。2023 年 4 月,谷歌宣布將其人工智能研究部門 Google Brain 與 Alphabet 位于倫敦的人工智能研究實驗室 DeepMind 合并。因此,谷歌花了近一年的時間來開發(fā)其應對 OpenAI 最先進的大型語言模型 GPT-4 的答案。
谷歌一直承受著巨大的壓力,它必須向投資者展示自己在人工智能領域能夠與競爭對手匹敵,甚至超越對手。雖然谷歌多年來一直在開發(fā)和使用功能強大的人工智能模型,但由于擔心聲譽受損和安全問題,它一直對推出公眾可以使用的工具猶豫不決。
今年 4 月,杰弗里 - 辛頓(Geoffrey Hinton)在離開谷歌時表示:“谷歌在向公眾發(fā)布這些東西方面一直非常謹慎。”“可能發(fā)生的壞事太多了,谷歌不想毀了自己的聲譽。”面對似乎不可信或無法銷售的技術,谷歌采取了穩(wěn)妥的做法 -- 直到更大的風險變成了錯失良機。
谷歌已經(jīng)深刻認識到,推出有缺陷的產(chǎn)品可能會適得其反。今年 2 月,谷歌推出了 ChatGPT 的競對巴德(Bard),但科學家們很快就發(fā)現(xiàn)該公司自己為聊天機器人所做的廣告中存在事實錯誤,這一事件也導致谷歌市值蒸發(fā)了 1000 億美元。
今年 5 月,谷歌宣布在從電子郵件到生產(chǎn)力軟件的大部分產(chǎn)品中推出生成式人工智能。但結果并未給大伙兒留下深刻印象:例如,聊天機器人提到了并不存在的電子郵件。
這是大型語言模型一貫存在的問題。生成式人工智能系統(tǒng)雖然擅長生成聽起來像是人類寫的文字,但經(jīng)常會胡編亂造。而且它們還容易被黑客攻擊,并且充滿偏見。
谷歌既沒有解決這些問題,也沒有解決幻覺問題。對于后一個問題,谷歌的解決方案是讓人們使用谷歌搜索來重復檢查聊天機器人的答案,但這依賴于在線搜索結果本身的準確性。
Gemini 可能是這波生成式人工智能浪潮的頂峰。但建立在大型語言模型基礎上的人工智能下一步將走向何方,目前還不清楚。一些研究人員認為,這可能只是一個平臺期,而非下一個高峰的開端。
然而,對于未來,皮查伊并不悲觀。他說:“展望未來,我們確實看到了很大的發(fā)展空間。”“我認為多模態(tài)將大有作為。當我們教會這些模型更多地進行推理時,將會有越來越大的突破。更深層次的突破還在后面。”“從整體上看,我真的覺得我們正處于起步階段。”
原文來源:麻省理工科技評論,作者:Melissa Heikkil?、Will Douglas Heaven
https://www.technologyreview.com/2023/12/06/1084471/google-deepminds-new-gemini-model-looks-amazing-but-could-signal-peak-ai-hype/
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司