谷歌兩小時I/O大會提了“AI”121次，發(fā)布了十余項更新及新品，卻“缺乏驚喜”

澎湃新聞記者喻琰

2024-05-15 07:21

來源：澎湃新聞

·本次開發(fā)者全程兩個小時，谷歌CEO共提及“AI”121次，此次開發(fā)者大會，谷歌將搜索業(yè)務做了最徹底的AI改造，還更新升級了Gemini1.5Pro版本，同時推出Gemini1.5Flash輕量化小模型。此外，推出自稱效果超過Sora的生成視頻模型Veo。

北京時間5月15日凌晨，谷歌年度開發(fā)者I/O 大會2024在美國加利福尼亞州山景城總部附近的海岸線圓形劇場召開。整場發(fā)布會由谷歌CEO桑達爾·皮查伊（Sundar Pichai）主持，全程歷時兩小時。

前一天，OpenAI剛發(fā)布GPT-4o和全新的ChatGPT，此次谷歌要在開發(fā)者大會上交出怎樣的“AI”答卷外界充滿了期待。

澎湃科技（www.kxwhcb.com)注意到，整場開發(fā)者大會，桑達爾·皮查伊稱，據(jù)Gemini統(tǒng)計，在整場發(fā)布會上他共提及“AI”121次，發(fā)布了十多項產(chǎn)品更新和新品，但外界評論稱，和GPT-4o不到30分鐘的發(fā)布會相比，“缺乏驚喜”。

谷歌年度開發(fā)者I/O 大會現(xiàn)場

此次開發(fā)者大會，谷歌將搜索業(yè)務做了最徹底的AI改造，還更新升級了Gemini1.5Pro版本，同時推出Gemini1.5Flash輕量化小模型。除此之外，谷歌推出自稱效果超過Sora的生成視頻模型Veo，另外還展示了與GPT-4o 相似的語音視覺交互功能Gemini Live，同時，還更進一步推出了AI智能體Project Astra。

Gemini 升級，更加輕量

當天大會上，谷歌宣布對Gemini模型進行更新，此前，谷歌推出的Gemini 1.5 Pro是一個中型多模態(tài)模型，上下文長度為100萬tokens。

在此次開發(fā)者大會上，桑達爾·皮查伊宣布，通過改進數(shù)據(jù)和算法，提升模型的代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力等，升級后的Gemini 1.5 Pro能夠遵循越來越復雜和細微的指示，包括指定產(chǎn)品級行為的指示，如角色、格式和風格等。使用API的開發(fā)者和Google Cloud客戶可以通過候補名單獲取200萬tokens上下文窗口的1.5Pro。

升級后的Gemini 1.5 Pro將面向全球開發(fā)者開放，支持超過150個國家的35種語言。

此外，為了滿足用戶對低延遲和低成本的需求，此次發(fā)布會上，谷歌發(fā)布了輕量化模型Gemini 1.5 Flash。

Gemini1.5Flash

相較于Gemini 1.5 Pro，該版本的特點是響應速度更快、成本低至0.35美元每百萬tokens。而Gemini 1.5 Pro則針對對高質量內容有需求的用戶，收費為7美元每百萬tokens。

盡管Gemini1.5 Flash體積小巧，仍實現(xiàn)了100萬個標記的長上下文窗口，開發(fā)人員還能注冊嘗試200萬個標記，適用于摘要、聊天應用、圖像和視頻字幕、長文檔和表格的數(shù)據(jù)提取等多種任務。據(jù)介紹，實現(xiàn)這些功能是因為谷歌采用了1.5Pro對該模型進行了被稱作“蒸餾（distillation）的訓練，將較大模型中最核心的知識和技能遷移到了更小、更高效的模型中。

發(fā)布AI智能體Project Astra

“很久以來，我們都有一個夢想，希望打造一個通用的AI Agent（AI智能體），幫助人們的生活變得更方便。現(xiàn)在，我們多年磨一劍，推出 Project Astra 的通用 AI 智能體。”桑達爾·皮查伊在發(fā)布會上說。這一智能體是基于Gemini模型，通過對視頻幀進行連續(xù)編碼，將視頻和語音輸入組合成事件時間軸，并緩存這些信息以便高效召回，從而能夠更快地處理信息。

大會現(xiàn)場，來自谷歌 Deepmind的 CEO 杰米斯·哈薩比斯（Demis Hassabis）上臺，講解和展示了Project Astra的原型運作視頻。

在展示過程中，谷歌在演講中展示了一個人拿著手機，將攝像頭對準辦公室的各個地方，并用語言與其交互：“當你看到有東西發(fā)出聲音時，請告訴我。”在這段視頻演示中，Astra能識別各種物體甚至代碼，并實時與人類進行語音互動。

在展示環(huán)節(jié)，有用戶對Astra突然提出一個此前沒有涉及到的問題，“你記得我把眼鏡放哪里了么？”

“你的眼鏡在桌上蘋果旁邊。”Astra回答到。這一過程引起現(xiàn)場驚呼。

這表明，當攝像頭掃過的時候，Astra曾“看”到過用戶的眼鏡，Astra以視覺的形式記錄了下來。

但在看過了GPT-4o的演示之后，Astra的演示就顯得缺乏驚喜。

谷歌稱，未來通過手機或眼鏡，人們就能讓隨身AI專家助理提供服務。不過，這些功能要在今年晚些時候才能在Gemini應用和網(wǎng)絡體驗等Google產(chǎn)品中看見。

發(fā)布視頻生成模型Veo對抗Sora

此次發(fā)布會上，杰米斯·哈薩比斯宣布，谷歌正式發(fā)布一款全新的視頻生成模型Veo，將成為Sora新的勁敵。

谷歌聲稱，Veo能夠根據(jù)文本、圖像創(chuàng)建超過60秒的高質量1080P視頻，用戶可以對光照、鏡頭語言、視頻顏色風格等進行設定。此外，Veo還能夠理解電影和視覺技術，例如延時拍攝的概念。

用戶僅需寫出文本提示即可生成視頻，比如文本提示：“在寧靜的山地平移鏡頭，相機慢慢露出白雪皚皚的山峰、花崗巖巖石和倒映天空的清澈湖泊。”“一艘宇宙飛船在浩瀚的太空中穿梭，星星劃過，高速，科幻”。

和Sora一樣，Veo目前也不會公開，只提供給少量創(chuàng)作者。

搜索引擎升級，與Gemini結合

谷歌搜索負責人莉茲·里德（ Liz Reid ）在此次發(fā)布會上稱，在過往的25年里，谷歌經(jīng)歷了許多技術變革，“我們不斷重新構想和擴展 Google 搜索的功能。”

莉茲·里德宣布，如今，借助AI，谷歌搜索可以做的事情超出人們的想象。她表示，將 Gemini 包括多步推理、規(guī)劃和多模態(tài)等功能與谷歌搜索系統(tǒng)結合在一起，推出AI Overviews。通過AI Overviews，用戶可以上傳演示其要解決的問題的視頻，然后啟動搜索在論壇和互聯(lián)網(wǎng)的其他區(qū)域以找到解決方案。

此外，用戶也可以向定制的 Gemini 模型提出復雜的問題。甚至當用戶不知道自己問什么的時候，Google也可以給用戶推薦，給用戶做頭腦風暴。用戶可以直接與 Gemini 聊天，從整個收件箱中查找詳細信息。

莉茲·里德稱，“從回答、計劃、需求定制到組織和視頻搜索，Google都會替你完成，而你需要做的只有提問。”不過，AI Overviews將首先在美國推出。

Trillium：AI基礎設施的更新

訓練大模型需要大量的計算能力。在大會進行到中途，澎湃科技注意到，桑達爾·皮查伊低調宣布了谷歌的第六代張量處理單元 (TPU) ——Trillium。谷歌稱其為“迄今為止性能最強、能效最高的 TPU”，與上一代 TPU v5e 相比，Trillium每個芯片的峰值計算性能提高了 4.7 倍。谷歌將于今年晚些時候向其云客戶提供Trillium。

值得關注的是，谷歌此次也在安卓平臺上推出一系列全新AI功能。谷歌表示，此前，"Circle to Search"功能允許用戶無需切換應用即可搜索，現(xiàn)在起它還可以作為學習伴侶，解答數(shù)學題、圖表等復雜問題。目前這一功能已在超過1億臺安卓設備上提供，預計到年底這一數(shù)字將翻倍。

責任編輯：宦艷紅

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權不得轉載

我要舉報

#谷歌AI #谷歌I/O大會 #2024谷歌I/O大會 #大模型