- +1
被高估的Pika,被低估的多模態AI
原創 蘇霍伊 甲子光年

如何打通物理世界和數字世界之間的屏障?
作者|蘇霍伊
編輯|王博
多模態 AI 正處于爆發前夜。
從 GPT-4V 的“驚艷亮相”,到 AI 視頻生成工具 Pika 1.0 的“火爆出圈”,再到谷歌 Gemini 的“全面領先”,多模態 AI 都是其中的關鍵詞。
盡管 Pika 1.0 的宣傳視頻被一些用戶認為是“炒作”,亦或谷歌承認 Gemini 的演示視頻“經過剪輯”,但不能否認,它們豐富了人們對多模態 AI 的想象力。
“之前很多公司都在卷文本大模型,GPT-4V 的出現代表多模態大模型可落地,毫無疑問明年大家都會卷多模態 AI ,原因很簡單,因為 OpenAI 說明這條路是能夠走得通。”微博新技術研發負責人、AI 首席科學家張俊林說。
在行業主語為“落地”的當下,多模態 AI 正走向場景化、實用化、商業化。例如,在醫療領域可以通過結合圖像、錄音和病歷文本,提供更準確的診斷和治療方案;在交通領域,結合圖像和傳感器數據,帶來更智能、更安全的自動駕駛體驗;在教育領域,將文本、聲音、視頻相結合,呈現更具互動性的教育內容。
但是業界一直在提多模態的概念,遠沒有近期幾個現象級產品的演示那么直觀:多模態不僅可以為 AI 應用帶來更多可能性,還是實現通用人工智能的重要路徑。
1.Pika:實力還是炒作?
最近的 AI 圈的飯局上,大家聊到多模態 AI ,往往都會提到一家硅谷的初創公司—— Pika Labs。
公司初創團隊只有 4 個人,創始人兼 CEO 郭文景有“女學霸”“斯坦福退學創業”“上市公司創始人女兒”等個人標簽; Pika 三輪融資已籌款 5500 萬美元,估值在 2-3 億美元之間;投資者包括 Quora 創始人兼CEO Adam D’angelo 、 OpenAI 科學家 Andrej Karpathy、Hugging Face 聯合創始人兼CEO Clem Delangue、YC 合伙人 Daniel Gross 等人。
這些都加起來,可以說 Pika 的爆火是在發展過程中,講了一個技術、商業、資本、用戶都感興趣的故事,而且趕上了一個好的時機。
“今年 6 月份之后, AI 生成圖片的投資變得比較保守,很多投資人會更關注 AI 生成視頻。”從事 AI 生成視頻研究的浦林(化名)告訴「甲子光年」,自有 AIGC 概念開始,無論是 AI 生成圖片還是 AI 生成視頻都很熱,但是基于技術的發展程度,業內預計今年年底,AI 生成視頻會有一個不錯的 demo 出現。“這個 demo 足夠吸引很多的流量,甚至出圈,有這樣的信心,那投資的邏輯就能走下去了。可以說, Pika 占到一個很好的時間點。”
Pika 1.0 推出的當天,科技圈大佬們紛紛為其站臺。
自然語言處理領域著名學者 Christopher Manning 稱贊 Pika 的兩位創始人郭文景和孟晨琳推動了高質量視頻的快速發展;OpenAI 科學家 Andrej Karpathy 在社交平臺上轉發了 Pika 1.0 的演示內容并表示:“每個人都能成為多模態夢想的導演,就像《盜夢空間》中的建筑師一樣。”
Pika 1.0 火爆出圈,離不開官方宣傳視頻。Pika 1.0 官方宣傳視頻中的演示可以用“驚艷”來形容,視頻發布后,已經有媒體迫不及待地稱“AI 生成視頻的 ChatGPT 時刻即將達來”。
但是,Pika 真的如宣傳視頻上所展現的那么“驚艷”嗎?
今年 7 月,Pika Labs 就在 Discord 推出服務器,短短幾個月時間內收獲了 50 萬用戶。不過,想使用最新的 Pika 1.0 ,在官網可能還需一段時間的排隊。但在 Discord 上,許多用戶已經曬出了測試視頻。
目前,Pika 1.0 還只能生成 3 秒展示視頻。在社群中,用戶 A 輸入提示詞: A dragon fly in sky(一條龍在天上飛)。這個表達是比較清晰明確的,但輸出的視頻結果卻和龍毫不相關,更像一個克蘇魯生物。
而用戶 B 輸入了更為細致的提示詞:female priest - dnd character - in battle pose - character select default animation - camera zoom in - motion 1(女性牧師 - 龍與地下城角色 - 戰斗姿勢 - 角色選擇默認動畫 - 攝像頭放大 - 動作1)。
這次 Pika 1.0 輸出的視頻結果大體相符要求,但細節依然有明顯缺陷,角色的手部構圖“慘不忍睹”。不過,“AI 不會數數”是存在已久的問題,并非 Pika 獨有的“瑕疵”。
但也不乏效果驚艷的案例,比如用戶 C 提供了圖片并輸入提示詞:stranded medieval ship, violent sea, rain, clifs, slow motion, -motion 2 -gs22 -camera pan right Image: 1 Attachment(擱淺的中世紀船只、洶涌的海浪、雨水、懸崖、慢動作、動作2 、gs22 -攝像機向右平移、圖像:附件1),生成的視頻效果較為精美。
AI 教育者 Chase Lean 在試用了 Pika 1.0 后難掩激動之情,他在社交媒體上直言這是他“使用過的最好的 AI 視頻生成器”。
浦林一直在關注 Pika 及相關產品,從 demo 和實際使用感受來說,Pika 1.0 已經屬于“行業領先水平”。
對于 AI 生成視頻工具,最為簡單的評判標準就是“生成的內容是否真實”。在技術上,Pika 在單幀畫面擬真程度、美學質量以及視頻的動作感上表現出色,在文生視頻、圖生視頻的能力和運鏡上也有不錯的能力展示。除算法外,社區活躍度也被認為是初創公司核心競爭力的一部分,包括維護 Discord 社區等。目前,Pika 的社區活躍度位列業內前茅。
在圖像和視頻生成方面,業內主流技術路線為 Diffusion Model(擴散模型)。不過 Pika 聯合創始人孟晨琳在接受采訪時透露:“Pika 也不能完全算 Diffusion Model,我們開發了很多新東西,是一種新的模型。”
不過在浦林看來,Pika 與其它 AI 生成視頻工具(如 Runway )“在技術上沒有本質差別”,一些自媒體對 Pika 和 Runway 的對比分析“純粹是經驗歸納”。
這也就會帶來一個問題,長期關注 AI 領域的投資人辰逸(化名)向「甲子光年」表達了他的擔憂:“Diffusion Model 不是智能的。它主要根據過去圖像的經驗擬合出符合人類審美的圖像,并不具備理解語言和智能思考的能力。而當我們在使用 ChatGPT 時,會有在和真人對話的感覺,雖然這個「人」的智商可能忽高忽低。”
辰逸認為,盡管 Pika 爆火離不開產品實力,但“炒作”成分更多些。
“就像炒土豆絲,每個人使用的廚具、調味料等可能大不相同,但原材料歸根結底都是土豆。”辰逸比喻道,“理解語言的根本問題并沒有解決,圖像學還缺少一個飛躍的時刻。”
而在回答“AI 視頻生成什么時候會迎來 GPT 時刻”的問題時,Pika團隊還是比較清醒的,孟晨琳認為,目前視頻生成處于類似 GPT-2 的時期,“很可能在未來一年內有一個顯著的提升”。
Pika 的能力在某種程度上被高估了,但 Pika 帶來的破圈效果是從業者樂于見到的。浦林五年前就進入了 AI 生成視頻領域,最近這半年是他覺得這個領域“最火”的一段時間,盡管他也覺得 Pika “在宣傳上比較用力”,但是從專業角度分析,他相信 4 個人的團隊做出 Pika 是“沒問題的”。
2.爭奪AI視頻生成高地
從技術視角來看,有業內學者認為,相對于文本、代碼和圖片生成,文生視頻(Text-to-Video)是 AIGC 的“高地”,因為這個領域存在著算力需求大、高質量數據集短缺、可控性較差等挑戰。
浦林認為,AI 視頻生成領域還有一個難題,即生產和研究之間存在的差距。
研究者往往難在第一時間將研究成果應用于實際,因為不同的視頻制作者,比如電影、動畫、短劇的制作者,有著不同的制作流程,而研究中可能只涉及一種特定的生產方式,比如文本到視頻。
浦林近期也在產業中調研,通過和電影制片方的交流不斷優化自己的研究方向。“解決難題的關鍵在于開發的工具能否真正滿足視頻制作者的需求,并與其實際工作流程相契合。”浦林告訴「甲子光年」,“當你的研究越靠近生產的時候,它會產生更大的經濟價值。”
商湯科技數字文娛事業部副總裁李星冶表示,多模態 AI 中門檻比較高的就是文生視頻,“現在一些廣告視頻的制作,只要錄入文本就能生成視頻,當然目前效率還沒有那么高,視頻像素可以達到 4K 或者 8K,但是動畫效果還比較簡單。”
AI 視頻生成領域,賽道也愈發擁擠起來。盡管 Pika 備受矚目,但接下來它仍需面對不斷增多的競爭。
Runway 推出了動態筆刷新功能 Motion Brush,用戶只需在圖片上輕輕一劃,即可將其轉化為動態視頻。另外,Runway 還與電影制作公司展開了緊密合作。
Stability AI公司發布了其 Stable Video Diffusion 視頻模型,用戶可根據需要調整各種參數,如迭代步數、重繪幅度等,以協助創作者精確掌控畫面生成過程,包括風格、姿勢和線條等特征。
除此之外,現象級文生圖工具 Midjourney 也正在著手開發視頻功能;Meta 也推出了兩項基于人工智能的視頻編輯新功能。
而在開源方面,AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局 AI 視頻生成賽道。
3.多模態AI的想象
對于投資人來說,多模態 AI 也是今年下半年的關注焦點。
長期關注 AI 領域投資的心資本合伙人吳炳見認為,大語言模型只是 AI 版圖的一部分,基礎模型的第一性原理是“predict next token(預測下一個詞)”,這個原理有可能帶來其它模型。
“如果未來 Transformer 或者另外一套算法能夠準確預測下一幀,那么視頻模型就出來,就有機會解鎖下一個抖音級別的內容平臺;如果能準確預測下一串動作序列,那么具身智能模型就出來了,就解鎖通用機器人了;如果能準確預測下一個蛋白質序列,那么蛋白質模型就出來了,新藥研發又可以邁進一大步了;如果能準確預測下一個像素,那么 3D 模型就出來了,就解鎖元宇宙的構建了。”吳炳見說。
在吳炳見看來,待版圖完全解鎖后,就會有多個基礎模型,而很多方向的邊際成本會趨近于零,不斷解鎖新的應用層的機會。
國內的 AI 廠商也在加強對多模態 AI 的投入。昆侖萬維在海外進行了 AI 多模態場景探索,其中包括了AI游戲(Club Koala),之前已經在德國科隆游戲展上亮相,預計將于明年上半年進行測試。“這里不僅包括了常見的對話,通過大模型賦能的 AI NPC,也包括 3D 生成等 AIGC 技術,尤其是在 AI 3D 生成方面,我們做得比較領先。”昆侖萬維董事長兼 CEO 方漢介紹。
「甲子光年」還關注到一些技術大佬入局。例如,清華大學計算機系 Bosch AI 教授、清華大學人工智能研究院副院長朱軍創立的生數科技,專注于多模態層面,致力于打造可控的多模態通用大模型;前字節跳動前視覺技術負責人、AI Lab 總監王長虎創立了愛詩科技,聚焦于生成式 AI 的視覺多模態算法平臺。
盡管多模態大模型使AI能夠根據圖像內容推理復雜問題,但仍無法像視覺感知系統那樣在圖像上精確定位指令對應的目標區域。因此,香港中文大學賈佳亞團隊提出 LISA(Large Language Instructed Segmentation Assistant)多模態大模型。LISA 通過引入一個 標記來擴展初始大型模型的詞匯表,并采用 Embedding-as-Mask (嵌入作為掩碼)的范式賦予解釋多模態大型模型分割功能,最終展現出強大的零樣本泛化能力。

LISA 技術方案概述,圖片來源:受訪者提供
在垂直應用場景上,云知聲通過醫療知識增強的山海大模型北京友誼醫院打造的門診病歷生成系統,可以在不改變醫生問診方式情況下,通過醫生與患者的對話錄音,抽取關鍵問診信息并生成病歷,將醫生從病歷撰寫工作中解放出來,把更多時間留給患者。
谷歌近期重磅推出的 Gemini 也顯示了多模態模型在各應用場景中的潛在價值。如何真正打通物理世界和數字世界之間的屏障,關鍵在于有效處理多模態 AI 能力。用底層的感知能力衍生出操作,從而實現與物理世界最自然的交互方式。
在多模態 AI 爆發之前,不要溫和地走進這個良夜。
*應受訪對象要求,文中浦林、辰逸為化名
*參考資料:
專訪Pika Labs創始人:探索視頻生成的GPT時刻,海外獨角獸
LISA:通過大語言模型進行推理分割,香港中文大學賈佳亞團隊
(封面圖來源:電影《異界》)
END.
原標題:《被高估的Pika,被低估的多模態AI|甲子光年》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司