- +1
階躍星辰CEO姜大昕:追求智能上限仍是最重要的事,多模態(tài)的“GPT-4時刻”尚未到來
“追求智能的上限仍然是當下最重要的一件事。”“有了多模理解生成一體化才能真正做到人形機器人的泛化。”
近日,上海大模型獨角獸階躍星辰創(chuàng)始人、CEO姜大昕在接受澎湃新聞等媒體采訪時表示,通過各家AI公司的產(chǎn)品路線圖可以發(fā)現(xiàn),“追求智能上限”仍是當下最重要的事。目前模型的發(fā)展,主要呈現(xiàn)出從模仿學(xué)習到強化學(xué)習、從多模態(tài)融合走向多模態(tài)理解生成一體化兩大趨勢。而模型能力決定應(yīng)用的上限。什么樣的模型,決定了有什么樣的應(yīng)用可以被解鎖、可以成熟和繁榮。
“大模型技術(shù)發(fā)展還在非常陡峭的區(qū)間,階躍不會在這個過程中放棄主流的前進趨勢,會堅持基礎(chǔ)模型研發(fā),追求智能的上限。” 姜大昕一如往常表示,“階躍追求AGI的初心也不會改變。”
他也強調(diào),多模態(tài)對AGI(通用人工智能)是必經(jīng)之路,階躍星辰有堅實的基礎(chǔ),而且投入了很多資源去創(chuàng)新,在多模推理和多模理解生成一體化方面已進行探索和布局。

階躍星辰創(chuàng)始人、CEO姜大昕
4月29日,習近平總書記來到位于上海市徐匯區(qū)的“模速空間”大模型創(chuàng)新生態(tài)社區(qū)調(diào)研,階躍星辰展示了多模態(tài)大模型與智能終端場景相結(jié)合。
階躍星辰成立于2023年4月,因其Step系列基座模型研發(fā)速度快、多模態(tài)性能強,被業(yè)內(nèi)稱作“多模態(tài)卷王”。根據(jù)姜大昕的規(guī)劃,公司實現(xiàn)AGI的技術(shù)路線是:“單模態(tài)-多模態(tài)-多模理解和生成的統(tǒng)一-世界模型-AGI”。
多模態(tài)的“GPT-4時刻”尚未到來,多模態(tài)理解與生成一體化是趨勢
姜大昕表示:“2024年Sora發(fā)布之時,大家都很興奮,其實我們是失望的,因為我們都認為OpenAI的主線應(yīng)該是理解生成一體化,后來回頭去想,也是有道理的,從多模融合直接做到理解生成一體化太難了,可能需要迭代幾輪后再到理解生成一體化,但總的方向肯定是要能夠去predict next frame(預(yù)測下一幀)。”
他又以自動駕駛和機器人的VLA(Vision Language Action,視覺語言動作)模型為例解釋稱,現(xiàn)在VLA可以視為VLA 1.0,是通過歷史的規(guī)劃數(shù)據(jù)來生成實時的動作決策,而人是通過對未來的預(yù)判來決定現(xiàn)在要做什么,“這個過程既有理解又有生成,因為要先判斷它有哪些動作,然后再判斷會造成哪些后果,判斷后果的過程就是生成的過程。如果根據(jù)動作分布來對未來進行預(yù)測,做最優(yōu)策略的選取,那它就是強化學(xué)習”。
他表示,理解生成一體化的問題解決后,帶推理的VLA將能夠?qū)崿F(xiàn)對未來更好的預(yù)測,如果能做到時空推理,再加上3D和自然語言學(xué)習,就到了世界模型階段。“如果到了世界模型,我認為我眼中的AGI就實現(xiàn)了。實際上有很多人講,AGI的路線為什么到了今天路線越來越清晰了,我確實也有同樣的感覺,我們從文本這條路已經(jīng)看到了這里,那么視覺最根本的問題雖然我們還沒有徹底地解決理解生成一體化,但我們覺得這個問題一旦突破,今后的道路會非常順暢,就會和文本一起發(fā)展到世界模型。”
他判斷稱,多模態(tài)的“GPT-4時刻”還沒有到來,“有的時候它的突破就在一瞬間…”姜大昕認為,在當前的競爭格局中,階躍星辰的差異化特點就是多模態(tài)能力,多模態(tài)領(lǐng)域存在著非常巨大的機會。
同時,他也強調(diào),模型的突破是早于商業(yè)化的。就像先有了GPT-3.5才會有ChatGPT,先有了多模融合和推理模型,才會有現(xiàn)在成熟的Agent(智能體),同樣,要有了多模理解生成一體化,尤其是可規(guī)模化的一體化,才能真正地做到人形機器人的泛化。
AI產(chǎn)品的投流邏輯不成立,大模型和智能終端一起to C
姜大昕在此前的階躍星辰開放日上曾表示,隨著多模態(tài)和慢思考在2024年取得了顯著進展,Agent將是階躍未來發(fā)展的重要方向。
為什么會選擇智能終端Agent?姜大昕表示,Agent要能更好地幫助人類去完成任務(wù),需要去理解用戶所處的環(huán)境和任務(wù)的上下文。很多終端是用戶感知和體驗的延伸,比如手機、AI眼鏡或耳機,它可以搜集人們所處的環(huán)境等信息,幫助模型更好地理解用戶上下文,提供了非常大的便利。同時,目前很多的智能終端和設(shè)備,比如微波爐,只是幫助完成任務(wù),“我家的微波爐有上百種功能,但是我很少用,因為我很少看說明書,也不知道某一個功能如何操作鍵,所以我希望它是一個Agent,可以直接和它對話”。
也是基于這一判斷,階躍星辰此前已經(jīng)宣布了在汽車、手機、具身智能、IoT等關(guān)鍵應(yīng)用場景的智能終端和Agent布局,與吉利汽車深化技術(shù)合作,推動“AI+車”的深度融合,還與智元機器人達成戰(zhàn)略合作,探索AI+具身機器人應(yīng)用場景。
階躍星辰一直秉持著“超級模型+超級應(yīng)用”的雙輪驅(qū)動。姜大昕認為,只做應(yīng)用的公司始終存在一個風險,就是當通用模型的能力取得下一次突破之時會不會受到降維打擊。而階躍星辰在應(yīng)用層面走了一條差異化路線,與合作伙伴打造從模型到Agent、從云側(cè)到端側(cè)的生態(tài)體系,“我們認為軟硬結(jié)合是能更好地理解用戶的需求,完成用戶的任務(wù)”。
對于有觀點認為目前人工智能C端(消費者端)產(chǎn)品在玩互聯(lián)網(wǎng)的套路,做投流做增長。姜大昕表示:“我覺得DeepSeek讓我們學(xué)到的一個東西就是,投流的邏輯是不成立的。DeepSeek從來沒有做投流,它如果放開流量,破億是沒有問題的。我們要重新思考一下AI時代的產(chǎn)品的流量增長,是不是靠投流上去的。DeepSeek出來后給了大家一個重新看待這個問題的窗口。不光是DeepSeek,像《哪吒2》、《黑神話悟空》、Manus,其實他們都有一些共性,不是靠傳統(tǒng)的鋪天蓋地地投流積累用戶的……我們的智能終端其實是to C的,階躍和頭部企業(yè)合作的產(chǎn)品最終是服務(wù)C端的,作為助手類、內(nèi)容類都是有非常大的機會的。”





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司