- +1
如何打通視頻模型商業化最后一公里??智象未來梅濤:技術之上還得構建生態
過去一年,是視頻生成大模型領域眾聲喧嘩的一年,年初Sora引爆全場,隨后國內眾多企業也都推出了自己的產品。行業競爭愈發激烈,能夠成功“跑通”的路徑也變得更加陡峭。探索如何實現商業化,成為眾多視頻生成創業者的困境。
在日前舉行的第7屆北京智源大會大模型產業CEO論壇上,智象未來創始人兼CEO 梅濤談及當前視頻生成模型商業化過程中面臨的困境時坦言:“(目前)大模型商業化仍不明顯,離最后的商業應用還是差‘最后一公里’”。
智源研究院院長王仲遠在論壇上指出,過去一年,大語言模型的推理能力和智能化水平有了明顯的提升,然而,原生多模態技術尤其在文生視頻、文生圖方面仍處于探索期,距離“多模態的ChatGPT時刻”尚有距離。
澎湃科技(www.kxwhcb.com)注意到,盡管近期國產大模型在多模態融合、生成質量等方面取得顯著進展,也在訓練效率、推理成本等關鍵指標上不斷優化,但當前技術上仍存在一定瓶頸,而這一定程度上也影響了視頻生成模型商業化路徑。
Sand.AI(北京三代科技有限公司)的創始人兼CEO曹越認為,雖然Sora已經證明可以生成高質量視頻,但從底層技術路徑上看,當前主流的Diffusion模型和Transformer模型的訓練方案有很大問題,核心問題在于不夠“Scalable”(可擴展性)。
這一情況類似2018年語言模型的發展階段,當時BERT模型剛推出時,在10B參數量級內表現良好,但一旦繼續擴大模型規模,其性能提升卻趨于停滯,難以獲得預期收益。這也是后來ChatGPT能夠后來居上的原因之一,它能夠有效地擴展到千億(1000B)級別,從而實現質的飛躍。
然而,在視頻生成方向,Diffusion和Transformer目前雖然已能生成5秒左右的視頻并呈現出不錯的效果,但隨著模型參數規模的擴大,則快速達到瓶頸。在現有技術框架下,如何實現真正可擴展的視頻生成解決方案,仍是一個懸而未決的問題。
智象未來創始人兼CEO 梅濤指出,視頻生成大模型目前正處于ChatGPT2到ChatGPT3的階段。要解決視頻創作的問題,有三個關鍵點要達到,即敘事性、穩定性和可控性,這是突破商業化瓶頸的關鍵所在。
梅濤稱,從2023年到2025年,這三年他對于商業化有不同階段的思考。2023年,他認為模型就是產品,2024年覺得可以賣工具,但后來發現,工具的門檻比較高,即便用了特效的方式,也很難滿足用戶所有需求。
2025年,他再將產品升級,即不用關心如何做,工具只是降本增效的方法,關鍵在于用低成本、極高效率,創造極高價值。“我們希望直接把結果交付給用戶,幫用戶做增長,跟用戶分傭,這種模式更貼近商業的本質。”
梅濤表示,無論是做視頻生成還是大模型,最關鍵的挑戰在于如何從技術能力出發,走到一個可持續、可閉環、有現金流的商業模型中去。如果無法實現這一點,終究只能停留在“技術提供者”的角色。在這一過程中,梅濤說他得出一個清晰的判斷,無論模型底座能力多強,離真正的商業應用仍然差“最后一公里”。下一步,他的策略不僅是向用戶交付結果,還將進一步構建完整生態。比如,簽約大量具備流量優勢的內容創作者(UP主)、MCN機構,搭建自有賬號體系,從而推動整個生態系統的運轉。
“最終我們可能進入電商領域,轉向賣貨,構建起一個穩定、有現金流支撐的業務閉環。”梅濤說。
曹越認為,視頻生成模型在不同的發展階段,會展現出完全不同的產品契合度(PMF)。在早期階段,盡管生成效果還不完美,甚至需要頻繁“抽卡”才能生成一個可用片段,但與傳統拍攝相比,其成本優勢依然顯著。他預測,視頻生成方向在未來三到五年內會大有可為。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司