如何打通視頻模型商業化最后一公里？?智象未來梅濤：技術之上還得構建生態

澎湃新聞記者喻琰

2025-06-09 08:09

來源：澎湃新聞

? 未來2% >

過去一年，是視頻生成大模型領域眾聲喧嘩的一年，年初Sora引爆全場，隨后國內眾多企業也都推出了自己的產品。行業競爭愈發激烈，能夠成功“跑通”的路徑也變得更加陡峭。探索如何實現商業化，成為眾多視頻生成創業者的困境。

在日前舉行的第7屆北京智源大會大模型產業CEO論壇上，智象未來創始人兼CEO 梅濤談及當前視頻生成模型商業化過程中面臨的困境時坦言：“（目前）大模型商業化仍不明顯，離最后的商業應用還是差‘最后一公里’”。

智源研究院院長王仲遠在論壇上指出，過去一年，大語言模型的推理能力和智能化水平有了明顯的提升，然而，原生多模態技術尤其在文生視頻、文生圖方面仍處于探索期，距離“多模態的ChatGPT時刻”尚有距離。

澎湃科技（www.kxwhcb.com）注意到，盡管近期國產大模型在多模態融合、生成質量等方面取得顯著進展，也在訓練效率、推理成本等關鍵指標上不斷優化，但當前技術上仍存在一定瓶頸，而這一定程度上也影響了視頻生成模型商業化路徑。

Sand.AI（北京三代科技有限公司）的創始人兼CEO曹越認為，雖然Sora已經證明可以生成高質量視頻，但從底層技術路徑上看，當前主流的Diffusion模型和Transformer模型的訓練方案有很大問題，核心問題在于不夠“Scalable”（可擴展性）。

這一情況類似2018年語言模型的發展階段，當時BERT模型剛推出時，在10B參數量級內表現良好，但一旦繼續擴大模型規模，其性能提升卻趨于停滯，難以獲得預期收益。這也是后來ChatGPT能夠后來居上的原因之一，它能夠有效地擴展到千億（1000B）級別，從而實現質的飛躍。

然而，在視頻生成方向，Diffusion和Transformer目前雖然已能生成5秒左右的視頻并呈現出不錯的效果，但隨著模型參數規模的擴大，則快速達到瓶頸。在現有技術框架下，如何實現真正可擴展的視頻生成解決方案，仍是一個懸而未決的問題。

智象未來創始人兼CEO 梅濤指出，視頻生成大模型目前正處于ChatGPT2到ChatGPT3的階段。要解決視頻創作的問題，有三個關鍵點要達到，即敘事性、穩定性和可控性，這是突破商業化瓶頸的關鍵所在。

梅濤稱，從2023年到2025年，這三年他對于商業化有不同階段的思考。2023年，他認為模型就是產品，2024年覺得可以賣工具，但后來發現，工具的門檻比較高，即便用了特效的方式，也很難滿足用戶所有需求。

2025年，他再將產品升級，即不用關心如何做，工具只是降本增效的方法，關鍵在于用低成本、極高效率，創造極高價值。“我們希望直接把結果交付給用戶，幫用戶做增長，跟用戶分傭，這種模式更貼近商業的本質。”

梅濤表示，無論是做視頻生成還是大模型，最關鍵的挑戰在于如何從技術能力出發，走到一個可持續、可閉環、有現金流的商業模型中去。如果無法實現這一點，終究只能停留在“技術提供者”的角色。在這一過程中，梅濤說他得出一個清晰的判斷，無論模型底座能力多強，離真正的商業應用仍然差“最后一公里”。下一步，他的策略不僅是向用戶交付結果，還將進一步構建完整生態。比如，簽約大量具備流量優勢的內容創作者（UP主）、MCN機構，搭建自有賬號體系，從而推動整個生態系統的運轉。

“最終我們可能進入電商領域，轉向賣貨，構建起一個穩定、有現金流支撐的業務閉環。”梅濤說。

曹越認為，視頻生成模型在不同的發展階段，會展現出完全不同的產品契合度（PMF）。在早期階段，盡管生成效果還不完美，甚至需要頻繁“抽卡”才能生成一個可用片段，但與傳統拍攝相比，其成本優勢依然顯著。他預測，視頻生成方向在未來三到五年內會大有可為。

責任編輯：宦艷紅

圖片編輯：陳飛燕

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#視頻模型 #大語言模型