Lightricks最新視頻生成模型，速度快30倍，普通電腦就能跑

2025-05-10 19:28

來源：澎湃新聞·澎湃號·湃客

或許你對 Lightricks 這個名字并不熟悉，但對于活躍在社交媒體上、熟悉P圖的用戶來說，它旗下的 Facetune 幾乎是家喻戶曉的存在。這家總部位于以色列的公司，憑借 Facetune、Videoleap 等一系列橫跨圖片編輯和短視頻制作的成功產品，在全球消費級創意應用市場積累了深厚的技術實力和用戶基礎。

就在前兩天，Lightricks 正式發布了他們最新的AI視頻生成模型—— LTX Video 130億參數模型（LTXV-13B）。模型一經發布，便迅速在網絡上引起了熱潮。

LTXV-13B最引人注目的有兩點：第一，它在生成高質量 AI 視頻方面的效率顯著提升，速度比現有同類模型快達 30 倍；第二也是更關鍵的是，它打破了高端硬件的桎梏，聲稱能夠運行在消費級 GPU 上，無需依賴昂貴的企業級設備。

這意味著什么？Lightricks 聯合創始人兼 CEO Zeev Farbman 在接受采訪時給出了他的解讀：“130 億參數的 LTX Video 模型是 AI 視頻生成領域的一個重要進展，它讓在消費級 GPU 上快速生成高質量視頻成為可能。” 他進一步指出，這將使用戶能夠以更高的一致性、更好的質量和更精細的控制來創作內容。

突破“顯存”瓶頸：AI視頻普惠化的關鍵一步

我們不妨先回顧一下 AI 視頻生成當前面臨的核心技術挑戰。長期以來，高性能 GPU，尤其是其配備的大容量顯存（VRAM），一直是橫亙在普通用戶面前的一道“高墻”。像 Runway、Pika、Luma 等在文生視頻領域走在前沿的模型，通常需要依賴于配備 80GB 甚至更高顯存的企業級 GPU 集群進行訓練和推理。

對計算資源的極度依賴，導致這些模型大多部署在云端。對于絕大多數個體創作者或小型團隊而言，本地部署幾乎不現實，他們不得不依賴昂貴的云服務。這不僅推高了使用成本，按時計費的模式也在一定程度上限制了創作者自由探索和快速迭代的靈活性。

LTXV-13B 的核心價值，恰恰在于其對這一硬件瓶頸的突破性嘗試。Farbman 解釋說，消費級和企業級 GPU 最主要的分界線就在于顯存容量。例如，英偉達面向普通消費者的 RTX 3090 和 4090 最高顯存為 24GB，最新的 5090 也只有 32GB，與企業級顯卡動輒 80GB+ 的顯存相去甚遠。

Lightricks 的新模型，正是設計來在這些相對有限的顯存條件下高效運作。“即使是完整模型，無需任何量化或近似處理，也能在 RTX 3090、4090、5090 等頂級消費級 GPU 及其筆記本版本上運行。” Farbman 確認。這無疑是 AI 視頻生成走向“民主化”、降低門檻的關鍵一步。

“多尺度渲染”：從藝術家流程中汲取靈感

那么，LTXV-13B 是如何做到在有限顯存下實現高效運行的？其背后的技術“秘密武器”，是 Lightricks 稱之為“多尺度渲染”的創新方法。Farbman 將其描述為“本次發布中最大的技術突破”。

他解釋說：“這一技術使得模型能夠逐步細化生成過程。模型并非一次性渲染完整畫面，而是模仿藝術家的創作流程：先在粗略的網格上構建場景和物體運動的初步框架，隨后將畫面分解成一個個區域或‘圖塊’，并對每個圖塊逐步添加高精度的細節。”

這種“分而治之”、逐層細化的渲染策略，巧妙地將模型的峰值顯存需求限制在處理單個“圖塊”所需的內存，而非一次性處理整個最終輸出分辨率所需的內存。顯存的占用峰值被有效控制在較低水平。

此外，模型采用了更緊湊的潛在空間（latent space）表示，進一步優化了內存使用效率，在保證生成質量的同時，進一步減少了顯存需求。Lightricks 提供的性能數據顯示，LTXV-13B 生成一段視頻僅需 37.59 秒，相比競品動輒上千秒的耗時，速度提升近 40 倍，這正是其底層高效架構和創新技術帶來的直接成果。

圖片來源：Lightricks

技術之外的棋局：開源、合規與獨特的商業模式

在技術層面實現突破的同時，Lightricks 在商業和生態策略上也走出了一條差異化路徑。在當前不少頂尖 AI 模型走向閉源或 API 收費的趨勢下，Lightricks 卻選擇將 LTXV-13B 完全開源，代碼托管在 Hugging Face 和 GitHub。

Farbman 對此的解釋是，開源能有效降低自身的研發成本，并借助全球開發者社區的力量加速模型迭代。通過社區的廣泛使用和貢獻，Lightricks 能夠更專注于模型的整體規劃和“策展”，發現和整合最有價值的改進方向。

另一個關鍵點是數據合規。隨著針對抓取數據訓練模型引發的法律爭議增多，模型的“純凈度”對商業應用至關重要。Lightricks 選擇與內容巨頭 Getty Images 和 Shutterstock 建立合作，獲取授權數據進行模型訓練。

Farbman 坦言，盡管數據收集仍存在法律灰色地帶，但對于有嚴格合規要求的企業客戶而言，提供基于“干凈”數據的模型至關重要。這些合作旨在確保模型用于商業應用的法律合規性，尤其是在對版權要求嚴格的企業級市場，這構成了 Lightricks 的差異化競爭優勢。

在商業化模式上，Lightricks 更是采取了分層策略：對年收入低于 1000 萬美元的企業，提供免費許可。

Farbman 坦言，這不是為了直接從小型創作者那里賺錢，而是為了快速擴大模型使用范圍，積累用戶和生態，證明模型價值。真正的商業化目標是那些通過模型取得顯著商業成功（年收入超過 1000 萬美元）的大公司，屆時將參照游戲引擎等模式協商許可協議。這是一種典型的平臺或生態型商業策略，通過前端免費或低門檻，吸引海量用戶和應用，再從頂部的商業化項目中獲取回報。

AI 視頻生成正影響動畫制作領域

盡管 LTXV-13B 在硬件兼容性和效率上取得了顯著進展，Farbman 仍坦承，AI 視頻生成距離“好萊塢電影級”水準尚有距離。當前的生成效果可能在細節、一致性等方面仍有提升空間，但它已經能在特定領域發揮價值。

LTXV-13B 模型在單個消費級 GPU 上渲染的兩只兔子 | 圖片來源：Lightricks

例如，模型當前就能在例如動畫制作中，大幅提升效率、降低成本。在高端動畫生產中，創意和故事構思只占預算一小部分，而耗時耗力的關鍵幀繪制則消耗大量資源。AI 輔助關鍵幀生成，正是 AI 在實際生產流程中“降本增效”的典型應用場景。

展望未來，Farbman 預測下一代 AI 視頻模型將是“多模態”的，能夠整合視頻、音頻、音樂等不同數據類型，并在統一的潛在空間中協同工作。這將使得如唇語同步等復雜任務變得更加容易處理，實現更自然、更全面的內容生成。

Lightricks LTXV-13B 模型作為其在這一領域的重要探索，現已開源，并計劃逐步集成到 Lightricks 旗下的創意應用平臺，比如面向故事創作的 LTX Studio。這一系列動作，不僅是技術上的迭代，更是 Lightricks 試圖在 AI 視頻生成這個新興賽道上，通過技術突破、開源策略和獨特的商業模式，重塑硬件邊界，構建自身生態的關鍵棋步。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#多模態AI