- +1
Sora到底有多強?

北京時間2月16日凌晨,OpenAI發布文本生成視頻的AI模型Sora,瞬時刷屏科技圈,成為2024年開年“頂流”。
官方稱,Sora只需文本就能自動生成高度逼真和高質量的視頻,且時長突破1分鐘。這是繼文本模型ChatGPT和圖片模型Dall-E之后,OpenAI在視頻領域的另一個顛覆性創造。
Sora之前,并不是沒有AI生成視頻的應用,Runway、Pika、Stable Video Diffusion等公司百舸爭流。但如今Sora橫空出世,這些公司瞬間變得暗淡無光。
被稱是“降維打擊”的Sora到底有多強?

“一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發光霓虹燈和動畫城市標志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動?!?/p>
這是OpenAI在官網介紹視頻模型 Sora出現的第一組提示詞。這段由Sora自主生成的長達59秒的一鏡到底的視頻,也是其展現給公眾的第一個成果,隨即引爆全球網絡,實現爆發式的傳播發酵。
作為一款視頻生成模型,Sora繼承了DALL-E 3的畫質和遵循指令能力,可以根據用戶的文本提示創建逼真的視頻。

與其他視頻生成模型相比,Sora能夠根據提示詞生成60s的連貫視頻,這對于平均只能生成“4s”視頻的全行業來說,造成了“碾壓式”的沖擊。
此外,Sora在采樣的靈活性、視頻拓展、鏡頭語言等方面,也遠遠領先于其他模型。

在對Sora生成的視頻表示震驚之余,各路大佬們也開始紛紛表態:有人吃瓜感慨“gg humans”,競爭對手接受壓力并參與“游戲”(game on);技術大牛深扒核心技術稱Sora是一個“數據驅動的物理引擎”(Sora is a data-driven physics engine)......

盡管Sora生成的視頻遠遠高出行業的平均水平,但依舊存在某些局限性。技術報告提到,Sora還存在不準確的物理建模和非自然物體“變形”的例子,以及在模擬對象和多個角色之間的復雜交互,對模型來說通常具有挑戰性等。

自谷歌2017年發布Transformer網絡結構以來,僅用五年多時間全球已迅速成長出龐大的大模型技術群,衍生出涵蓋各種技術架構、各種模態、各種場景的大模型家族。
從文字工作者恐失業的文本大模型 ChatGPT,到設計師恐失業的圖片生成模型 Stable Diffusion 和 Midjourney,技術的發展日新月異,大模型正在改變著各行各業。
如今,AI生成視頻正迎來爆發期。

此次Sora橫空出世,無疑是給AI生成視頻添了一把火。
事實上,AI生成視頻早已斷斷續續火了一段時間。2023 年可以看作是 AI 視頻爆發的一年。年初,還沒有公開的文本到視頻模型。僅僅 12 個月后,數十種視頻生成產品開始投入使用,全球數百萬用戶根據文本或圖像提示創建短片。

根據美國VC機構a16z的統計,截止到去年11月,文生視頻領域發布相關工具與產品達到了21種。
但此時發布產品的多為初創企業,擁有相機平移和變焦以及動作控制功能的在少數,這意味著無法生成擁有更多視覺深度和動態效果的復雜視頻。
此外,生成視頻的時間也較短,大多在3秒左右,與其說生成的是視頻,不如說生成的是GIF動圖。


Sora的發布,意味著新一輪人工智能革命的開端,我國AI科技處于怎樣的水平,中美之間的差距有多大呢?
去年5月,科技部發布的《中國人工智能大模型地圖研究報告》顯示,中國研發的大模型數量排名全球第二,10億參數規模以上的大模型已發布79個,目前與美國保持同步增長態勢。

截至2023年6月底,全球人工智能領域獨角獸中,108家來自中國,占全球總數的37%。

國內玩家也在積極下場布局AI生成視頻。
字節跳動于去年11月18日推出了文生視頻模型PixelDance?;A模式下,用戶需要提供一張指導圖片+文本描述,PixelDance 就可以生成有高度一致性且有豐富動態性的視頻。
阿里緊隨其后也上線了Animate Anyone模型,需要一張人物照片,再配合骨骼動畫引導,就能生成自然的動畫視頻。
23年末,百度發布了文生視頻工具“度加剪輯”,號稱“可以一鍵獲取最新熱點、ai生成文案、一鍵生成視頻”。百度文心大模型的類似功能則在內測中,不久后會以插件形式開放。
Sora的發布,能否鞭策中國企業進一步突破技術難關,我們不妨拭目以待。
Sora發布前,我國影視行業已經在應用文生視頻,作為拍攝輔助。AI可以低成本快速產出分鏡,用簡單動畫預演出演員走位、取景、攝影機角度與運動大方向,提高拍攝效率。而當AI的精細度可以直接參與后期制作,帶給行業的沖擊是顛覆性的。
關于相關從業者是否會被AI取代,網上爭論不斷。不過對于Sora這樣的復雜系統,人是不可替代的生產力要素,未來,做“工具人”,不如做創造和使用工具的人。
據統計,全球1/7的人工智能頂尖人才在中國,不過相較于產業的迅猛發展,人工智能人才缺口還是非常大。根據中關村產業研究院測算,到2025年,預計北京AI人才需求量為54萬人,缺口將達37萬,特別是急缺計算理論、人機交互、安全與隱私、計算機系統等方面的頂尖學者。

人工智能也成為近年來新增開設數量最多的專業之一。2018年教育部批準設立人工智能本科專業。經過四輪增開,截至2023年共有499所高校設置人工智能本科專業,其中不乏清華、北大、浙大、復旦等頂尖院校。

AI技術大勢滾滾而來,無論于國家,于企業,還是于個人,主動擁抱或許是最好的選擇。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司