▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

當Sora能做真實的3D視頻,離它能設計戰艦也就不遠了

劉遠舉
2024-02-21 17:40
來源:澎湃新聞
? 澎湃商學院 >
字號

今年春節,AI的新聞特別多。

2月9日,Google發布Gemini Ultra1.0,上線Gemini Advanced版本。據稱Gemini Advanced在第三方雙盲測試中擊敗了GPT-4,擁有極強的推理能力和長期記憶。

2月10日,OpenAI的CEO奧特曼欲將OpenAI、各路投資者、合同芯片制造商和電源供應商聯系起來,籌集7萬億美元的資金,打造龐大的芯片制造廠網絡,為OpenAI及其他客戶供應芯片。在過去幾周里,奧特曼一直在與美國、中東和亞洲的潛在投資者以及合作伙伴會面,并在爭取美國政府的批準。

2月14日,Nvdia推出本地AI聊天機器人Chat with RTX,這是為windows設計,可以在PC本地運行的ChatGPT。通過搜索PC本地的文件,分析在線流媒體視頻內容,進行推理。所有推理和檢索都在本地進行,不會有隱私泄露問題。

2月16日,Google推出基于MoE架構的Gemini Pro 1.5,創紀錄實現100萬token上下文能力,擁有強多模態理解推理能力,可實現44分鐘的無聲電影情節準確理解和分析。

當然,這些新聞中,最重要的是2月16日OpenAI推出的Sora。Sora可以通過依據簡單的自然語言描述,創造出長達60秒的視頻,并且能實現詳細場景、鏡頭連續切換以及表情生動的多角色。

其實,早在Sora之前,AI視頻生成模型領域就已經打得熱火朝天了。

最初是Runway和Midjourney你追我趕。2023年2月初,Runway首次推出Gen-1,并在6月份開放了第二代Gen-2。

Gen-2通過文本、圖片、文本+圖片,采用擴散模型,從完全由噪聲構成的起始圖像中逐漸消除噪聲,直接生成視頻,同時支持風格化、故事版、蒙版、渲染等方式,添加好萊塢式大片特效,僅需要幾分鐘即可完成所有操作。Gen-2的訓練數據包括2.4億張圖片、640萬個視頻剪輯片段以及數億個學習示例。Gen-2最大的一個突破是,克服了生成視頻AI領域的一致性難題,畫面變得更連貫,變形問題也得到了解決。某種程度上,Gen-2已經涉足到“了解世界的模型”這個層面,模型負責模擬世界,生成人類想要的東西。當然,Gen-2還存在模糊、顆粒感重、光線穿透差、幀率不穩定、視頻中動物、人物的動作詭異等問題。

9個月之后,也就是2023年11月29日,美國AI初創公司Pika labs發布了視頻生成模型Pika1.0。Pika1.0也可以由文本和圖像生成視頻。Pika1.0擁有強大的語義理解能力,用戶只需要輸入一句話,就可以生成想要的各種風格的視頻。輸入“馬斯克穿著太空服,3D動畫”的關鍵詞,一個身穿太空服的卡通馬斯克便出現了,身后還有SpaceX的火箭。

此外,Pika1.0還可編輯更改視頻,通過提示對背景環境、衣著道具等元素的增減或者更改;還可切換視頻風格,比如在黑白、動畫、3D等不同風格中轉化。

Pika1.0生成的視頻清晰度和連貫性,遠超市面上其他競爭對手,所以,這家僅成立半年的AI初創公司已經成為硅谷資本的“新寵”。

但僅僅兩個月之后,Sora的出現,顛覆了市場競爭格局。為什么Sora可以做到如此程度,與之前的諸多視頻生成模型相比,Sora到底有哪些優勢?

OpenAI Sora生成的視頻截圖

OpenAI Sora是一種結合了Diffusion模型和Transformer模型的技術。通過將視頻壓縮網絡將原始視頻壓縮到一個低維的潛在空間,并將這些表示分解為時空補丁,類似于Transformer的tokens,這樣的表示使得模型能夠有效地訓練在不同分辨率、持續時間和寬高比的視頻和圖像上。由此,OpenAI的Sora在視頻的長度、連續性、真實世界模擬上,都擁有了很大的優勢。

具體來說,Sora的優勢有以下幾個方面。

Sora可以生成長達一分鐘的視頻。不管是Pika1.0還是Runway2.0,都存在時間短、移動范圍小的問題。這兩個模型,默認生成的視頻都只有幾秒鐘。簡單地說,Sora是視頻,而其他家是動圖,Sora后來居上,擁有巨大的優勢。

Sora可以生成更多的畫面比例,更高的分辨率。Sora默認是1080P,而且其他平臺大多數默認的清晰度,都在1080P以下。

Sora可以支持向前以及向后擴展視頻,而其他家的只能向后擴展。也就是說,Sora不僅可以預測之后是什么,還可以推測之前是什么。Sora可以為一個視頻,創造出不同的開頭,最后都是以該視頻結尾。

Sora支持多個視頻的連接。Sora可以將兩個視頻連接在一起,生成一個新的流暢過度的視頻。這是Sora獨特的優勢。

Sora還可以轉換視頻的視角,如移位、旋轉等。轉換拍攝視角,要與物理世界的三維空間一致,這是一個具有相當大技術挑戰的優勢。

Sora生成的長視頻能保持時間上的一致性。簡單地說,就是一個人,一個物體,在視頻中是一致的。即使被遮擋或離開畫面,Sora也能保持它們的存在,并在后續不變。

在生成的視頻中,Sora還可以模擬視頻中物體間在真實世界應該出現的互動。比如,一個人吃一個漢堡,可以留下咬痕,看到被咬下了一塊。

Sora不僅可以模擬真實自然,還可以模擬人工過程。所謂人工過程,是指人類創造的一些世界,基于人類創造的不同于自然界的規律,來生成視頻。通過語言提示,可以向Sora輸入這些規則,Sora就可以根據這些規則,來模擬人工世界。比如,Sora可以模擬生成,《我的世界》這款游戲的視頻。這種能力使得Sora在仿真領域具有強大的潛力。

這幾方面的優勢,體現了Sora具備強大的語言理解和任務推斷能力,能處理復雜的視覺和控制任務。特別是后幾個特征,反映出Sora涌現出對真實物理世界的理解能力。換言之,AI似乎越來越懂我們這個世界了。

Sora將會給世界帶來的變化,最直接的,AI能把創意執行時的人力成本大大降低。

哪怕就在幾個月前,畫一張圖,對普通人來說也是一件專業的事,更不用說視頻。但現在,無需使用AE、Blender等專業軟件,就能實現特效。每一次創作門檻的降低,都會改變行業格局,開辟出全新的市場。未來,人類導演就是一個上帝般的存在,不再需要攝像機。只需要把演員、場景、道具的數字化給到AI,告訴AI想要什么風格、多少時長等要求,AI給出各種畫面選擇。

未來,隨著大模型生成式AI的爆發性發展,在各垂直領域場景,實際應用落地,相關行業會加速變革,與AI深入融合,其帶來的利潤也將持續刺激資本市場的期望,進而刺激算力基礎設施相關需求。這是一個產業、金融、技術相互促進的新的技術爆發階段,泡沫也是一個可以預期的東西。

但是,Sora帶來的改變不會僅僅局限于此。

從應用上看,Sora文字生成視頻的能力,只會涉及傳播、輿論行業,比如廣告、電影、視頻創作等等。如果僅僅從這個層面上看,就會認為Sora只是提供給人“看的東西”,只能娛樂人、傳播信息,卻不能為人類賦能,不能幫助人類獲得更高的生產效率,更新的生產力,幫助人類獲得更大的改造自然的能力。

從這個角度,有觀點認為,Sora的意義還不如ChatGPT。相比之下,ChatGPT可以成為一個生產工具。比如幫助程序員找出bug,幫助數學家獲得靈感,幫助工程師收集資料,搜索到更多潛在的方案,甚至生成潛在的,人類從未有過的方案。所以,就會有人認為,用一段文字生成視頻不要具備太多的價值。然而,這種看法是錯誤的。

首先,幫助人類提升生產效率,是一個全面的概念。衡量人類社會的總生產力、生產效率,并不能僅以工廠制造效率來計算,而是應該包括整個社會經濟活動。這當中,商業、信息流通,也起到了很大的作用。比如電商、社交平臺、智能手機,在商業領域,通過提升消費欲望、加快商業流通等方式,就能發展經濟,也就是提升整個社會的生產總量。

其次,信息本身就是制造業的本質之一。所謂制造業,就是在信息(知識、經驗、圖紙等)的指導下,改造物質。IT技術的發展,賦能實體經濟,極大地提升了物質生產的效率。所以,人工智能提升信息效率,也必然也會提升物質生產的效率。

最重要的是,當AI能夠理解、生成3D的世界,就會成為改變物質世界的生產手段。

有人說,人工智能分為多種,大模型只是其中之一,中國在自動駕駛人工智能領域,全球領先。但更可能發生的是,當一個AI涌現出對世界的理解,AI就會打通所有領域。比如,人類的駕駛是依靠理解來識別的。而現在的自動駕駛,因為無法理解世界,就必須要用雷達來補充Z軸信息。當AI能夠理解世界,自動駕駛的純視覺方案,也就沒有太大問題了。

再比如,人類對現實世界的設計,都是3D的,比如CAD設計圖,大到工廠軍艦,小到玩具零件。Sora生成視頻的一致性,視角的轉換,物體的互動,都體現了對3D世界的理解,那么,AI從生成娛樂視頻,進化為改造世界的手段,也只有一步之遙了。

英偉達科學家Jim Fan表示,OpenAI的Sora不再是一個創意玩具,而是一個數據驅動的物理引擎。他拿“咖啡杯中的海盜船”視頻進行了分析,在這個視頻中,模擬器生成了兩艘帶不同裝飾且精美的海盜船,在咖啡的波浪中起起伏伏。Jim Fan認為,這需要Sora在其潛在空間中解決文本到3D的隱含問題。從流體動力學上來看,咖啡的流動、船只周圍的泡沫都非常自然。流體模擬是計算機圖形學的一個完整子領域,傳統上需要非常復雜的算法和方程。雖然提示詞中場景的語義并不存在于現實世界中,但Sora仍然實現了我們所期望的正確物理規則。模擬器考慮到與海洋相比,杯子的體積較小,因此采用了移軸攝影視角,營造出一種微景觀的感覺。

當一個AI能夠理解流體力學,理解海盜船的構造,理解海盜船與海浪的相互作用,理解其中的物理規律,那么,這個AI能在制造業,能在人類改變世界的過程中,賦予人類什么力量,就幾乎是一個呼之欲出的答案了。換言之,在不遠的將來,人類或許可以輕易地根據新的需求,讓AI設計一艘新的戰艦,并實現無數次仿真,最后交出定型的3D設計圖紙。這一切,只需要在短短數月、數周甚至幾天內完成。

所以,當Sora等模型展現出對世界的理解,或將意味著人類朝著實現通用人工智能(AGI)邁進的重要一步,也意味著人類改變世界的效率會發生天翻地覆的變化。

(作者劉遠舉為上海金融與法律研究院研究員)

    責任編輯:蔡軍劍
    圖片編輯:蔣立冬
    校對:徐亦嘉
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 铜陵市| 塔城市| 车致| 灵川县| 岫岩| 洮南市| 长子县| 松江区| 克山县| 兰考县| 克拉玛依市| 鹰潭市| 德兴市| 和龙市| 奎屯市| 突泉县| 咸宁市| 同德县| 万年县| 永春县| 瓦房店市| 怀化市| 资中县| 云安县| 芜湖县| 辽阳市| 铜鼓县| 二连浩特市| 尉氏县| 改则县| 苏尼特左旗| 新安县| 临朐县| 驻马店市| 墨竹工卡县| 怀远县| 柘荣县| 南京市| 彰化市| 鄯善县| 景洪市|