大揭秘:OpenAI公布Sora模型技術(shù)原理以及訓(xùn)練細(xì)節(jié)
2月16日,北京大學(xué)人工智能專(zhuān)業(yè)博士@北大AI魚(yú)博士 發(fā)微,從技術(shù)角度解讀了OpenAI最新發(fā)布的Sora:
OpenAI最新發(fā)布的Sora視頻生成模型技術(shù)報(bào)告揭示了其背后的強(qiáng)大訓(xùn)練思路和詳細(xì)的技術(shù)特性。Sora模型不僅展現(xiàn)了三維空間的連貫性、模擬數(shù)字世界的能力、長(zhǎng)期連續(xù)性和物體持久性,還能與世界互動(dòng),如同真實(shí)存在。其訓(xùn)練過(guò)程獲得了大語(yǔ)言模型的靈感,采用擴(kuò)散型變換器模型,通過(guò)將視頻轉(zhuǎn)換為時(shí)空區(qū)塊的方式,實(shí)現(xiàn)了在壓縮的潛在空間上的訓(xùn)練和視頻生成。這種獨(dú)特的訓(xùn)練方法使得Sora能夠創(chuàng)造出質(zhì)量顯著提升的視頻內(nèi)容,無(wú)需對(duì)素材進(jìn)行裁切,直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。Sora的推出,無(wú)疑為視頻生成領(lǐng)域帶來(lái)了革命性的進(jìn)步,其技術(shù)細(xì)節(jié)值得每一位從業(yè)者細(xì)致研究。
Sora 詳細(xì)的技術(shù)報(bào)告發(fā)布了,相關(guān)從業(yè)者可能都需要看看。里面有 OpenAI的訓(xùn)練思路以及 Sora 詳細(xì)的技術(shù)特性,下面是主要的,詳細(xì)的可以去看完整內(nèi)容。
簡(jiǎn)單來(lái)說(shuō) Sora 的訓(xùn)練量足夠大也產(chǎn)生了類(lèi)似涌現(xiàn)的能力。
技術(shù)特點(diǎn):
1、三維空間的連貫性:Sora可以生成帶有動(dòng)態(tài)相機(jī)運(yùn)動(dòng)的視頻。隨著相機(jī)移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中保持連貫的運(yùn)動(dòng)。
2、模擬數(shù)字世界:Sora還能模擬人工過(guò)程,如視頻游戲。Sora能夠同時(shí)控制Minecraft中的玩家,并高保真地渲染游戲世界及其動(dòng)態(tài)。通過(guò)提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力
3、長(zhǎng)期連續(xù)性和物體持久性:對(duì)視頻生成系統(tǒng)來(lái)說(shuō),Sora通常能夠有效地模擬短期和長(zhǎng)期的依賴(lài)關(guān)系。同樣,它能在一個(gè)樣本中生成同一角色的多個(gè)鏡頭,確保其在整個(gè)視頻中的外觀一致。
4、與世界互動(dòng):Sora有時(shí)能夠模擬對(duì)世界狀態(tài)產(chǎn)生簡(jiǎn)單影響的行為。例如,畫(huà)家可以在畫(huà)布上留下隨時(shí)間持續(xù)的新筆觸,或者一個(gè)人吃漢堡時(shí)留下咬痕。
【訓(xùn)練過(guò)程】:
1、Sora 的訓(xùn)練受到了大語(yǔ)言模型(Large Language Model)的啟發(fā)。這些模型通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而獲得了廣泛的能力。
3、Sora實(shí)際上是一種擴(kuò)散型變換器模型(Diffusion Transformer)。
首先將視頻壓縮到一個(gè)低維潛在空間19中,然后將這種表現(xiàn)形式分解成時(shí)空區(qū)塊,從而將視頻轉(zhuǎn)換為區(qū)塊。
4、訓(xùn)練了一個(gè)用于降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間上進(jìn)行訓(xùn)練,并在此空間中生成視頻。還開(kāi)發(fā)了一個(gè)對(duì)應(yīng)的解碼器模型,它能將生成的潛在表示映射回到像素空間。
5、對(duì)于給定的壓縮輸入視頻,提取一系列時(shí)空區(qū)塊,它們?cè)谧儞Q器模型中充當(dāng)標(biāo)記(token)。這種方案同樣適用于圖像,因?yàn)閳D像本質(zhì)上是單幀的視頻。基于區(qū)塊的表示方法使Sora能夠針對(duì)不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理過(guò)程中,可以通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來(lái)控制生成視頻的大小。
6、隨著 Sora 訓(xùn)練計(jì)算量的增加,樣本質(zhì)量有了顯著提升。Sora訓(xùn)練時(shí)沒(méi)有對(duì)素材進(jìn)行裁切,使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。
7、針對(duì)視頻的原生縱橫比進(jìn)行訓(xùn)練,還可以提高構(gòu)圖和取景的質(zhì)量。訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有相應(yīng)文本提示的視頻。應(yīng)用了在DALL·E 3中引入的重新字幕技術(shù)到視頻上。
8、與DALL·E 3相似,也利用了GPT技術(shù),將用戶(hù)的簡(jiǎn)短提示轉(zhuǎn)換成更詳細(xì)的提示,然后發(fā)送給視頻模型。
完整報(bào)告請(qǐng)?jiān)L問(wèn)OpenAI官網(wǎng)查看。
重點(diǎn)關(guān)注:
1、Sora展現(xiàn)的三維空間連貫性和長(zhǎng)期物體持久性,提升了視頻內(nèi)容的真實(shí)感。
2、通過(guò)模擬數(shù)字世界和與世界互動(dòng),Sora能夠創(chuàng)造出富有創(chuàng)意的視頻內(nèi)容。
3、Sora的獨(dú)特訓(xùn)練方法及其對(duì)不同縱橫比的原生支持,標(biāo)志著視頻生成技術(shù)的一個(gè)新時(shí)代。


