亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

^{<blockquote id="mrqvv"><i id="mrqvv"></i></blockquote>}

大揭秘：OpenAI公布Sora模型技術(shù)原理以及訓(xùn)練細(xì)節(jié)

AIGC行業(yè)資訊1年前 (2024)發(fā)布管理員

2月16日，北京大學(xué)人工智能專(zhuān)業(yè)博士@北大 AI魚(yú)博士發(fā)微，從技術(shù)角度解讀了OpenAI最新發(fā)布的Sora：

OpenAI最新發(fā)布的Sora視頻生成模型技術(shù)報(bào)告揭示了其背后的強(qiáng)大訓(xùn)練思路和詳細(xì)的技術(shù)特性。Sora模型不僅展現(xiàn)了三維空間的連貫性、模擬數(shù)字世界的能力、長(zhǎng)期連續(xù)性和物體持久性，還能與世界互動(dòng)，如同真實(shí)存在。其訓(xùn)練過(guò)程獲得了大語(yǔ)言模型的靈感，采用擴(kuò)散型變換器模型，通過(guò)將視頻轉(zhuǎn)換為時(shí)空區(qū)塊的方式，實(shí)現(xiàn)了在壓縮的潛在空間上的訓(xùn)練和視頻生成。這種獨(dú)特的訓(xùn)練方法使得Sora能夠創(chuàng)造出質(zhì)量顯著提升的視頻內(nèi)容，無(wú)需對(duì)素材進(jìn)行裁切，直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。Sora的推出，無(wú)疑為視頻生成領(lǐng)域帶來(lái)了革命性的進(jìn)步，其技術(shù)細(xì)節(jié)值得每一位從業(yè)者細(xì)致研究。

Sora 詳細(xì)的技術(shù)報(bào)告發(fā)布了，相關(guān)從業(yè)者可能都需要看看。里面有 OpenAI的訓(xùn)練思路以及 Sora 詳細(xì)的技術(shù)特性，下面是主要的，詳細(xì)的可以去看完整內(nèi)容。

簡(jiǎn)單來(lái)說(shuō) Sora 的訓(xùn)練量足夠大也產(chǎn)生了類(lèi)似涌現(xiàn)的能力。

技術(shù)特點(diǎn)：

1、三維空間的連貫性：Sora可以生成帶有動(dòng)態(tài)相機(jī)運(yùn)動(dòng)的視頻。隨著相機(jī)移動(dòng)和旋轉(zhuǎn)，人物和場(chǎng)景元素在三維空間中保持連貫的運(yùn)動(dòng)。

2、模擬數(shù)字世界：Sora還能模擬人工過(guò)程，如視頻游戲。Sora能夠同時(shí)控制Minecraft中的玩家，并高保真地渲染游戲世界及其動(dòng)態(tài)。通過(guò)提及“Minecraft”的提示，可以零樣本地激發(fā)Sora的這些能力

3、長(zhǎng)期連續(xù)性和物體持久性：對(duì)視頻生成系統(tǒng)來(lái)說(shuō)，Sora通常能夠有效地模擬短期和長(zhǎng)期的依賴(lài)關(guān)系。同樣，它能在一個(gè)樣本中生成同一角色的多個(gè)鏡頭，確保其在整個(gè)視頻中的外觀一致。

4、與世界互動(dòng)：Sora有時(shí)能夠模擬對(duì)世界狀態(tài)產(chǎn)生簡(jiǎn)單影響的行為。例如，畫(huà)家可以在畫(huà)布上留下隨時(shí)間持續(xù)的新筆觸，或者一個(gè)人吃漢堡時(shí)留下咬痕。

【訓(xùn)練過(guò)程】：

1、Sora 的訓(xùn)練受到了大語(yǔ)言模型（Large Language Model）的啟發(fā)。這些模型通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練，從而獲得了廣泛的能力。

3、Sora實(shí)際上是一種擴(kuò)散型變換器模型（Diffusion Transformer）。

首先將視頻壓縮到一個(gè)低維潛在空間19中，然后將這種表現(xiàn)形式分解成時(shí)空區(qū)塊，從而將視頻轉(zhuǎn)換為區(qū)塊。

4、訓(xùn)練了一個(gè)用于降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入，輸出在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間上進(jìn)行訓(xùn)練，并在此空間中生成視頻。還開(kāi)發(fā)了一個(gè)對(duì)應(yīng)的解碼器模型，它能將生成的潛在表示映射回到像素空間。

5、對(duì)于給定的壓縮輸入視頻，提取一系列時(shí)空區(qū)塊，它們?cè)谧儞Q器模型中充當(dāng)標(biāo)記（token）。這種方案同樣適用于圖像，因?yàn)閳D像本質(zhì)上是單幀的視頻。基于區(qū)塊的表示方法使Sora能夠針對(duì)不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理過(guò)程中，可以通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來(lái)控制生成視頻的大小。

6、隨著 Sora 訓(xùn)練計(jì)算量的增加，樣本質(zhì)量有了顯著提升。Sora訓(xùn)練時(shí)沒(méi)有對(duì)素材進(jìn)行裁切，使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。

7、針對(duì)視頻的原生縱橫比進(jìn)行訓(xùn)練，還可以提高構(gòu)圖和取景的質(zhì)量。訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有相應(yīng)文本提示的視頻。應(yīng)用了在DALL·E 3中引入的重新字幕技術(shù)到視頻上。

8、與DALL·E 3相似，也利用了GPT技術(shù)，將用戶(hù)的簡(jiǎn)短提示轉(zhuǎn)換成更詳細(xì)的提示，然后發(fā)送給視頻模型。

完整報(bào)告請(qǐng)?jiān)L問(wèn)OpenAI官網(wǎng)查看。

重點(diǎn)關(guān)注：

1、Sora展現(xiàn)的三維空間連貫性和長(zhǎng)期物體持久性，提升了視頻內(nèi)容的真實(shí)感。

2、通過(guò)模擬數(shù)字世界和與世界互動(dòng)，Sora能夠創(chuàng)造出富有創(chuàng)意的視頻內(nèi)容。

3、Sora的獨(dú)特訓(xùn)練方法及其對(duì)不同縱橫比的原生支持，標(biāo)志著視頻生成技術(shù)的一個(gè)新時(shí)代。