視音同步:字節(jié)AI音效生成模型SeedFoley上線即夢(mèng)
還在為短視頻配音效抓耳撓腮?還在苦苦尋找合適的BGM卻總是差強(qiáng)人意?現(xiàn)在,字節(jié)跳動(dòng)直接放出王炸級(jí)AI黑科技,一舉打破視頻創(chuàng)作的最后一道靜音魔咒!他們最新推出的SeedFoley音效生成模型,如同為視頻注入了聲命之魂,只需輕輕一點(diǎn),就能為你的視頻智能匹配專業(yè)級(jí)音效,瞬間讓你的作品從默片變身有聲大片,效果堪稱驚艷!更令人振奮的是,這項(xiàng)AI音效神技已火速上線字節(jié)跳動(dòng)旗下視頻創(chuàng)作平臺(tái)即夢(mèng),人人都能秒速體驗(yàn)一鍵音效加持的神奇魔力!

SeedFoley究竟是如何做到如此聲入人心的?其核心奧秘在于它采用了革命性的端到端架構(gòu),如同一個(gè)精密的聲音魔術(shù)師,巧妙地融合了視頻的時(shí)空特征與強(qiáng)大的擴(kuò)散生成模型,實(shí)現(xiàn)了音效與視頻內(nèi)容的高度同步和完美契合。簡(jiǎn)單來說,SeedFoley首先會(huì)對(duì)視頻進(jìn)行抽幀分析,就像給視頻做CT掃描一樣,提取出每一幀畫面的關(guān)鍵信息,再通過一個(gè)視頻編碼器深度解讀視頻內(nèi)容,理解視頻中發(fā)生了什么,然后將這些視頻理解投射到條件空間,為后續(xù)的音效生成指明方向。在音效生成的高速公路上,SeedFoley采用了改進(jìn)的擴(kuò)散模型框架,如同擁有無(wú)限創(chuàng)意的聲音設(shè)計(jì)師,根據(jù)視頻內(nèi)容,智能生成與之完美匹配的音效方案。
為了讓AI更懂聲音的藝術(shù),SeedFoley在訓(xùn)練過程中還學(xué)習(xí)了大量的語(yǔ)音和音樂相關(guān)標(biāo)簽,就像給AI配備了聲音百科全書,讓它能夠區(qū)分音效和非音效,實(shí)現(xiàn)更精準(zhǔn)的音效生成。更厲害的是,SeedFoley還是一位全能選手,能夠處理各種長(zhǎng)度的視頻輸入,無(wú)論你的視頻是幾秒的精彩瞬間,還是幾分鐘的完整故事,它都能輕松應(yīng)對(duì),并且在音效的準(zhǔn)確性、同步性以及與視頻內(nèi)容的匹配度上,都達(dá)到了行業(yè)領(lǐng)先水平。
SeedFoley的視頻編碼器也暗藏玄機(jī),它采用了快慢特征組合的獨(dú)門秘籍,在高幀率下捕捉視頻中細(xì)微的局部運(yùn)動(dòng)信息,就像鷹眼一樣精準(zhǔn)捕捉動(dòng)作細(xì)節(jié),在低幀率下則著重提取視頻的語(yǔ)義信息,理解視頻的故事內(nèi)核,快慢特征雙劍合璧,既保留了關(guān)鍵的運(yùn)動(dòng)特征,又有效降低了計(jì)算成本,實(shí)現(xiàn)了低功耗,高性能的完美平衡。
這種快慢結(jié)合的方式,讓SeedFoley能夠在低計(jì)算資源下,實(shí)現(xiàn)驚人的8fps幀級(jí)別視頻特征提取,精準(zhǔn)定位視頻中的每一個(gè)細(xì)微動(dòng)作,最終通過Transformer結(jié)構(gòu)融合快慢特征,深度挖掘視頻的時(shí)空奧秘。為了進(jìn)一步提升訓(xùn)練效果和效率,SeedFoley還巧妙地在一個(gè)批次中引入多個(gè)困難樣本,就像給AI設(shè)置了進(jìn)階挑戰(zhàn),顯著提升了語(yǔ)義對(duì)齊效果,同時(shí)使用了sigmoidloss而非softmaxloss,在更低的資源消耗下,實(shí)現(xiàn)了媲美大批次訓(xùn)練的驚人效果。
在音頻表征模型方面,SeedFoley同樣別出心裁。與傳統(tǒng)的VAE模型通常采用梅爾頻譜(mel-spectrum)作為音頻特征編碼不同,SeedFoley大膽采用了原始波形(rawwaveform)作為輸入,就像直接聆聽聲音的原始形態(tài),經(jīng)過編碼后得到1D的音頻表征,這種方式相比傳統(tǒng)的mel-VAE模型,在音頻的重構(gòu)和生成建模上更具優(yōu)勢(shì)。為了確保高頻信息的完整保留,SeedFoley的音頻采樣率高達(dá)32k,每秒鐘的音頻能夠提取到32個(gè)音頻潛在表征,有效提升了音頻在時(shí)序上的分辨率,讓生成的音效更加細(xì)膩逼真,如同天籟之音。

SeedFoley的音頻表征模型還采用了兩階段聯(lián)合訓(xùn)練策略,如同雙管齊下,在第一階段,使用掩碼策略,剝離音頻表征中的相位信息,將去相位后的潛在表征作為擴(kuò)散模型的優(yōu)化目標(biāo),就像先解構(gòu)聲音的結(jié)構(gòu),再進(jìn)行重塑;在第二階段,則使用音頻解碼器從去相位表征中重建相位信息,如同妙手回春,將聲音還原到最真實(shí)的狀態(tài)。這種分步走的策略,有效降低了擴(kuò)散模型對(duì)表征的預(yù)測(cè)難度,最終實(shí)現(xiàn)了高質(zhì)量音頻潛在表征的生成和還原。
在擴(kuò)散模型方面,SeedFoley選擇了DiffusionTransformer框架,通過優(yōu)化概率路徑上的連續(xù)映射關(guān)系,實(shí)現(xiàn)了從高斯噪聲分布到目標(biāo)音頻表征空間的概率精準(zhǔn)匹配,如同在茫茫噪聲中找到目標(biāo)聲音的正確路徑。相較于傳統(tǒng)擴(kuò)散模型依賴馬爾可夫鏈?zhǔn)讲蓸拥奶匦?,SeedFoley通過構(gòu)建連續(xù)變換路徑,有效減少了推理步數(shù),大幅降低了推理成本,讓音效生成速度更快,效率更高。在訓(xùn)練階段,SeedFoley將視頻特征與音頻語(yǔ)義標(biāo)簽分別編碼為隱空間向量,如同將視頻和音頻信息翻譯成AI能夠理解的語(yǔ)言,再通過通道維度拼接(Channel-wiseConcatenation)將二者與時(shí)間編碼(TimeEmbedding)及噪聲信號(hào)進(jìn)行混合,形成聯(lián)合條件輸入,就像將視頻、音頻和時(shí)間信息融合在一起,讓AI能夠更全面地理解視頻內(nèi)容,生成更精準(zhǔn)的音效。
這種巧妙的設(shè)計(jì),通過顯式建??缒B(tài)時(shí)序相關(guān)性,有效提升了音效和視頻畫面在時(shí)序上的一致性以及內(nèi)容的理解能力。在推理階段,用戶還可以通過調(diào)整CFG系數(shù),靈活調(diào)整視覺信息的控制強(qiáng)度以及生成質(zhì)量之間的平衡,就像擁有了音效調(diào)音臺(tái),可以根據(jù)需求自由調(diào)整音效風(fēng)格。通過迭代式優(yōu)化噪聲分布,SeedFoley將噪聲逐步轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布,最終生成高質(zhì)量的音效音頻。為了避免音效中混入不必要的人聲或背景音樂,SeedFoley還能夠通過將人聲以及音樂標(biāo)簽進(jìn)行強(qiáng)制設(shè)定,如同給音效劃定界限,有效提升音效的清晰度和質(zhì)感。最后,將音頻表征輸入到音頻解碼器中,就能得到最終的完美音效。
總而言之,SeedFoley的誕生,標(biāo)志著視頻內(nèi)容與音頻生成實(shí)現(xiàn)了深度融合,它能夠精準(zhǔn)提取視頻幀級(jí)視覺信息,通過洞察多幀畫面信息,精準(zhǔn)識(shí)別視頻中的發(fā)聲主體及動(dòng)作場(chǎng)景,無(wú)論是節(jié)奏感強(qiáng)烈的音樂瞬間,還是電影中的緊張情節(jié),SeedFoley都能精準(zhǔn)卡點(diǎn),營(yíng)造出身臨其境的逼真體驗(yàn)。更令人驚喜的是,SeedFoley還能智能區(qū)分動(dòng)作音效和環(huán)境音效,如同聲音界的藝術(shù)家,顯著提升視頻的敘事張力和情感傳遞效率,讓你的視頻作品更具感染力。
現(xiàn)在,AI音效功能已正式上線即夢(mèng)平臺(tái),用戶只需使用即夢(mèng)生成視頻后,選擇AI音效功能,即可一鍵生成3個(gè)專業(yè)級(jí)音效方案,輕松擺脫AI視頻的無(wú)聲尷尬,在AI視頻創(chuàng)作、生活Vlog、短片制作和游戲制作等高頻場(chǎng)景中,都能便捷地制作出配有專業(yè)音效的高質(zhì)量視頻,讓你的視頻作品瞬間聲動(dòng)起來!