百度吳華:AIGC正讓個(gè)體創(chuàng)作者成為真正的“獨(dú)立”制作人
1月5日,在百度“AIGC智能創(chuàng)作新風(fēng)尚”媒體溝通會上,百度技術(shù)委員會主席吳華介紹了百度AIGC內(nèi)容生成能力背后的技術(shù)原理。吳華指出,熟練地掌握AIGC,創(chuàng)作者將能夠更加輕松、高效、快樂地創(chuàng)作,甚至一個(gè)人就可以完成編劇、美術(shù)創(chuàng)作及后期剪輯等內(nèi)容創(chuàng)作全流程工作,成為天才創(chuàng)作者。
據(jù)吳華介紹,通過使用百度文心ERNIE 3.0 Zeus,創(chuàng)作者只需輸入一個(gè)題目,就可以瞬間結(jié)合語境寫出上百篇不同體裁、風(fēng)格的作品,甚至是完成劇本創(chuàng)作。此外,通過百度文心ERNIE-ViLG 2.0,創(chuàng)作者還可以根據(jù)一句話或一段描述文本,生成精美的畫作;如果再通過百度專門的視頻內(nèi)容生成與編輯技術(shù)對該畫作或者視頻進(jìn)行處理,就可以得到全新或者更加精美的視頻。據(jù)吳華透露,在1月10日即將召開的 2022百度Create大會上,百度還將推出更多的AIGC工具產(chǎn)品并對相關(guān)技術(shù)進(jìn)行講解。
“大模型的進(jìn)步,讓我們在文字、圖像、視頻等創(chuàng)作領(lǐng)域全面感受到了AI技術(shù)的魅力。如果你掌握了這項(xiàng)內(nèi)容創(chuàng)作能力,那你幾乎可以完成一部影片的許多重要工作,成為天才鬼才創(chuàng)作者。再配上自己設(shè)計(jì)的虛擬人演員,那你就可以成為一個(gè)真正的‘獨(dú)立’制作人、真正的‘獨(dú)立導(dǎo)演’。”吳華表示。
ERNIE 3.0 Zeus,會寫故事的“天才編劇”
2022年以來,隨著谷歌、百度、Meta、微軟等國內(nèi)外企業(yè)先后推出自己的AI繪畫模型或者平臺,AIGC這一新型內(nèi)容創(chuàng)作形式,獲得了越來越多的關(guān)注。因此,2022年也被看做是AIGC發(fā)展的元年。
在此前的發(fā)言中,百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏也曾指出,“過去一年間,人工智能無論是在技術(shù)層面還是在商業(yè)應(yīng)用層面,都有了巨大的進(jìn)展,有些甚至是方向性的改變?!倍谥T多被提及的方向性改變中,AIGC成為了被重點(diǎn)提及的對象。
2022年5月,百度發(fā)布了融合任務(wù)相關(guān)知識的千億大模型ERNIE 3.0 Zeus。該模型能夠從豐富多樣的無標(biāo)注數(shù)據(jù)中學(xué)習(xí),同時(shí)在學(xué)習(xí)過程中融入知識圖譜指導(dǎo)模型學(xué)習(xí)世界知識和語言知識,進(jìn)而提升學(xué)習(xí)的效率。此外,該模型還能從摘要、對聯(lián)、翻譯、分類、閱讀理解等百余種不同形式的任務(wù)中學(xué)習(xí)知識,通過對通用知識和專門知識的學(xué)習(xí)來提升模型泛化能力,使得ERNIE 3.0 Zeus能夠做到多種語言理解和生成任務(wù),成為名副其實(shí)的“通才”。

例如,輸入一篇論文,ERNIE 3.0 Zeus可以立刻自動生成摘要;輸入一個(gè)題目,它可以瞬間寫出上百篇作文,而且作文還可以結(jié)合語境,寫出不同的風(fēng)格,甚至是諸如詩歌、小說等不同的體裁內(nèi)容。
同樣的,ERNIE 3.0 Zeus也會寫劇本。吳華指出,事實(shí)上有很多電視劇的劇本并不是由一位編劇單獨(dú)完成的,而是由一位總編劇制定總綱,再制定每一集的大概內(nèi)容,再交給多位編劇分別寫每集的具體對話、詳細(xì)故事。因此,如果一個(gè)人能編制一部電視劇的總綱,他便可以把每一集的要求交給ERNIE 3.0 Zeus生成故事,然后再經(jīng)過合并整理最終寫出整部劇。
吳華指出,文心 ERNIE 3.0 系列模型已經(jīng)在幾十類自然語言理解和生成公開權(quán)威任務(wù),以及零樣本、小樣本學(xué)習(xí)任務(wù)上處于世界領(lǐng)先水平。此外,它還發(fā)布了業(yè)界首個(gè)開放的千億參數(shù)中文生成API,供各行各業(yè)開發(fā)者到文心大模型官網(wǎng)上調(diào)用、學(xué)習(xí)。
從“插畫”到生成“視頻”,AIGC讓創(chuàng)作更高效
在編劇的工作完成后,場景和畫面的美術(shù)創(chuàng)作,以及視頻內(nèi)容的產(chǎn)出和后期剪輯,是影視創(chuàng)作中必不可少的關(guān)鍵環(huán)節(jié)。而借助百度文心ERNIE-ViLG 2.0以及VIMER-TCIR等模型工具,創(chuàng)作者可以逐步完成他想要實(shí)現(xiàn)的目標(biāo)。
2022年10月,百度發(fā)布了業(yè)界首個(gè)知識增強(qiáng)的AI作畫大模型 ERNIE-ViLG 2.0。它能根據(jù)一句話或者一段描述文本,生成一幅精美的畫作。吳華介紹指出,為提高文本生成圖像的準(zhǔn)確性,百度在AI預(yù)訓(xùn)練學(xué)習(xí)過程中創(chuàng)新性地提出了知識增強(qiáng)的擴(kuò)散模型,實(shí)現(xiàn)了精準(zhǔn)的細(xì)粒度語義控制;同時(shí)通過引入混合降噪專家網(wǎng)絡(luò),對圖像生成不同階段對模型、計(jì)算性能要求的不同,使用不同網(wǎng)絡(luò)進(jìn)行了針對性地建模和優(yōu)化,進(jìn)而提升了圖像生成的質(zhì)量。
吳華指出,在實(shí)際應(yīng)用場景下,只需要輸入一段文字,ERNIE-ViLG就可以快速理解這段文字所表達(dá)的含義和場景,然后根據(jù)這個(gè)理解,幾十秒內(nèi)就可以生成媲美人類作畫水平的圖像,而且可以同時(shí)生成數(shù)百張風(fēng)格各異的畫作,比如寫實(shí)、意象、中國風(fēng)、二次元等等。它甚至可以生成現(xiàn)實(shí)世界中沒有創(chuàng)造性的圖像,比如穿西裝的齊天大圣、街邊擼串兒的熊貓,讓人們天馬行空的想象力得到精準(zhǔn)的可視化呈現(xiàn)。
在權(quán)威公開數(shù)據(jù)集 MS-COCO 上,目前ERNIE-ViLG 2.0已經(jīng)刷新 SOTA 效果,性能遠(yuǎn)遠(yuǎn)超過了國際上的同類技術(shù);而在圖文相關(guān)性和圖像保真度兩個(gè)維度的人工評估上,ERNIE-ViLG 2.0 相對 DALL-E 2 和 Stable Diffusion 同樣取得了較大的優(yōu)勢。
由于人類眼睛的特殊生理結(jié)構(gòu),如果所看畫面的幀率高于60Hz時(shí),就會認(rèn)為是連貫的,這也造就了早期電影膠片是一格一格拍攝出來,然后再快速播放的情況。而AI生成的圖像,在經(jīng)過幀率的調(diào)控之后,也將進(jìn)一步生成視頻。
據(jù)吳華介紹,在視覺內(nèi)容生成方面,百度在文生圖擴(kuò)散模型的基礎(chǔ)上加入時(shí)序建模,使得模型能根據(jù)文本或者圖像生成新的視頻。創(chuàng)作者可以根據(jù)用戶提供的一段描述文本,或者一幅圖像,自動地生成高清、流暢的視頻。
此外,通過百度研發(fā)的VIMER-TCIR多任務(wù)大模型,還可以實(shí)現(xiàn)對生成視頻的修復(fù)和編輯,通過畫質(zhì)提升、邊緣銳化等方式增強(qiáng)視頻的清晰度,達(dá)到全方位提升視頻編輯效率和觀感體驗(yàn)。據(jù)悉,TCIR模型已在去噪、增強(qiáng)、去模糊等多個(gè)任務(wù)領(lǐng)域達(dá)到SOTA結(jié)果,并在AIM2022壓縮圖像超分競賽中,以大幅度領(lǐng)先優(yōu)勢取得冠軍。
目前,VIMER-TCIR多任務(wù)大模型也已經(jīng)在老電影修復(fù)等場景實(shí)現(xiàn)落地,大幅提升了效率,每天單機(jī)可修復(fù)視頻28.5萬幀,解決了絕大部分畫面的修復(fù)問題。



?津公網(wǎng)安備12011002023007號