亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

AIGCAI生成內(nèi)容),這個概念最近可以說是火得一塌糊涂。

例如Stable Diffusion,只要對它說一句話,“唰唰唰”地就能秒生成畫作:

Big chunky Venom(巨大敦實的毒液).

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

知名博主大谷Spitzer還用它“翻拍了”好萊塢國際巨星版的《華強買瓜》:

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

還有此前谷歌家的Imagen、OpenAI出的DALL·E系列等,也都成了備受網(wǎng)友們熱捧的AI內(nèi)容生成神器。

甚至還有人拿著Midjourney生成的畫作參加藝術(shù)比賽,碾壓人類奪得頭籌,惹怒了一眾藝術(shù)家。

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

但正所謂“能用起來的技術(shù)才是好技術(shù)”,網(wǎng)友們將諸如此類AIGC技術(shù)熱度推至的高度是對它實力的認可。

而此前市場還將項目發(fā)布僅一個月的Stable Diffusion背后公司估值為69億元,這是資本對AIGC的肯定。

那么站在現(xiàn)在這個時間節(jié)點上,是時候?qū)IGC從技術(shù)發(fā)展路線、產(chǎn)業(yè)落地方向等多角度做一個梳理。

因此,量子位智庫在進行深入調(diào)研之后正式發(fā)布《AIGC/AI生成內(nèi)容產(chǎn)業(yè)展望報告》,核心回答三大問題:

  • 在技術(shù)上,AIGC已經(jīng)可以完成哪些創(chuàng)作?
  • 在價值上,AIGC除了直接生成藝術(shù)作品還能做什么?
  • 在未來,AIGC將如何改變內(nèi)容及相關(guān)產(chǎn)業(yè)?

(完整報告獲取方式見文末)

AIGC技術(shù)及八大場景應(yīng)用

AIGC全稱為AI-Generated Content,指基于生成對抗網(wǎng)絡(luò)GAN、大型預(yù)訓(xùn)練模型等人工智能技術(shù),通過已有數(shù)據(jù)尋找規(guī)律,并通過適當(dāng)?shù)姆夯芰ι上嚓P(guān)內(nèi)容的技術(shù)。

與之相類似的概念還包括Synthetic media,合成式媒體, 主要指基于AI生成的文字、圖像、音頻等。

Gartner也提出了相似概念Generative AI,也即生成式AI。生成式AI是指該技術(shù)從現(xiàn)有數(shù)據(jù)中生成相似的原始數(shù)據(jù)。

相較于量子位智庫認為的AIGC,這一概念的范圍較狹窄。

我們認為,目前AIGC生成正在完成從簡單的降本增效(以生成金融/體育新聞為代表)向創(chuàng)造額外價值(以提供繪畫 創(chuàng)作素材為代表)轉(zhuǎn)移,跨模態(tài)/多模態(tài)內(nèi)容成為關(guān)鍵的發(fā)展節(jié)點。

技術(shù)視角下,我們認為以下場景將成為未來發(fā)展的重點:文本-圖像-視頻的跨模態(tài)生成、2D到3D生成、多模態(tài)理解 結(jié)合生成。

商業(yè)視角下,我們認為未來3年內(nèi),虛擬人生成和游戲AI這兩種綜合性的AIGC場景將趨于商業(yè)化成熟。

下圖中的綠色部分,是我們認為2-3年內(nèi)具有快速增長潛力的細分賽道。

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

文本生成

以結(jié)構(gòu)性新聞撰寫、內(nèi)容續(xù)寫、詩詞創(chuàng)作等細分功能為代表,基于NLP技術(shù)的文本生成可以算作是AIGC中發(fā)展最早的一部分技術(shù),也已經(jīng)在新聞報道、對話機器人等應(yīng)用場景中大范圍商業(yè)落地。

從現(xiàn)有的落地場景來看,我們將其劃分為應(yīng)用型文本創(chuàng)作型文本生成,前者的進展明顯優(yōu)于后者。此外,從應(yīng)用推廣的角度來說,輔助文本創(chuàng)作是目前落地最為廣泛的場景。

應(yīng)用型文本大多為結(jié)構(gòu)化寫作,以客服類的聊天問答、新聞撰寫等為核心場景。主要玩家包括Automated Insights(美聯(lián)社Wordsmith)、Narrative Science、、AX Semantics、Yseop、Arria、retresco、Viable瀾舟科技等。同時也是小冰公司、騰訊、百度等綜合性覆蓋AIGC領(lǐng)域公司的重點布局領(lǐng)域。

創(chuàng)作型文本主要適用于劇情續(xù)寫、營銷文本等細分場景等,具有更高的文本開放度和自由度,需要一定的創(chuàng)意和個性化,對生成能力的技術(shù)要求更高。

代表性的國內(nèi)外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、 Friday.ai、RetrescoWritesonic、Conversion.aiSnazzy AI、、LongShot.AI、彩云小夢等。

除去端到端進行文本創(chuàng)作外,輔助文本寫作其實是目前國內(nèi)供給及落地最為廣泛的場景?;局饕獮榛谒夭呐廊〉膮f(xié)助作用,例如定向采集信息素材、文本素材預(yù)處理、自動聚類去重,并根據(jù)創(chuàng)作者的需求提供相關(guān)素材。

這部分的國內(nèi)代表產(chǎn)品包括寫作貓、Gilso寫作機器人、Get寫作、寫作狐、沃沃AI人工智能寫作

圖像生成

圖像生成的傳統(tǒng)思路是生成對抗網(wǎng)絡(luò)(GAN),由生成器和判別器兩部分組成,生成器將抓取數(shù)據(jù)、產(chǎn)生新的生成數(shù)據(jù),并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。

雖然說在現(xiàn)有的GAN在神經(jīng)網(wǎng)絡(luò)架構(gòu)、損失函數(shù)設(shè)計、模型訓(xùn)練穩(wěn)定性、模型崩潰問題上取得了相應(yīng)突破,提升了最終圖像的特定細節(jié)、內(nèi)在邏輯、生成速度等。

但要在實際應(yīng)用中大規(guī)模穩(wěn)定應(yīng)用,GAN仍需解決以下問題:訓(xùn)練不穩(wěn)定、生成的樣本大量重復(fù)、結(jié)構(gòu)及壓縮等問題。

2022年,Diffusion Model(擴散模型)成為圖像生成領(lǐng)域的重要發(fā)現(xiàn),甚至有超越GAN的勢頭。

相較于其他的圖像生成模型(比如GAN、VAE和基于流的模型),在所需數(shù)據(jù)更少的背景下,Diffusion Model的圖像生成效果有明顯提升。

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

而在3D內(nèi)容生成上,神經(jīng)輻射場模型NeRF成為新一代模型。

NeRF通過將場景表示為隱式的神經(jīng)輻射場,渲染時通過神經(jīng)網(wǎng)絡(luò)查詢位置上的場景信息生成新視角圖像。簡單來說,NeRF利用深度學(xué)習(xí)完成了計算機圖形學(xué)中的3D渲染任務(wù)。

基于對不同技術(shù)原理的梳理,我們將圖像生成領(lǐng)域的技術(shù)場景劃分為圖像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。

屬性編輯部分,可以直觀的將其理解為經(jīng)AI降低門檻的PhotoShop?,F(xiàn)有代表公司包括美圖秀秀(美圖AI開放平臺)、Radius5、Photokit、ImglargerHotpot、Remove.bgSkylum(Mask AI)、Photodiva。

圖像部分編輯部分,指部分更改圖像部分構(gòu)成、修改面部特征。典型代表為選入CVPR2022的InsetGAN,該模型由Adobe推出。

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

圖像端到端生成主要指基于草圖生成完整圖像、有機組合多張圖像生成新圖像、根據(jù)指定屬性生成目標(biāo)圖像等。

該部分包含兩類場景,分別為創(chuàng)意圖像生成與功能性圖像生成。前者大多以NPF等形式體現(xiàn),后者則大多以營銷類海報/界面、logo、模特圖、用戶頭像為主。

垂直代表公司/產(chǎn)品包括Deepdream Generator、Rosebud.aiAI Gahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid詩云科技、道子智能繪畫系統(tǒng)等。

音頻生成

此類技術(shù)可應(yīng)用于流行歌曲、樂曲、有聲書的內(nèi)容創(chuàng)作,以及視頻、游戲、影視等領(lǐng)域的配樂創(chuàng)作,大大降低音樂版權(quán)的采購成本。

我們目前最為看好的場景是自動生成實時配樂、語音克隆以及心理安撫等功能性音樂的自動生成。

TTS(Text-to-speech)在AIGC領(lǐng)域下已相當(dāng)成熟,廣泛應(yīng)用于客服及硬件機器人、有聲讀物制作、語音播報等任務(wù)。

目前技術(shù)上的的關(guān)鍵,在于如何通過富文本信息(如文本的深層情感、深層語義了解等)更好的表現(xiàn)其中的抑揚頓挫, 以及基于用戶較少的個性化數(shù)據(jù)得到整體的復(fù)制能力(如小樣本遷移學(xué)習(xí))。

垂直代表公司包括倒映有聲、科大訊飛思必馳(DUI)、Readspeaker、DeepZenSonantic

隨著內(nèi)容媒體的變遷,短視頻內(nèi)容配音已成為重要場景。部分軟件能夠基于文檔自動生成解說配音,上線有150+款包括不同方言和音色的AI智能配音主播。代表公司有剪映、九錘配音加音、XAudioPro等。

TTS領(lǐng)域,語音克隆值得特別關(guān)注。該技術(shù)目前被應(yīng)用于虛擬歌手演唱、自動配音等,在聲音IP化的基礎(chǔ)上,對于動畫、電影、以及虛擬人行業(yè)有重要意義。

代表公司包括標(biāo)貝科技、Modulate、overdubreplika、Replica Studios、LovoVoice mod、Resemble Ai、Respeecher、DeepZen、Sonantic、VoiceIDDescript。

……

除此之外,因篇幅有限,更多AIGC落地細分場景可在文末獲取完整報告進一步了解。

不過總體而言,我們認為,不同賽道下AIGC應(yīng)用落地推廣程度主要受到兩方面影響,特定技術(shù)的水平狀況以及在實際應(yīng)用中出現(xiàn)的轉(zhuǎn)化門檻。

并且以下技術(shù)要素值得關(guān)注:長文本生成、開放式文本生成、NeRF模型、Diffusion模型、跨模態(tài)大型預(yù)訓(xùn)練模型(支持的模態(tài)數(shù)據(jù)類型、模態(tài)對齊架構(gòu)設(shè)計、支持的下游應(yīng)用)、小樣本學(xué)習(xí)及自監(jiān)督算法、強化學(xué)習(xí)環(huán)境學(xué)習(xí)。

技術(shù)場景方面,我們認為短期內(nèi)將有較明顯爆發(fā)的包括閑聊式文本生成、個性化營銷文本、富情感及細節(jié)TTS、拼湊式視頻生成基于文本的AI繪畫、語音復(fù)刻。

AIGC價值和產(chǎn)業(yè)發(fā)展分析

在量子位智庫看來,用AI進行內(nèi)容創(chuàng)作的價值主要 來源于五點。

區(qū)別于市場觀點,我們認為最后一點,也即與AI系統(tǒng)的個性化、實時化互動最能體現(xiàn)其潛在價值。

盡管目前AIGC尚無法完成精準(zhǔn)可控的生成,但我們相信這一賽道未來的技術(shù)與市場規(guī)模上限。

以下為五點主要價值,重要性逐次遞增。

降低內(nèi)容創(chuàng)作門檻,增加UGC用戶群體

AIGC能夠代替人工完成聲音錄制、圖像渲染等工作,使更多人員能夠參與到高價值的內(nèi)容創(chuàng)作流程中。預(yù)計這一效果在2B結(jié)構(gòu)化內(nèi)容生成的領(lǐng)域非常明顯,個別場景會出現(xiàn)2C服務(wù)??缒B(tài)生成成為未來重點。

提升創(chuàng)作及反饋效率,鋪墊線上實時互動

目前來看,效率提升主要體現(xiàn)在提升專業(yè)人員的生產(chǎn)效率。用戶對于能夠動態(tài)交互的個性化數(shù)字內(nèi)容的需求越來越高,傳統(tǒng)的開發(fā)方式無法滿足日益上升的需求,消費速度遠高于制作速度。需要AIGC填補供需間的差距。

但我們認為,更為關(guān)鍵的是,AI同樣提升了內(nèi)容的反饋生成速度,對于實時交互內(nèi)容有重大意義,具有將線下和真人的快速交互遷移到線上的可能,也即令A(yù)I承擔(dān)真人的社交、創(chuàng)作、協(xié)作功能,可能會出現(xiàn)新的潛在場景(如社交類和探索類游戲等)。

目前來看,內(nèi)容消費者變得更容易將現(xiàn)實情感需求投射在虛擬世界中,預(yù)計會產(chǎn)生許多深入實時的互動需求,市場規(guī)??捎^。

基于海量數(shù)據(jù)得到強創(chuàng)造性和開放性,有助于激發(fā)創(chuàng)意認知、提升內(nèi)容生產(chǎn)多樣性

相較于人類藝術(shù)家,AI能夠接觸借鑒更多的數(shù)據(jù),在基于prompt進行內(nèi)容生成后,AI創(chuàng)作的內(nèi)容會有更多的二次創(chuàng)造空間和自由度。

例如,生成算法能基于特定條件或完全隨機的生成現(xiàn)實中不存在的形狀、色彩搭配、圖案或結(jié)構(gòu)等,賦予內(nèi)容創(chuàng)作更多可能,產(chǎn)生“超現(xiàn)實感”及“未來感”,推動藝術(shù)創(chuàng)新。

對不同模態(tài)元素進行二次拆解組合,改變內(nèi)容生產(chǎn)邏輯及形式

通過語音克隆、編曲風(fēng)格提取等手段,AIGC能夠?qū)⒃腕w所對應(yīng)的不同模態(tài)信息進行拆解,例如演講者的面部形象、 聲音、演講內(nèi)容等。

在重新組合之后,能夠完成過往受到條件限制無法完成的工作。例如路人的聲音+專業(yè)的播音邏輯、 更符合特定審美的面部等,打破真人/真實場景在要素組合上具有的局限性。

和其他AI系統(tǒng)或數(shù)據(jù)庫進行聯(lián)動,有實現(xiàn)高度個性化/高頻優(yōu)化

在與特定的數(shù)據(jù)庫(例如實時更新的客戶數(shù)據(jù)、市場反饋數(shù)據(jù)、特定主題下的歷史統(tǒng)計數(shù)據(jù))或AI系統(tǒng)進行聯(lián)動后(如個性化推薦系統(tǒng)等),AIGC能夠在更為精準(zhǔn)的未來預(yù)測/個性化預(yù)測基礎(chǔ)上調(diào)整其生成內(nèi)容。

例如,根據(jù)用戶習(xí)慣調(diào)整內(nèi)容營銷文本、根據(jù)所處渠道風(fēng)格調(diào)整生成內(nèi)容、參考歷史數(shù)據(jù)優(yōu)化生成內(nèi)容等。

產(chǎn)業(yè)鏈分析方面,由于我國的AIGC行業(yè)尚未發(fā)展成型,我們在此基于自身理解,繪制了產(chǎn)業(yè)鏈分布圖。

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

目前,在上游,我國AIGC產(chǎn)業(yè)還有眾多欠缺,以數(shù)據(jù)標(biāo)注為重點體現(xiàn)。

我們認為,未來業(yè)務(wù)關(guān)聯(lián)的大公司收購可能會成為主流現(xiàn)象,或應(yīng)當(dāng)存在較明顯的大廠擴展業(yè)務(wù)趨勢。但大廠的業(yè)務(wù)擴展動機往往在于通過新賣點快速 獲取流量,優(yōu)化核心業(yè)務(wù),并不會過度關(guān)注AIGC本身業(yè)務(wù)價值的充分挖掘。

因此,在明確的新場景出來之前,我們認為這個行業(yè)更容易分散在不同的內(nèi)容消費場景下。

我們所分析的行業(yè)門檻及核心競爭力:

  • 無論是內(nèi)容還是延展領(lǐng)域,在產(chǎn)品上最終需要回到一體化解決方案服務(wù)能力
  • 回避大廠商后期的競爭壓力
  • 與行業(yè)的深度綁定關(guān)系
  • 構(gòu)建業(yè)務(wù)閉環(huán)

最后是我們基于此次調(diào)研所得出的六大關(guān)鍵結(jié)論:

 

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

 

完整報告可查看微信文章文末獲?。?/p>

—完—

@量子位 · 追蹤AI技術(shù)和產(chǎn)品新動態(tài)

深有感觸的朋友,歡迎贊同、關(guān)注、分享三連?’?’ ? ?

? 版權(quán)聲明

相關(guān)文章