AIGC報告:未來已來,AI如何賦能傳媒行業(yè)
ChatGPT火爆的背后 算法革新+算力支持+數(shù)據(jù)共振
ChatGPT火爆全球,成為現(xiàn)象級互聯(lián)網(wǎng)產(chǎn)品
ChatGPT是一個由OpenAI開發(fā)的大型語言模型,它使用自然語言處理和深度學習技術,可以理解語言內容和語境,能夠承認錯 誤、挑戰(zhàn)不正確的前提、拒絕不適當?shù)恼埱?,通過生成自然語言文本的形式與用戶交互,從而能夠應用于各種語言任務和應用。
從AlphaGo到ChatGPT,AI技術發(fā)展叩響AGI之門
AlphaGo喚起AGI暢想。AlphaGo的成功使市場對AI 技術產(chǎn)生空前期待,預想AI將由專用人工智能(ANI)走 向通用人工智能(AGI),實現(xiàn)人類同等能力的任務執(zhí)行。 AGI遇技術難關,發(fā)展相對停滯。隨后幾年間面向AGI 的應用和底層技術的發(fā)展不盡如人意,遇數(shù)據(jù)、能耗、 語義理解、可解釋性等瓶頸,技術未出現(xiàn)明顯突破。
ChatGPT文本交互能力更上一個臺階。ChatGPT在文字 創(chuàng)作與語言交互等方面的能力令人驚喜,一定程度上實 現(xiàn)了人類同等能力,提升讀寫效率,逐漸向AIGC靠近。 或為AGI實現(xiàn)帶來曙光。雖然在大量用戶體驗下 ChatGPT仍暴露出部分反饋偏差問題,但驗證了基于大 型語言模型(LLM)實現(xiàn)AGI具有可能性,重塑AI發(fā)展前景。
OpenAI商業(yè)化探索,B端流量收費與C端訂閱收費并行
B端:提供API接口實施流量收費。 OpenAI向用戶提供語言、圖像、音頻等不同類型模型的API 接口,通過用戶使用模型的流量收費。其中ChatGPT對應API 由其背后的AI模型gpt-3.5-turbo提供支持。 此外,OpenAI還向用戶提供嵌入模型和微調模型,支持用戶 根據(jù)自定義需求進行模型定制。
C端:提供產(chǎn)品訂閱服務收取費用。 OpenAI于2023年2月新推出ChatGPT Plus版本,對該版本的 使用者收取20美元/月的訂閱費用。ChatGPT Plus版本較免費 公開使用的ChatGPT模型具有更快的響應速度,在應用高峰期 能更順暢的使用模型,且訂閱者能夠優(yōu)先使用新功能,以向 ChatGPT模型的深度用戶提供更快捷的服務。
數(shù)字內容生產(chǎn)新方式 AIGC
AIGC:產(chǎn)業(yè)鏈逐步形成,玩家百花齊放,商業(yè)模式持續(xù)探索
以ChatGPT為代表的AIGC行業(yè),上游主要包括數(shù)據(jù)供給方、算法/模型機構、創(chuàng)作者生態(tài)以及底層配合工具等, 中游主要包括文字、圖像、音頻、視頻等數(shù)字內容的處理加工方,下游主要是各類數(shù)字內容分發(fā)平臺、消費方及相關服務機構等。
文本生成:NLP重要任務標之一,神經(jīng)網(wǎng)絡生成法為主流趨勢
文本生成(Text Generation)是自然語言處理(NLP)的重要任務之一,從非語言的表示生成人類可以理解的文本,文本→文本、 數(shù)據(jù)→文本都是文本生成任務關注的。
文本生成:Transformer架構實現(xiàn)并行處理,提升模型訓練效率
RNN架構局限在于無法并行運算。RNN計算是有時序依賴的,需要用到前一個時間步或者后一個時間步的信息,這導致它難 以并行計算,只能串行計算。GPU的并行化能夠大大加速計算過程,如果模型不能夠并行計算,會導致運算速度很低。
Transformer架構引入Self-attention自注意力機制可取代RNN。2017年,Google發(fā)布《Attention is All You Need》Transformer模型通過采用Self-Attention 自注意力機制,完全拋棄了傳統(tǒng)RNN在水平方向的傳播,只在垂直方向上傳播,只需要不斷 疊加Self-Attention層即可。這樣,每一層的計算都可以并行進行,可以使用GPU進行加速。
音頻生成:TTS應用發(fā)展成熟,AI樂曲創(chuàng)作未來可期
音頻生成主要應用于流行歌曲、樂曲、有聲書的內容創(chuàng)作,以及視頻、游戲、影視等領域的配樂創(chuàng)作,目前在眾多場景已獲 初步發(fā)展,在部分場景已廣泛應用、趨于成熟。常見音頻生成中,TTS文字轉語音是最普遍使用的落地應用,而創(chuàng)意性音頻 生成有助于激發(fā)創(chuàng)作者靈感,促進樂曲二創(chuàng)、輔助編曲。
圖像生成:從GAN到Diffusion,技術持續(xù)迭代,能力更進一竿
生成式對抗網(wǎng)絡(GAN)的提出標志著AIGC圖像生成可實現(xiàn),進入快速發(fā)展階段。GAN由生成器和判別器兩部分組成,生成器 將抓取數(shù)據(jù)、產(chǎn)生新的生成數(shù)據(jù),并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。這一過程將反復進行,直到判別器無法以超50%的 準確度分辨出真實樣本。
擴散模型(Diffusion Model)成為圖像生成領域的重要發(fā)現(xiàn),有望超越GAN,成為新一代圖像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名聲大噪,目前Google的Imagine與OpenAI的 DALL·E 2等熱門圖像生成軟件都基于此模型。
Diffusion Model簡化模型訓練過程中數(shù)據(jù)處理的難度,解決了GAN穩(wěn)定性問題,提高生成圖片的質量。Diffusion模型的工作 原理是通過逐漸添加高斯噪聲來破壞訓練數(shù)據(jù)。通過一張神經(jīng)網(wǎng)絡“生成器”來進行逆轉破壞過程(去噪),從純噪聲中合成數(shù)據(jù), 直到產(chǎn)生干凈的樣本。GAN模型在訓練過程中需要兩張神經(jīng)網(wǎng)絡“生成器”與“判別器”,穩(wěn)定性很難平衡,而Diffusion Model只有 一張神經(jīng)網(wǎng)絡,解決了穩(wěn)定性問題,同時簡化了數(shù)據(jù)處理過程,且更加靈活。
圖像生成:圖像屬性編輯普遍應用,創(chuàng)意圖像生成應用落地較少
圖像生成可簡要劃分為圖像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。其中,前兩者的落地場景為圖像編輯工 具,而端到端的圖像生成則對應創(chuàng)意圖像及功能性圖像生成兩大落地場景。圖像屬性編輯大量應用落地,圖像局部生成及更高 目前有部分應用落地,端到端圖像生成底層原理明確,未來有望規(guī)模化應用。
由于圖像的生成復雜度遠高于文字,在整體生成上,目前仍然難以達到穩(wěn)定可靠的生成高質量圖像。但隨著GAN、Diffusion Model等模型的不斷迭代,圖像生成發(fā)展將非??焖?。
視頻生成:分幀生成圖像連接成視頻,視頻屬性編輯已普遍應用
視頻生成強調將視頻切割成幀,再對每一幀的圖像進行處理,與圖像生成原理類似。視頻生成難度遠高于圖像生成,生成視頻 的質量與流暢度取決于很多因素,包括數(shù)據(jù)集規(guī)模、訓練模型復雜度、特征提取準確性以及合成視頻算法有效性;由于模型訓 練量要求過大,目前模型只能實現(xiàn)幾秒鐘的短視頻生成,未來有望隨著模型的迭代實現(xiàn)中視頻和長視頻的生成。 視頻生成應用場景主要包括視頻屬性編輯、視頻自動剪輯、視頻部分編輯,前者已大量應用,后兩者還處于技術嘗試階段。
跨模態(tài)生成:目前未大規(guī)模落地,文字生成圖像取得突破
跨模態(tài)生成是指將一種模態(tài)轉換成另一種模態(tài),同時保持模態(tài)間語義一致性。主要集中在文字生成圖片、文字生成視頻及圖片 /視頻生成文字。 文字生成圖片:2022年被稱為“AI繪畫“之年,多款模型軟件證明基于文字提示得到效果良好的圖畫的可行性,Diffusion Model受到廣泛關注。 文字生成視頻:普遍以Token為中介,關聯(lián)文本和圖像生成,逐幀生成所需圖片,最后逐幀生成完整視頻。但由于視頻生成會面臨不同幀之間連 續(xù)性的問題,對生成圖像間的長序列建模問題要求更高,以確保視頻整體連貫流程。按技術生成難度和生成內容,可區(qū)分為拼湊式生成和完全從 頭生成。 圖片/視頻生成文字:具體應用包括視覺問答系統(tǒng)、配字幕、標題生成等,這一技術還將有助于文本—圖像之間的跨模態(tài)搜索。代表模型包括 METER、ALIGN等。
策略生成:主要應用展望在游戲行業(yè),其余場景發(fā)展較緩
策略生成是指生成一個可以在給定環(huán)境下執(zhí)行任務的算法。普遍采用深度強化學習技術(早期曾采用決策樹及監(jiān)督學習),其本 質原理是讓AI感知環(huán)境、自身狀態(tài)并基于特定目標決定當下需要執(zhí)行的動作,然后基于下一個狀態(tài)給到系統(tǒng)的反饋進行獎勵或 懲罰,最終使系統(tǒng)在不斷的“強化”過程中優(yōu)化“策略”。 策略生成可應用于游戲智能(Game AI)、虛擬人交互、機器人控制、智慧交通等領域。 游戲智能是決策生成目前應用最為廣泛和明確的場景。由于游戲本身存在于計算機虛擬環(huán)境,并產(chǎn)生大量數(shù)據(jù),因此游戲本身 為AI提供了極佳的研發(fā)場景;而在其他業(yè)務場景中,還需先搭建能夠充分還原現(xiàn)實因素的虛擬環(huán)境,并合理設置Reward等關 鍵因素,目前距離現(xiàn)實應用較遠。國內多家AI企業(yè)已在嘗試這一方向,但如何精準完成環(huán)境學習仍然具有關鍵意義。
新時代生產(chǎn)力工具, AIGC賦能內容生產(chǎn)
AIGC+游戲:高效輔助游戲測試,保證質量并降低成本
游戲測試通常是游戲開發(fā)周期中的一大關鍵 環(huán)節(jié),其目的是保證游戲質量,減少發(fā)布后 的風險,并為玩家提供更好的游戲體驗。在 游戲測試中,測試人員將會對不同的測試目 標使用不同的測試技術,就游戲玩法、游戲 流程內容、游戲系統(tǒng)、機型適配等進行測試, 記錄游戲中發(fā)現(xiàn)的問題,并通過管理工具報 告Bug,向開發(fā)人員反饋問題。
伴隨游戲生產(chǎn)量的增長以及游戲復雜度的提 高,游戲測試的需求爆發(fā),而AI可以在游戲 測試中執(zhí)行一些自動化任務,如執(zhí)行基本的 功能測試、性能測試、兼容性測試等,以實 現(xiàn)更高效地測試。但AI目前還無法像人類測 試人員那樣進行用戶體驗、情感反饋等測試。
AIGC+廣告營銷:加快案頭工作效率,提供廣告營銷思路
AI技術支持能快速縮短耗時,較大提升前期準備效率。前期準備過程中時間占比70%的資料收集整理等案頭工作可通過ChatGPT等模型抓取大數(shù)據(jù)縮短耗時;占比20%的調研訪談、頭 腦風暴產(chǎn)生靈感等創(chuàng)意工作可以通過AI運算快速實現(xiàn)。
AIGC+互聯(lián)網(wǎng):AIGC激活內容平臺,互為供給加速發(fā)展
互聯(lián)網(wǎng)內容平臺將作為重要數(shù)據(jù)來源。圖文 內容社區(qū)的內容庫可以作為大語言模型的語 料庫,提高模型自主學習和深度挖掘能力。 這樣,無論是知乎用戶10年前的回答,還是 小紅書用戶的冷門筆記,抑或是豆瓣上的海 量書評、影評,都可以被AI有效地檢索、利 用和生成,展現(xiàn)出新的價值。
AIGC將成為平臺重要的內容形式。AI技術 將顯著降低內容制作門檻,提高內容制作效 率,增加內容供給,如今已有不少內容創(chuàng)作 者利用AI輔助生成圖文,視頻及音頻內容, 同時也有AI直接生成的內容,未來AIGC有望 成為內容平臺供給的重要形式。
AIGC+娛樂:開啟元宇宙之匙,基礎設施拔地而起
AIGC在元宇宙內容生產(chǎn)方面發(fā)揮了重要作用:元宇宙旨在構建用戶的第二空間,為了讓用戶獲得沉 浸式的體驗,內容生產(chǎn)者需要提供各種類型的虛擬內容。與第一空間不同的是,元宇宙內的內容是 原生的,能夠刺激用戶的全感官。在這樣的背景下,僅靠PGC和UGC產(chǎn)生的內容數(shù)量遠遠不足以支 撐一個完整的第二空間。因此,AI協(xié)助內容生產(chǎn)成為必然趨勢。大量個性化、多元化的數(shù)字內容將 顯著提升用戶體驗。
數(shù)字人是元宇宙的關鍵要素:數(shù)字人是元宇宙中最早落地的應用場景之一,也是連接用戶情感與VR、 AR等硬件設備的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占據(jù)核心位置,那么數(shù)字 人可被看作是元宇宙的關鍵要素。
AIGC是元宇宙中用戶交互界面的重要組成部分:在元宇宙中,智能NPC可以由AIGC生成并驅動,而 ChatGPT則可以作為語言模型集成到智能體中,使它們成為元宇宙中逼真的虛擬助手或伙伴,能夠執(zhí) 行“智能”動作和復雜任務。
報告節(jié)選:
(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)
精選報告來源:【未來智庫】。