亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

AIGC行業(yè)資訊2年前 (2023)發(fā)布 編輯員
3K 0

AIGC的核心技術(shù)有哪些?

1、基礎(chǔ)模型

模型名稱提出時(shí)間應(yīng)用場景
1、深度變分自編碼(VAE)2013年圖像生成、語音合成
2、生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN2014年圖像生成、語音合成
3、擴(kuò)散模型(Diffusion Model)2015年圖像生成
4、Transformer2017年語言模型
5、Vision Transformer(ViT)2020年視覺模型

(1)變分自編碼(Variational Autoencoder,VAE

變分自編碼器是深度生成模型中的一種,由Kingma等人在2014年提出,與傳統(tǒng)的自編碼器通過數(shù)值方式描述潛空間不同,它以概率方式對(duì)潛在空間進(jìn)行觀察,在數(shù)據(jù)生成方面應(yīng)用價(jià)值較高。

VAE分為兩部分,編碼器與解碼器。編碼器將原始高維輸入數(shù)據(jù)轉(zhuǎn)換為潛在空間的概率分布描述;解碼器從采樣的數(shù)據(jù)進(jìn)行重建生成新數(shù)據(jù)。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

VAE模型

如上圖所示,假設(shè)有一張人臉圖片,通過解碼器生成了多種特征,這些特征可以有“微笑”,“膚色”,“性別”,“胡須”,“眼鏡”,“頭發(fā)顏色”。傳統(tǒng)的自編碼器對(duì)輸入圖像編碼后生成的潛在特征為具體的數(shù)值,比如,微笑=0.5,膚色=0.8等,得到這些數(shù)值后通過解碼器解碼得到與輸入接近的圖像。也就是說該張人臉的信息已經(jīng)被存儲(chǔ)至網(wǎng)絡(luò)中,我們輸入此人臉,就會(huì)輸出一張固定的與該人臉相似的圖像。

我們的目標(biāo)是生成更多新的與輸入近似的圖像。因此,我們將每個(gè)特征都由概率分布來表示,假設(shè)“微笑”的取值范圍為0-5,“膚色”的取值范圍為0-10,我們?cè)诖朔秶鷥?nèi)進(jìn)行數(shù)值采樣可得到生成圖像的潛在特征表示,同時(shí),通過解碼器生成的潛在特征解碼得到生成圖像。

(2)生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN

2014年 Ian GoodFellow提出了生成對(duì)抗網(wǎng)絡(luò),成為早期最著名的生成模型。GAN使用零和博弈策略學(xué)習(xí),在圖像生成中應(yīng)用廣泛。以GAN為基礎(chǔ)產(chǎn)生了多種變體,如DCGAN,StytleGAN,CycleGAN等。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

GAN模型

GAN包含兩個(gè)部分:

  • 生成器:學(xué)習(xí)生成合理的數(shù)據(jù)。對(duì)于圖像生成來說是給定一個(gè)向量,生成一張圖片。其生成的數(shù)據(jù)作為判別器的負(fù)樣本。
  • 判別器:判別輸入是生成數(shù)據(jù)還是真實(shí)數(shù)據(jù)。網(wǎng)絡(luò)輸出越接近于0,生成數(shù)據(jù)可能性越大;反之,真實(shí)數(shù)據(jù)可能性越大。

如上圖,我們希望通過GAN生成一些手寫體來以假亂真。我們定義生成器與判別器:

  • 生成器:圖中藍(lán)色部分網(wǎng)絡(luò)結(jié)構(gòu),其輸入為一組向量,可以表征數(shù)字編號(hào)、字體、粗細(xì)、潦草程度等。在這里使用特定分布隨機(jī)生成。
  • 判別器:在訓(xùn)練階段,利用真實(shí)數(shù)據(jù)與生成數(shù)據(jù)訓(xùn)練二分類模型,輸出為0-1之間概率,越接近1,輸入為真實(shí)數(shù)據(jù)可能性越大。

生成器與判別器相互對(duì)立。在不斷迭代訓(xùn)練中,雙方能力不斷加強(qiáng),最終的理想結(jié)果是生成器生成的數(shù)據(jù),判別器無法判別是真是假。

以生成對(duì)抗網(wǎng)絡(luò)為基礎(chǔ)產(chǎn)生的應(yīng)用:圖像超分、人臉替換、卡通頭像生成等。

(3)擴(kuò)散模型(Diffusion Model,里程碑式模型

擴(kuò)散是受到非平衡熱力學(xué)的啟發(fā),定義一個(gè)擴(kuò)散步驟的馬爾科夫鏈,并逐漸向數(shù)據(jù)中添加噪聲,然后學(xué)習(xí)逆擴(kuò)散過程,從噪聲中構(gòu)建出所需的樣本。擴(kuò)散模型的最初設(shè)計(jì)是用于去除圖像中的噪聲。隨著降噪系統(tǒng)的訓(xùn)練時(shí)間越來越長且越來越好,可以從純?cè)肼曌鳛槲ㄒ惠斎?,生成逼真的圖片。

一個(gè)標(biāo)準(zhǔn)的擴(kuò)散模型分為兩個(gè)過程:前向過程與反向過程。在前向擴(kuò)散階段,圖像被逐漸引入的噪聲污染,直到圖像成為完全隨機(jī)噪聲。在反向過程中,利用一系列馬爾可夫鏈在每個(gè)時(shí)間步逐步去除預(yù)測噪聲,從而從高斯噪聲中恢復(fù)數(shù)據(jù)。

前向擴(kuò)散過程,向原圖中逐步加入噪聲,直到圖像成為完全隨機(jī)噪聲。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

前向擴(kuò)散

反向降噪過程,在每個(gè)時(shí)間步逐步去除噪聲,從而從高斯噪聲中恢復(fù)源數(shù)據(jù)。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

反向擴(kuò)散

擴(kuò)散模型的工作原理是通過添加噪聲來破壞訓(xùn)練數(shù)據(jù),然后通過逆轉(zhuǎn)這個(gè)噪聲過程來學(xué)習(xí)恢復(fù)數(shù)據(jù)。換句話說,擴(kuò)散模型可以從噪聲中生成連貫的圖像。

擴(kuò)散模型通過向圖像添加噪聲進(jìn)行訓(xùn)練,然后模型學(xué)習(xí)如何去除噪聲。然后,該模型將此去噪過程應(yīng)用于隨機(jī)種子以生成逼真的圖像。

下圖為向原始圖像中添加噪聲,使原始圖像成為隨機(jī)噪聲。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

添加噪聲

下圖為從噪聲中恢復(fù)的原始圖像的變種圖像。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

生成圖像

應(yīng)用:在擴(kuò)散模型(diffusion model)的基礎(chǔ)上產(chǎn)生了多種令人印象深刻的應(yīng)用,比如:

圖像超分、圖像上色、文本生成圖片、全景圖像生成等。

如下圖,中間圖像作為輸入,基于擴(kuò)散模型,生成左右視角兩張圖,輸入圖像與生成圖像共同拼接程一張全景圖像。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

生成全景圖像

產(chǎn)品與模型:在擴(kuò)散模型的基礎(chǔ)上,各公司與研究機(jī)構(gòu)開發(fā)出的代表產(chǎn)品如下:

  • DALL-E 2OpenAI 文本生成圖像,圖像生成圖像)

DALL-E 2由美國OpenAI公司在2022年4月發(fā)布,并在2022年9月28日,在OpenAI網(wǎng)站向公眾開放,提供數(shù)量有限的免費(fèi)圖像和額外的購買圖像服務(wù)。

如下圖,左圖像為原始圖像,右圖像為DALL-E 2所生成的油畫風(fēng)格的變種圖像。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

DALL-E 2生成的變種圖像
  • ImagenGoogle Research 文本生成圖像)

Imagen是2022年5月谷歌發(fā)布的文本到圖像的擴(kuò)散模型,該模型目前不對(duì)外開放。用戶可通過輸入描述性文本,生成圖文匹配的圖像。如下圖,通過prompt提示語“一只可愛的手工編織考拉,穿著寫著“CVPR”的毛衣”模型生成了考拉圖像,考拉采用手工編織,毛衣上寫著CVPR,可以看出模型理解了提示語,并通過擴(kuò)散模型生成了提示語描述圖像。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

“一只可愛的手工編織考拉,穿著寫著“CVPR”的毛衣”
  • Stable Diffusion(Stability AI 文本生成圖像,代碼與模型開源

2022年8月,Stability AI發(fā)布了Stable Diffusion ,這是一種類似于DALL-E 2與Imagen的開源Diffusion模型,代碼與模型權(quán)重均向公眾開放。

通過prompt提示語“郊區(qū)街區(qū)一棟房子的照片,燈光明亮的超現(xiàn)實(shí)主義藝術(shù),高度細(xì)致8K”,生成圖像如下,整體風(fēng)格與內(nèi)容鍥合度高,AI作畫質(zhì)量較高。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

“郊區(qū)街區(qū)一棟房子的照片,燈光明亮的超現(xiàn)實(shí)主義藝術(shù),高度細(xì)致8K”

(4)Transformer

2017年由谷歌提出,采用注意力機(jī)制(attention)對(duì)輸入數(shù)據(jù)重要性的不同而分配不同權(quán)重,其并行化處理的優(yōu)勢能夠使其在更大的數(shù)據(jù)集訓(xùn)練,加速了GPT等預(yù)訓(xùn)練大模型的發(fā)展。最初用來完成不同語言之間的翻譯。主體包括Encoder與Decoder分別對(duì)源語言進(jìn)行編碼,并將編碼信息轉(zhuǎn)換為目標(biāo)語言文本。

采用Transformer作為基礎(chǔ)模型,發(fā)展出了BERT,LaMDA、PaLM以及GPT系列。人工智能開始進(jìn)入大模型參數(shù)的預(yù)訓(xùn)練模型時(shí)代。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Transformer模型

(5)Vision Transformer (ViT)

2020年由谷歌團(tuán)隊(duì)提出,將Transformer應(yīng)用至圖像分類任務(wù),此后Transformer開始在CV領(lǐng)域大放異彩。ViT將圖片分為14*14的patch,并對(duì)每個(gè)patch進(jìn)行線性變換得到固定長度的向量送入Transformer,后續(xù)與標(biāo)準(zhǔn)的Transformer處理方式相同。

以ViT為基礎(chǔ)衍生出了多重優(yōu)秀模型,如SwinTransformer,ViTAE Transformer等。ViT通過將人類先驗(yàn)經(jīng)驗(yàn)知識(shí)引入網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),獲得了更快的收斂速度、更低的計(jì)算代價(jià)、更多的特征尺度、更強(qiáng)的泛化能力,能夠更好地學(xué)習(xí)和編碼數(shù)據(jù)中蘊(yùn)含的知識(shí),正在成為視覺領(lǐng)域的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)。以ViT為代表的視覺大模型賦予了AI感知、理解視覺數(shù)據(jù)的能力,助力AIGC發(fā)展。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Vision Transformer(ViT)

2、預(yù)訓(xùn)練大模型

雖然過去各種模型層出不窮,但是生成的內(nèi)容偏簡單且質(zhì)量不高,遠(yuǎn)不能夠滿足現(xiàn)實(shí)場景中靈活多變以高質(zhì)量內(nèi)容生成的要求。預(yù)訓(xùn)練大模型的出現(xiàn)使AIGC發(fā)生質(zhì)變,諸多問題得以解決。大模型在CV/NLP/多模態(tài)領(lǐng)域成果頗豐,并如下表的經(jīng)典模型。諸如我們熟知的聊天對(duì)話模型ChatGPT,基于GPT-3.5大模型發(fā)展而來。

計(jì)算機(jī)視覺(CV)預(yù)訓(xùn)練大模型自然語言處理(NLP)預(yù)訓(xùn)練大模型多模態(tài)預(yù)訓(xùn)練大模型
微軟Florence(SwinTransformer)谷歌Bert/LaMDA/PaLMOpenAICLIP/DALL-E
OpenAI的GPT-3/ChatGPT微軟的GLIP
Stability AI的Stable Diffusion

(1)計(jì)算機(jī)視覺(CV)預(yù)訓(xùn)練大模型

  • Florence

Florence是微軟在2021年11月提出的視覺基礎(chǔ)模型。Florence采用雙塔Transformer結(jié)構(gòu)。文本采用12層Transformer,視覺采用SwinTransformer。通過來自互聯(lián)網(wǎng)的9億圖文對(duì),采用Unified Contrasive Learning機(jī)制將圖文映射到相同空間中。其可處理的下游任務(wù)包括:圖文檢索、圖像分類、目標(biāo)檢測、視覺問答以及動(dòng)作識(shí)別。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Florence overview

(2)自然語言處理(NLP)預(yù)訓(xùn)練大模型

  • LaMDA

LaMDA是谷歌在2021年發(fā)布的大規(guī)模自然語言對(duì)話模型。LaMDA的訓(xùn)練過程分為預(yù)訓(xùn)練與微調(diào)兩步。在預(yù)訓(xùn)練階段,谷歌從公共數(shù)據(jù)數(shù)據(jù)中收集了1.56T數(shù)據(jù)集,feed給LaMDA,讓其對(duì)自然語言有初步認(rèn)識(shí)。

到這一步通過輸入prompt能夠預(yù)測上下文,但是這種回答往往不夠準(zhǔn)確,需要二次調(diào)優(yōu)。谷歌的做法是讓模型根據(jù)提問輸出多個(gè)回答,將這些回答輸入到分類器中,輸出回答結(jié)果的安全性Safety,敏感性Sensible,專業(yè)性Specific以及有趣性Interesting。根據(jù)這些指標(biāo)進(jìn)行綜合評(píng)價(jià),將評(píng)價(jià)從高分到低分進(jìn)行排列,從中挑選出得分最高的回答作為本次提問的答案。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

LaMDA對(duì)話系統(tǒng)原理圖
  • ChatGPT

ChatGPT是美國OpenAI公司在2022年11月發(fā)布的智能對(duì)話模型。截止目前ChatGPT未公開論文等技術(shù)資料。大多數(shù)的技術(shù)原理分析是基于InstructGPT分析。ChatGPT與GPT-3等對(duì)話模型不同的是,ChatGPT引入了人類反饋強(qiáng)化學(xué)習(xí)(HFRL:Human Feedback Reinforcement Learning)。

ChatGPT與強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)策略在AlphaGo中已經(jīng)展現(xiàn)出其強(qiáng)大學(xué)習(xí)能力。簡單的說,ChatGPT通過HFRL來學(xué)習(xí)什么是好的回答,而不是通過有監(jiān)督的問題-答案式的訓(xùn)練直接給出結(jié)果。通過HFRL,ChatGPT能夠模仿人類的思維方式,回答的問題更符合人類對(duì)話。

ChatGPT原理:舉個(gè)簡單的例子進(jìn)行說明,公司員工收到領(lǐng)導(dǎo)安排任務(wù),需完成一項(xiàng)工作匯報(bào)的PPT。當(dāng)員工完成工作PPT制作時(shí),去找領(lǐng)導(dǎo)匯報(bào),領(lǐng)導(dǎo)在看后認(rèn)為不合格,但是沒有清楚的指出問題在哪。員工在收到反饋后,不斷思考,從領(lǐng)導(dǎo)的思維方式出發(fā),重新修改PPT,提交領(lǐng)導(dǎo)查看。通過以上多輪反饋-修改后,員工在PPT制作上會(huì)更符合領(lǐng)導(dǎo)思維方式。而如果領(lǐng)導(dǎo)在第一次查看時(shí),直接告訴員工哪里有問題,該怎樣修改。那么,下一次員工所做的PPT很大概率還是不符合要求,因?yàn)椋瑳]有反饋思考,沒有HFRL,自然不會(huì)做出符合要求的工作。ChatGPT亦是如此。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

ChatGPT訓(xùn)練過程圖

ChatGPT能夠回答出好的問題與它的“領(lǐng)導(dǎo)”所秉持的價(jià)值觀有很大關(guān)系。因此,你的“點(diǎn)踩”可能會(huì)影響ChatGPT的回答。

ChatGPT的顯著特點(diǎn)如下:

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

ChatGPT特點(diǎn)

1)主動(dòng)承認(rèn)錯(cuò)誤:若用戶指出其錯(cuò)誤,模型會(huì)聽取,并優(yōu)化答案。

2)敢于質(zhì)疑:對(duì)用戶提出的問題,如存在常識(shí)性錯(cuò)誤,ChatGPT會(huì)指出提問中的錯(cuò)誤。如提出“哥倫布2015年來到美國時(shí)的情景”,ChatGPT會(huì)指出,哥倫布不屬于這一時(shí)代,并調(diào)整輸出,給出準(zhǔn)確答案。

3)承認(rèn)無知:對(duì)于非常專業(yè)的問題或超出安全性范圍,如果ChatGPT不清楚答案,會(huì)主動(dòng)承認(rèn)無知,而不會(huì)一本正經(jīng)的“胡說八道”。

4)支持連續(xù)多輪對(duì)話:ChatGPT能夠記住先前對(duì)話內(nèi)容,并展開多輪自然流暢對(duì)話。

(3)多模態(tài)預(yù)訓(xùn)練大模型

2021年美國OpenAI公司發(fā)布了跨模態(tài)預(yù)訓(xùn)練大模型CLIP,該模型采用從互聯(lián)網(wǎng)收集的4億對(duì)圖文對(duì)。采用雙塔模型比對(duì)學(xué)習(xí)訓(xùn)練方式進(jìn)行訓(xùn)練。CLIP的英文全稱是Contrastive Language-Image Pre-training,即一種基于對(duì)比文本-圖像對(duì)的預(yù)訓(xùn)練方法或者模型。

簡單說,CLIP將圖片與圖片描述一起訓(xùn)練,達(dá)到的目的:給定一句文本,匹配到與文本內(nèi)容相符的圖片;給定一張圖片,匹配到與圖片相符的文本。

怎樣進(jìn)行訓(xùn)練?

首先,采用Text-Encoder與Image-Encoder對(duì)文本與圖像進(jìn)行特征提取。Text-Encoder采用Text Transformer模型,Image-Encoder采用CNN或Vision Transformer(ViT)。

其次,這里對(duì)提取的文本特征和圖像特征進(jìn)行對(duì)比學(xué)習(xí)。對(duì)于一個(gè)包含?個(gè)文本-圖像對(duì)的訓(xùn)練batch,將?個(gè)文本特征和?個(gè)圖像特征兩兩組合,CLIP模型會(huì)預(yù)測出?2個(gè)可能的文本-圖像對(duì)的相似度,這里的相似度直接計(jì)算文本特征和圖像特征的余弦相似性(cosine similarity),即下圖所示的矩陣。這里共有?個(gè)正樣本,即真正屬于一對(duì)的文本和圖像(矩陣中的對(duì)角線元素),而剩余的?2??個(gè)文本-圖像對(duì)為負(fù)樣本,那么CLIP的訓(xùn)練目標(biāo)就是最大?個(gè)正樣本的相似度,同時(shí)最小化?2??個(gè)負(fù)樣本的相似度。

最后,訓(xùn)練模型,優(yōu)化目標(biāo)函數(shù)。完成訓(xùn)練,輸入文本經(jīng)模型預(yù)測輸出匹配圖片;輸入圖片經(jīng)模型預(yù)測輸出匹配文本。

有什么應(yīng)用?

1)跨模態(tài)檢索:如搜索中文本搜索圖片、文本搜索視頻,圖片搜索文本等。

2)跨模態(tài)內(nèi)容生成:文本生成圖片(DALL-E 2,Stable Diffusion等)、圖片生成標(biāo)題、圖片生成描述等。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

CLIP模型結(jié)構(gòu)
  • Stable Diffusion(Stablility AI)

Stable Diffusion是英國倫敦 Stability AI公司開源的圖像生成擴(kuò)散模型。Stable Diffusion的發(fā)布是AI圖像生成發(fā)展過程中的一個(gè)里程碑,相當(dāng)于給大眾提供了一個(gè)可用的高性能模型,不僅生成的圖像質(zhì)量非常高,運(yùn)行速度快,并且有資源和內(nèi)存的要求也較低。

Stable Diffusion從功能上來說主要包括兩個(gè)方面:

1)利用文本輸入來生成圖像(Text-to-Image)

2)對(duì)圖像根據(jù)文字描述進(jìn)行修改(輸入為文本+圖像)

具體原理是怎樣實(shí)現(xiàn)?下面以文本生成圖片進(jìn)行分析。

如下圖:Stable diffusion=Text Encoder+Image Generator

1) Text Encoder(文本特征提?。?/b>

我們知道,文本與圖片為兩個(gè)不同模態(tài)。要建立文本與圖片之間的匹配需要多模態(tài)模型,因此,需利用多模態(tài)預(yù)訓(xùn)練模型中的Text Encoder提取文本特征(與CLIP中的Text Encoder功能一致。)

之后,文本特征向量與隨機(jī)噪聲一并輸入Image Generator。

輸入:文本;

輸出:77*768向量(77個(gè)token,每個(gè)token 768維)。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Stable diffusion原理圖

2)Image Generator(圖像生成)

Image Generator=Image Information Creator+Image Decoder

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Stable diffusion原理圖

A:Image Information Creator(獨(dú)家秘方,領(lǐng)先的關(guān)鍵)

Image Information Creator=UNet+Scheduler

相比之前的模型,它的很多性能增益都是在這里實(shí)現(xiàn)的。該組件運(yùn)行多個(gè)steps來生成圖像信息,通常默認(rèn)為50或100。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Stable diffusion原理圖

整個(gè)運(yùn)行過程是step by step的,每一步都會(huì)增加更多的相關(guān)信息。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Stable diffusion原理圖

整個(gè)diffusion過程包含多個(gè)steps,其中每個(gè)step都是基于輸入的latents矩陣進(jìn)行操作,并生成另一個(gè)latents矩陣以更好地貼合「輸入的文本」和從模型圖像集中獲取的「視覺信息」。將這些latents可視化可以看到這些信息是如何在每個(gè)step中相加的。

AIGC的核心技術(shù)有哪些?ChatGPT訓(xùn)練過程圖 ChatGPT原理

Stable diffusion原理圖

由上圖可以看到,圖像從噪聲中生成的全過程,從無到有,到每一步的變化,生成細(xì)微差異的圖像。

B:Image Decoder

Image Decoder對(duì)處理過的信息矩陣進(jìn)行解碼,輸出生成圖像。

輸入:處理過的信息矩陣,維度為(4, 64, 64)

輸出:結(jié)果圖像,各維度為(3,512,512)

Stable Diffusion是一款功能強(qiáng)大、免費(fèi)且開源的文本到圖像生成器。不僅完全開放了圖片版權(quán),甚至開放了源代碼,并允許用戶免費(fèi)使用該工具,允許后繼的創(chuàng)業(yè)者們使用開源框架構(gòu)建起更加開放而強(qiáng)大的內(nèi)容生成大生態(tài)。

“Stable Diffusion最初采用4000臺(tái)A100的顯卡訓(xùn)練,這些顯卡價(jià)值不菲(每臺(tái)價(jià)格一至兩萬美元),很難想象他們有著怎樣的財(cái)力,抱著怎樣的理念,或者說為人們做貢獻(xiàn)的精神去把這個(gè)東西放出來的。它的價(jià)值之高,對(duì)業(yè)界的影響之大,說是AI革命都不過分?!?/p>

? 版權(quán)聲明

相關(guān)文章