生成式人工智能Generative Artificial Intelligence

什么是生成式人工智能?

生成式人工智能Generative artificial intelligence,簡稱:GAI)又稱AIGC“(Artificial Intelligence Generated Content,即人工智能生產(chǎn)的內(nèi)容。)”是利用復(fù)雜的算法、模型和規(guī)則,從大規(guī)模數(shù)據(jù)集中學(xué)習(xí),以創(chuàng)造新的原創(chuàng)內(nèi)容的人工智能技術(shù)。這項技術(shù)能夠創(chuàng)造文本、圖片、聲音、視頻和代碼等多種類型的內(nèi)容,全面超越了傳統(tǒng)軟件的數(shù)據(jù)處理和分析能力。生成式人工智能是人工智能1.0時代進入2.0時代的重要標志。

GAN、CLIP、Transformer、Diffusion、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)、生成算法等技術(shù)的累積融合,催生了AIGC的爆發(fā)。算法不斷迭代創(chuàng)新、預(yù)訓(xùn)練模型引發(fā)AIGC技術(shù)能力質(zhì)變,多模態(tài)推動AIGC內(nèi)容多邊形,使得AIGC具有更通用和更強的基礎(chǔ)能力。

從計算智能、感知智能再到認知智能的進階發(fā)展來看,AIGC已經(jīng)為人類社會打開了認知智能的大門。通過單個大規(guī)模數(shù)據(jù)的學(xué)習(xí)訓(xùn)練,令A(yù)I具備了多個不同領(lǐng)域的知識,只需要對模型進行適當?shù)恼{(diào)整修正,就能完成真實場景的任務(wù)。

AIGC對于人類社會、人工智能的意義是里程碑式的。短期來看AIGC改變了基礎(chǔ)的生產(chǎn)力工具,中期來看會改變社會的生產(chǎn)關(guān)系,長期來看促使整個社會生產(chǎn)力發(fā)生質(zhì)的突破,在這樣的生產(chǎn)力工具、生產(chǎn)關(guān)系、生產(chǎn)力變革中,生產(chǎn)要素——數(shù)據(jù)價值被極度放大。

AIGC數(shù)據(jù)要素提到時代核心資源的位置,在一定程度上加快了整個社會的數(shù)字化轉(zhuǎn)型進程。

2022年末,OpenAI推出的ChatGPT標志著這一技術(shù)在文本生成領(lǐng)域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術(shù)從單一的語言生成逐步向多模態(tài)、具身化快速發(fā)展。在圖像生成方面,生成系統(tǒng)在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術(shù)也在迅速發(fā)展,這為虛擬現(xiàn)實和元宇宙的實現(xiàn)提供了新的途徑。生成式人工智能技術(shù)在各行業(yè)、各領(lǐng)域都具有廣泛的應(yīng)用前景。

2023年12月26日,生成式人工智能入選“2023年度十大科技名詞”。

2024年4月,在瑞士舉行的第27屆聯(lián)合國科技大會上,世界數(shù)字技術(shù)院(WDTA)發(fā)布了《生成式人工智能應(yīng)用安全測試標準》和《大語言模型安全測試方法》兩項國際標準,是由OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、英偉達、百度、騰訊等數(shù)十家單位的多名專家學(xué)者共同編制而成。

在過去幾年中,機器學(xué)習(xí)領(lǐng)域取得了迅猛進步,創(chuàng)造了人工智能的一個新的子領(lǐng)域:生成式人工智能。這些程序通過分析大量的數(shù)字化材料產(chǎn)生新穎的文本、圖像、音樂和軟件,我將這些程序簡稱為“GAIs”。

生成式AI革命開始

第一波GAIs主要致力于進行自然語言對話。被稱為“大型語言模型”(LLMs)的這些模型已經(jīng)展示出在各種任務(wù)上超凡的表現(xiàn),擁有超越人類的能力,同時也顯示出對虛假、不合邏輯的傾向,以及表達虛假情感的傾向,比如對對話者表達愛意。它們用通俗的語言與用戶交流,并輕松解決各種復(fù)雜問題。

但這只是GAI革命的開始。支撐GAIs的技術(shù)是相當通用的,任何可以收集和準備進行處理的數(shù)據(jù)集,GAIs都能夠?qū)W習(xí),這在現(xiàn)代數(shù)字世界是一個相對簡單的任務(wù)。

AGI vs GAI

AGI(人工通用智能)與GAI(生成式人工智能)不可混淆,AGI一直是科學(xué)家們世代追求的幻想,更不用說無數(shù)科幻電影和書籍了。值得注意的是,答案是“有條件的肯定”。在實際應(yīng)用中,這些系統(tǒng)是多才多藝的“合成大腦”,但這并不意味著它們具有人類意義上的“思想”。它們沒有獨立的目標和欲望、偏見和愿望、情感和感覺:這些是獨特的人類特征。但是,如果我們用正確的數(shù)據(jù)對它們進行訓(xùn)練并指導(dǎo)它們追求適當?shù)哪繕?,這些程序可以表現(xiàn)得好像具有這些特征一樣。

v2-28e10993ed7dda07c05e0d5b206e0514_1440w.webp

GAIs vs 早期構(gòu)建智能機器

GAIs可以被指示執(zhí)行(或至少描述如何執(zhí)行)你幾乎能想到的任何任務(wù)……盡管它們可能會耐心地解釋,它們是萬事通,也是大多數(shù)領(lǐng)域的專家。

v2-58bbb57b92b169b903af6c4762b68b25_1440w.webp
  • LLMs只是進行統(tǒng)計單詞預(yù)測,根據(jù)你提供的提示的上下文選擇下一個最有可能的單詞。但這種描述充其量是過于簡化了,并掩蓋了更深層次的真相。
  • LLMs是在大量信息的基礎(chǔ)上進行訓(xùn)練的。它們處理并壓縮其龐大的訓(xùn)練集,形成一種被稱為神經(jīng)網(wǎng)絡(luò)的緊湊表示,但該網(wǎng)絡(luò)不僅僅代表單詞——它代表了它們的意義,以一種稱為嵌入的巧妙形式表達出來。

LLM了解其“世界”(在訓(xùn)練階段);然后,它評估您提示的含義,選擇其答案的含義,并將該含義轉(zhuǎn)換為單詞。

人工智能的歷史

什么是人工智能?

這是一個容易問出但難以回答的問題,有兩個原因。首先,對于智能是什么,人們幾乎沒有達成共識。其次,憑借目前的情況,很少有理由相信機器智能與人類智能有很大的關(guān)系,即使看起來很像。

v2-5ce5b9777b9c7a54e9d86be8ae18e6a7_1440w.webp

人工智能(AI)有許多提議的定義,每個定義都有其自己的側(cè)重點,但大多數(shù)都大致圍繞著創(chuàng)建能夠表現(xiàn)出人類智能行為的計算機程序或機器的概念。學(xué)科的奠基人之一約翰·麥卡錫(John McCarthy)在1955年描述了這一過程,“就像制造一臺機器以人類的方式行為一樣”。

術(shù)語“人工智能”起源于何處?

“人工智能”一詞的首次使用可以歸因于一個特定的個人——約翰·麥卡錫(John McCarthy),他是一位1956年在新罕布什爾州漢諾威達特茅斯學(xué)院(Dartmouth College)的助理數(shù)學(xué)教授。與其他三位更資深的研究人員(哈佛大學(xué)的馬文·明斯基、IBM的內(nèi)森·羅切斯特和貝爾電話實驗室的克勞德·香農(nóng))一起,麥卡錫提議在達特茅斯舉辦一次關(guān)于這個主題的夏季會議。

早期人工智能研究者是如何解決這個問題的?

在達特茅斯會議之后,對該領(lǐng)域的興趣(以及某些領(lǐng)域?qū)λ姆磳Γ┭杆僭鲩L。研究人員開始著手各種任務(wù),從證明定理到玩游戲等。一些早期的突破性工作包括阿瑟·塞繆爾(Arthur Samuel)于1959年開發(fā)的跳棋程序。

當時許多演示系統(tǒng)都專注于所謂的“玩具問題”,將其適用性限制在某些簡化或自包含的世界中,如游戲或邏輯。這種簡化在一定程度上受到當時有限的計算能力的驅(qū)使,另一方面也因為這并不涉及收集大量相關(guān)數(shù)據(jù),而當時電子形式的數(shù)據(jù)很少。

機器學(xué)習(xí)是什么?

從其早期起源開始,人工智能研究人員就認識到學(xué)習(xí)能力是人類智能的重要組成部分。問題是人們是如何學(xué)習(xí)的?我們能否以與人類相同的方式,或至少與人類一樣有效地編寫計算機來學(xué)習(xí)?

v2-5b07dd32d4fd68e7459c8bfa38753cf4_1440w.webp

在機器學(xué)習(xí)中,學(xué)習(xí)是中心問題——顧名思義。說某物被學(xué)習(xí)了意味著它不僅僅被捕捉并存儲在數(shù)據(jù)庫中的數(shù)據(jù)一樣——它必須以某種方式表示出來,以便可以加以利用。一般來說,學(xué)習(xí)的計算機程序會從數(shù)據(jù)中提取模式。

生成式人工智能(AIGC)的原理

大型語言模型(LLMs)

大型語言模型(LLMs)是一種生成人工智能系統(tǒng),用于以純文本形式生成對問題或提示的回應(yīng)。這些系統(tǒng)使用專門的多層次和多方面的神經(jīng)網(wǎng)絡(luò),在非常大的自然語言文本集合上進行訓(xùn)練,通常從互聯(lián)網(wǎng)和其他合適的來源收集而來。

基礎(chǔ)模型

訓(xùn)練一個LLM可能非常耗時和昂貴——如今,最常見的商業(yè)可用系統(tǒng)在數(shù)千臺強大處理器上同時訓(xùn)練數(shù)周,耗資數(shù)百萬美元。但不用擔(dān)心,這些程序通常被稱為“基礎(chǔ)模型”,具有廣泛的適用性和長期的使用壽命。它們可以作為許多不同類型的專業(yè)LLM的基礎(chǔ),盡管直接與它們交互也是完全可能的(而且很有用和有趣)。

v2-551143831fabc80b6a4bca35e2dfaaeb_1440w.webp

人類反饋強化學(xué)習(xí)

LLM完成了對大型文本語料庫的“基礎(chǔ)訓(xùn)練”后,就要進入“修身養(yǎng)性”的階段。這包括向它提供一系列示例,說明它應(yīng)該如何禮貌地和合作地回答問題(響應(yīng)“提示”),以及最重要的是,它不被允許說什么(當然,這充滿了反映其開發(fā)者態(tài)度和偏見的價值判斷)。與初始訓(xùn)練步驟形成對比,初始訓(xùn)練步驟大多是自動化過程,這個社交化步驟是通過所謂的人類反饋強化學(xué)習(xí)(RLHF)來完成的。RLHF就是其名,人類審查LLM對一系列可能引起不當行為的提示的反應(yīng),然后一個人向它解釋回應(yīng)的問題(或禁止的內(nèi)容),幫助LLM改進。

v2-4ba9b9fe3014537864354222e5275651_1440w.webp

模型輸入與輸出

完成訓(xùn)練后,LLM接受用戶(你)的提示或問題作為輸入,然后對其進行轉(zhuǎn)換,并生成一個回應(yīng)。與訓(xùn)練步驟相比,這個過程快速而簡單。但是它是如何將你的輸入轉(zhuǎn)換為回應(yīng)的呢?

v2-3567f73a523fd1e81543559b7bf15fd1_1440w.webp

它們將這種“猜測下一個詞”的技術(shù)擴展到更長的序列上。然而,重要的是要理解,分析和猜測實際上不是在詞本身上進行的;而是在所謂的標記上進行的——它們代表詞的部分,并且這些標記進一步以“嵌入”形式表達,旨在捕捉它們的含義

大型語言模型(LLMs)如何工作?

簡化的單詞級解釋忽略了LLMs如何在我們今天的計算機類別中表示這些大量的單詞集合。在任何現(xiàn)有或想象中的未來計算機系統(tǒng)中,存儲數(shù)千個單詞的所有可能序列都是不現(xiàn)實的:與之相比,這些序列的數(shù)量使得宇宙中的原子數(shù)量看起來微不足道。因此,研究人員重新利用了神經(jīng)網(wǎng)絡(luò)的試驗和真實方法,將這些巨大的集合減少為更易管理的形式。

神經(jīng)網(wǎng)絡(luò)最初被應(yīng)用于解決分類問題——決定某物是什么。例如,您可能會輸入一張圖片,網(wǎng)絡(luò)將確定它是否是狗還是貓的圖像。為了有用,神經(jīng)網(wǎng)絡(luò)必須以一種使相關(guān)的輸入產(chǎn)生相似結(jié)果的方式壓縮數(shù)據(jù)。

什么是“嵌入”?

LLMs將每個單詞表示為一種特定形式的向量(列表),稱為嵌入。嵌入將給定的單詞轉(zhuǎn)換為具有特殊屬性的向量(有序數(shù)字列表):相似的單詞具有相似的向量表示。想象一下,“朋友”,“熟人”,“同事”和“玩伴”這些詞的嵌入。目標是,嵌入應(yīng)該將這些單詞表示為彼此相似的向量。這通過代數(shù)組合嵌入來促進某些類型的推理。

v2-1a4757fe08ceeffe3af8829473a53a7e_1440w.webp

單詞嵌入的一個缺點是它們并不固有地解決多義性的問題——單詞具有多個含義的能力。處理這個問題有幾種方法。例如,如果訓(xùn)練語料庫足夠詳細,單詞出現(xiàn)的上下文將傾向于聚合成統(tǒng)計簇,每個簇代表同一個單詞的不同含義。這允許LLM以模棱兩可的方式表示單詞,將其與多個嵌入相關(guān)聯(lián)。多義性的計算方法是一個持續(xù)研究的領(lǐng)域。

單詞嵌入是如何表示含義的?

當您想知道一個詞的含義時,您會怎么做?當然是查字典。在那里,您會找到什么?關(guān)于詞義的描述,當然是用詞語表達的。您讀了定義后相信您理解了一個詞的含義。換句話說,就是,通過與其他單詞的關(guān)系來表示單詞的含義通常被認為是語義的一種滿意的實際方法。

當然,有些詞確實指的是現(xiàn)實世界中的真實事物。但是,如果您只是在單詞的領(lǐng)域內(nèi)工作,那么事實證明這并不像您想象的那么重要。在相互關(guān)聯(lián)的定義的混亂中有太多的內(nèi)在結(jié)構(gòu),以至于您關(guān)于給定單詞的幾乎所有需要知道的東西都可以通過它與其他單詞的關(guān)系來編碼。

人工神經(jīng)網(wǎng)絡(luò)(ANN)

人工神經(jīng)網(wǎng)絡(luò)(ANN)是受到真實神經(jīng)網(wǎng)絡(luò)的某些假定組織原則啟發(fā)的計算機程序,簡而言之,就是生物大腦。盡管如此,人工神經(jīng)網(wǎng)絡(luò)與真實神經(jīng)網(wǎng)絡(luò)之間的關(guān)系大多是希望的,因為對大腦實際功能了解甚少。

人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元通常組織成層。底層也稱為“輸入”層,因為我們要將要分類的圖片輸入到這里?,F(xiàn)在就像真正的神經(jīng)元一樣,我們必須表示每個輸入神經(jīng)元是否被激活(“發(fā)射”)或不被激活。其他內(nèi)部層是行動發(fā)生的地方。這些被稱為“隱藏”層,因為它們夾在輸入層和輸出層之間。每個隱藏層中的神經(jīng)元與它們上面和下面的層中的所有神經(jīng)元相連。這些相互連接被建模為數(shù)值權(quán)重,例如,零表示“未連接”,一表示“強連接”,負一表示負連接。

v2-835ad7f3f59f9135c92feb0dadffbaaf_1440w.webp

神經(jīng)網(wǎng)絡(luò)的工作原理如下:我們根據(jù)要分類的圖片設(shè)置輸入(底層)級別的神經(jīng)元的值。然后對于上一級的每個神經(jīng)元,我們通過計算下一級神經(jīng)元與較低級神經(jīng)元之間的連接的權(quán)重乘積來計算其激活值。我們繼續(xù)這個過程,從每一級橫跨,然后向上一級工作。當我們到達頂部時,如果一切都按預(yù)期進行,頂層的一個神經(jīng)元將被高度激活,而另一個不會,這就給了我們答案。

Transformer

Transformer是一種特殊類型的神經(jīng)網(wǎng)絡(luò),通常用于大型語言模型(LLM)。當一個Transformer模型被給予一句話進行處理時,它不會單獨查看每個單詞。相反,它一次查看所有單詞,并為每對單詞計算一個“注意分數(shù)”。注意分數(shù)確定了句子中每個單詞應(yīng)該對其他每個單詞的解釋產(chǎn)生多大影響。

v2-91db435295f130c257d5ff68079726af_1440w.webp

例如,如果句子是“貓坐在墊子上”,當模型處理單詞“坐”時,它可能會更多地關(guān)注單詞“貓”(因為“貓”是坐的對象),而對單詞“墊子”關(guān)注較少。但是當處理單詞“上”時,它可能會更多地關(guān)注“墊子”。

當你要求LLM回答問題時,類似的過程也會發(fā)生。LLM首先將您的單詞轉(zhuǎn)換為嵌入,就像它對其訓(xùn)練示例所做的那樣。然后,它以相同的方式處理您的詢問,使其能夠?qū)W⒂谳斎氲淖钪匾糠郑⑹褂眠@些來預(yù)測如果您開始回答問題,則輸入的下一個單詞可能是什么。

Transformer vs 詞嵌入

Transformer模型利用詞嵌入來表達語言中的復(fù)雜概念。在Transformer中,每個單詞都被表示為一個高維向量,而這些向量在表示空間中的位置反映了單詞之間的語義關(guān)系。例如,具有相似含義的單詞在表示空間中可能會更加接近,而含義不同的單詞則會相對遠離。

通過使用這種高維表示,Transformer能夠更好地理解和生成自然語言。它們通過學(xué)習(xí)大量文本數(shù)據(jù),自動調(diào)整詞嵌入向量的參數(shù),使得模型能夠根據(jù)上下文理解單詞的含義,并生成連貫的語言輸出。Transformer模型中的注意力機制允許模型集中注意力于輸入中與當前任務(wù)相關(guān)的部分,從而提高了模型在處理長文本序列和復(fù)雜語境中的性能。

什么是token?

在語言模型中,”tokens”是指單詞、單詞部分(稱為子詞)或字符轉(zhuǎn)換成的數(shù)字列表。每個單詞或單詞部分都被映射到一個特定的數(shù)字表示,稱為token。這種映射關(guān)系通常是通過預(yù)定義的規(guī)則或算法完成的,不同的語言模型可能使用不同的tokenization方案,但重要的是要保證在相同的語境下,相同的單詞或單詞部分始終被映射到相同的token。

v2-9e04de23f78760e65822085fbe0d290c_1440w.webp

大多數(shù)語言模型傾向于使用子詞(tokenization),因為這種方法既高效又靈活。子詞tokenization能夠處理單詞的變形、錯字等情況,從而更好地識別單詞之間的關(guān)系。

幻覺

幻覺是指LLMs在回答問題或提示時,并不會查閱其訓(xùn)練時接觸到的所有詞序列,這是不切實際的。這意味著它們并不一定能夠訪問所有原始內(nèi)容,而只能訪問那些信息的統(tǒng)計摘要。與你一樣,LLMs可能“知道”很多詞,但它們無法重現(xiàn)創(chuàng)建它們的確切序列。

v2-c26bcdab4551d134dffebe07501613f2_1440w.webp

LLMs很難區(qū)分現(xiàn)實和想象。至少目前來說,它們沒有很好的方法來驗證它們認為或相信可能是真實的事物的準確性。即使它們能夠咨詢互聯(lián)網(wǎng)等其他來源,也不能保證它們會找到可靠的信息。

內(nèi)容整理:AIGC工具導(dǎo)航