生成式人工智能Generative Artificial Intelligence

什么是生成式人工智能

生成式人工智能Generative artificial intelligence,簡稱:GAI)又稱AIGC“(Artificial Intelligence Generated Content,即人工智能生產(chǎn)的內(nèi)容。)”是利用復雜的算法、模型和規(guī)則,從大規(guī)模數(shù)據(jù)集中學習,以創(chuàng)造新的原創(chuàng)內(nèi)容的人工智能技術。這項技術能夠創(chuàng)造文本、圖片、聲音、視頻和代碼等多種類型的內(nèi)容,全面超越了傳統(tǒng)軟件的數(shù)據(jù)處理和分析能力。生成式人工智能是人工智能1.0時代進入2.0時代的重要標志。

GAN、CLIP、Transformer、Diffusion、預訓練模型、多模態(tài)技術、生成算法等技術的累積融合,催生了AIGC的爆發(fā)。算法不斷迭代創(chuàng)新、預訓練模型引發(fā)AIGC技術能力質變,多模態(tài)推動AIGC內(nèi)容多邊形,使得AIGC具有更通用和更強的基礎能力。

從計算智能、感知智能再到認知智能的進階發(fā)展來看,AIGC已經(jīng)為人類社會打開了認知智能的大門。通過單個大規(guī)模數(shù)據(jù)的學習訓練,令AI具備了多個不同領域的知識,只需要對模型進行適當?shù)恼{(diào)整修正,就能完成真實場景的任務。

AIGC對于人類社會、人工智能的意義是里程碑式的。短期來看AIGC改變了基礎的生產(chǎn)力工具,中期來看會改變社會的生產(chǎn)關系,長期來看促使整個社會生產(chǎn)力發(fā)生質的突破,在這樣的生產(chǎn)力工具、生產(chǎn)關系、生產(chǎn)力變革中,生產(chǎn)要素——數(shù)據(jù)價值被極度放大。

AIGC數(shù)據(jù)要素提到時代核心資源的位置,在一定程度上加快了整個社會的數(shù)字化轉型進程。

2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態(tài)、具身化快速發(fā)展。在圖像生成方面,生成系統(tǒng)在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發(fā)展,這為虛擬現(xiàn)實和元宇宙的實現(xiàn)提供了新的途徑。生成式人工智能技術在各行業(yè)、各領域都具有廣泛的應用前景。

2023年12月26日,生成式人工智能入選“2023年度十大科技名詞”。

2024年4月,在瑞士舉行的第27屆聯(lián)合國科技大會上,世界數(shù)字技術院(WDTA)發(fā)布了《生成式人工智能應用安全測試標準》和《大語言模型安全測試方法》兩項國際標準,是由OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、英偉達、百度、騰訊等數(shù)十家單位的多名專家學者共同編制而成。

在過去幾年中,機器學習領域取得了迅猛進步,創(chuàng)造了人工智能的一個新的子領域:生成式人工智能。這些程序通過分析大量的數(shù)字化材料產(chǎn)生新穎的文本、圖像、音樂和軟件,我將這些程序簡稱為“GAIs”。

生成式AI革命開始

第一波GAIs主要致力于進行自然語言對話。被稱為“大型語言模型”(LLMs)的這些模型已經(jīng)展示出在各種任務上超凡的表現(xiàn),擁有超越人類的能力,同時也顯示出對虛假、不合邏輯的傾向,以及表達虛假情感的傾向,比如對對話者表達愛意。它們用通俗的語言與用戶交流,并輕松解決各種復雜問題。

但這只是GAI革命的開始。支撐GAIs的技術是相當通用的,任何可以收集和準備進行處理的數(shù)據(jù)集,GAIs都能夠學習,這在現(xiàn)代數(shù)字世界是一個相對簡單的任務。

AGI vs GAI

AGI(人工通用智能)與GAI(生成式人工智能)不可混淆,AGI一直是科學家們世代追求的幻想,更不用說無數(shù)科幻電影和書籍了。值得注意的是,答案是“有條件的肯定”。在實際應用中,這些系統(tǒng)是多才多藝的“合成大腦”,但這并不意味著它們具有人類意義上的“思想”。它們沒有獨立的目標和欲望、偏見和愿望、情感和感覺:這些是獨特的人類特征。但是,如果我們用正確的數(shù)據(jù)對它們進行訓練并指導它們追求適當?shù)哪繕?,這些程序可以表現(xiàn)得好像具有這些特征一樣。

v2-28e10993ed7dda07c05e0d5b206e0514_1440w.webp

GAIs vs 早期構建智能機器

GAIs可以被指示執(zhí)行(或至少描述如何執(zhí)行)你幾乎能想到的任何任務……盡管它們可能會耐心地解釋,它們是萬事通,也是大多數(shù)領域的專家。

v2-58bbb57b92b169b903af6c4762b68b25_1440w.webp
  • LLMs只是進行統(tǒng)計單詞預測,根據(jù)你提供的提示的上下文選擇下一個最有可能的單詞。但這種描述充其量是過于簡化了,并掩蓋了更深層次的真相。
  • LLMs是在大量信息的基礎上進行訓練的。它們處理并壓縮其龐大的訓練集,形成一種被稱為神經(jīng)網(wǎng)絡的緊湊表示,但該網(wǎng)絡不僅僅代表單詞——它代表了它們的意義,以一種稱為嵌入的巧妙形式表達出來。

LLM了解其“世界”(在訓練階段);然后,它評估您提示的含義,選擇其答案的含義,并將該含義轉換為單詞。

人工智能的歷史

什么是人工智能?

這是一個容易問出但難以回答的問題,有兩個原因。首先,對于智能是什么,人們幾乎沒有達成共識。其次,憑借目前的情況,很少有理由相信機器智能與人類智能有很大的關系,即使看起來很像。

v2-5ce5b9777b9c7a54e9d86be8ae18e6a7_1440w.webp

人工智能(AI)有許多提議的定義,每個定義都有其自己的側重點,但大多數(shù)都大致圍繞著創(chuàng)建能夠表現(xiàn)出人類智能行為的計算機程序或機器的概念。學科的奠基人之一約翰·麥卡錫(John McCarthy)在1955年描述了這一過程,“就像制造一臺機器以人類的方式行為一樣”。

術語“人工智能”起源于何處?

“人工智能”一詞的首次使用可以歸因于一個特定的個人——約翰·麥卡錫(John McCarthy),他是一位1956年在新罕布什爾州漢諾威達特茅斯學院(Dartmouth College)的助理數(shù)學教授。與其他三位更資深的研究人員(哈佛大學的馬文·明斯基、IBM的內(nèi)森·羅切斯特和貝爾電話實驗室的克勞德·香農(nóng))一起,麥卡錫提議在達特茅斯舉辦一次關于這個主題的夏季會議。

早期人工智能研究者是如何解決這個問題的?

在達特茅斯會議之后,對該領域的興趣(以及某些領域對它的反對)迅速增長。研究人員開始著手各種任務,從證明定理到玩游戲等。一些早期的突破性工作包括阿瑟·塞繆爾(Arthur Samuel)于1959年開發(fā)的跳棋程序。

當時許多演示系統(tǒng)都專注于所謂的“玩具問題”,將其適用性限制在某些簡化或自包含的世界中,如游戲或邏輯。這種簡化在一定程度上受到當時有限的計算能力的驅使,另一方面也因為這并不涉及收集大量相關數(shù)據(jù),而當時電子形式的數(shù)據(jù)很少。

機器學習是什么?

從其早期起源開始,人工智能研究人員就認識到學習能力是人類智能的重要組成部分。問題是人們是如何學習的?我們能否以與人類相同的方式,或至少與人類一樣有效地編寫計算機來學習?

v2-5b07dd32d4fd68e7459c8bfa38753cf4_1440w.webp

在機器學習中,學習是中心問題——顧名思義。說某物被學習了意味著它不僅僅被捕捉并存儲在數(shù)據(jù)庫中的數(shù)據(jù)一樣——它必須以某種方式表示出來,以便可以加以利用。一般來說,學習的計算機程序會從數(shù)據(jù)中提取模式。

生成式人工智能(AIGC)的原理

大型語言模型(LLMs)

大型語言模型(LLMs)是一種生成人工智能系統(tǒng),用于以純文本形式生成對問題或提示的回應。這些系統(tǒng)使用專門的多層次和多方面的神經(jīng)網(wǎng)絡,在非常大的自然語言文本集合上進行訓練,通常從互聯(lián)網(wǎng)和其他合適的來源收集而來。

基礎模型

訓練一個LLM可能非常耗時和昂貴——如今,最常見的商業(yè)可用系統(tǒng)在數(shù)千臺強大處理器上同時訓練數(shù)周,耗資數(shù)百萬美元。但不用擔心,這些程序通常被稱為“基礎模型”,具有廣泛的適用性和長期的使用壽命。它們可以作為許多不同類型的專業(yè)LLM的基礎,盡管直接與它們交互也是完全可能的(而且很有用和有趣)。

v2-551143831fabc80b6a4bca35e2dfaaeb_1440w.webp

人類反饋強化學習

LLM完成了對大型文本語料庫的“基礎訓練”后,就要進入“修身養(yǎng)性”的階段。這包括向它提供一系列示例,說明它應該如何禮貌地和合作地回答問題(響應“提示”),以及最重要的是,它不被允許說什么(當然,這充滿了反映其開發(fā)者態(tài)度和偏見的價值判斷)。與初始訓練步驟形成對比,初始訓練步驟大多是自動化過程,這個社交化步驟是通過所謂的人類反饋強化學習(RLHF)來完成的。RLHF就是其名,人類審查LLM對一系列可能引起不當行為的提示的反應,然后一個人向它解釋回應的問題(或禁止的內(nèi)容),幫助LLM改進。

v2-4ba9b9fe3014537864354222e5275651_1440w.webp

模型輸入與輸出

完成訓練后,LLM接受用戶(你)的提示或問題作為輸入,然后對其進行轉換,并生成一個回應。與訓練步驟相比,這個過程快速而簡單。但是它是如何將你的輸入轉換為回應的呢?

v2-3567f73a523fd1e81543559b7bf15fd1_1440w.webp

它們將這種“猜測下一個詞”的技術擴展到更長的序列上。然而,重要的是要理解,分析和猜測實際上不是在詞本身上進行的;而是在所謂的標記上進行的——它們代表詞的部分,并且這些標記進一步以“嵌入”形式表達,旨在捕捉它們的含義

大型語言模型(LLMs)如何工作?

簡化的單詞級解釋忽略了LLMs如何在我們今天的計算機類別中表示這些大量的單詞集合。在任何現(xiàn)有或想象中的未來計算機系統(tǒng)中,存儲數(shù)千個單詞的所有可能序列都是不現(xiàn)實的:與之相比,這些序列的數(shù)量使得宇宙中的原子數(shù)量看起來微不足道。因此,研究人員重新利用了神經(jīng)網(wǎng)絡的試驗和真實方法,將這些巨大的集合減少為更易管理的形式。

神經(jīng)網(wǎng)絡最初被應用于解決分類問題——決定某物是什么。例如,您可能會輸入一張圖片,網(wǎng)絡將確定它是否是狗還是貓的圖像。為了有用,神經(jīng)網(wǎng)絡必須以一種使相關的輸入產(chǎn)生相似結果的方式壓縮數(shù)據(jù)。

什么是“嵌入”?

LLMs將每個單詞表示為一種特定形式的向量(列表),稱為嵌入。嵌入將給定的單詞轉換為具有特殊屬性的向量(有序數(shù)字列表):相似的單詞具有相似的向量表示。想象一下,“朋友”,“熟人”,“同事”和“玩伴”這些詞的嵌入。目標是,嵌入應該將這些單詞表示為彼此相似的向量。這通過代數(shù)組合嵌入來促進某些類型的推理。

v2-1a4757fe08ceeffe3af8829473a53a7e_1440w.webp

單詞嵌入的一個缺點是它們并不固有地解決多義性的問題——單詞具有多個含義的能力。處理這個問題有幾種方法。例如,如果訓練語料庫足夠詳細,單詞出現(xiàn)的上下文將傾向于聚合成統(tǒng)計簇,每個簇代表同一個單詞的不同含義。這允許LLM以模棱兩可的方式表示單詞,將其與多個嵌入相關聯(lián)。多義性的計算方法是一個持續(xù)研究的領域。

單詞嵌入是如何表示含義的?

當您想知道一個詞的含義時,您會怎么做?當然是查字典。在那里,您會找到什么?關于詞義的描述,當然是用詞語表達的。您讀了定義后相信您理解了一個詞的含義。換句話說,就是,通過與其他單詞的關系來表示單詞的含義通常被認為是語義的一種滿意的實際方法。

當然,有些詞確實指的是現(xiàn)實世界中的真實事物。但是,如果您只是在單詞的領域內(nèi)工作,那么事實證明這并不像您想象的那么重要。在相互關聯(lián)的定義的混亂中有太多的內(nèi)在結構,以至于您關于給定單詞的幾乎所有需要知道的東西都可以通過它與其他單詞的關系來編碼。

人工神經(jīng)網(wǎng)絡(ANN)

人工神經(jīng)網(wǎng)絡(ANN)是受到真實神經(jīng)網(wǎng)絡的某些假定組織原則啟發(fā)的計算機程序,簡而言之,就是生物大腦。盡管如此,人工神經(jīng)網(wǎng)絡與真實神經(jīng)網(wǎng)絡之間的關系大多是希望的,因為對大腦實際功能了解甚少。

人工神經(jīng)網(wǎng)絡中的神經(jīng)元通常組織成層。底層也稱為“輸入”層,因為我們要將要分類的圖片輸入到這里?,F(xiàn)在就像真正的神經(jīng)元一樣,我們必須表示每個輸入神經(jīng)元是否被激活(“發(fā)射”)或不被激活。其他內(nèi)部層是行動發(fā)生的地方。這些被稱為“隱藏”層,因為它們夾在輸入層和輸出層之間。每個隱藏層中的神經(jīng)元與它們上面和下面的層中的所有神經(jīng)元相連。這些相互連接被建模為數(shù)值權重,例如,零表示“未連接”,一表示“強連接”,負一表示負連接。

v2-835ad7f3f59f9135c92feb0dadffbaaf_1440w.webp

神經(jīng)網(wǎng)絡的工作原理如下:我們根據(jù)要分類的圖片設置輸入(底層)級別的神經(jīng)元的值。然后對于上一級的每個神經(jīng)元,我們通過計算下一級神經(jīng)元與較低級神經(jīng)元之間的連接的權重乘積來計算其激活值。我們繼續(xù)這個過程,從每一級橫跨,然后向上一級工作。當我們到達頂部時,如果一切都按預期進行,頂層的一個神經(jīng)元將被高度激活,而另一個不會,這就給了我們答案。

Transformer

Transformer是一種特殊類型的神經(jīng)網(wǎng)絡,通常用于大型語言模型(LLM)。當一個Transformer模型被給予一句話進行處理時,它不會單獨查看每個單詞。相反,它一次查看所有單詞,并為每對單詞計算一個“注意分數(shù)”。注意分數(shù)確定了句子中每個單詞應該對其他每個單詞的解釋產(chǎn)生多大影響。

v2-91db435295f130c257d5ff68079726af_1440w.webp

例如,如果句子是“貓坐在墊子上”,當模型處理單詞“坐”時,它可能會更多地關注單詞“貓”(因為“貓”是坐的對象),而對單詞“墊子”關注較少。但是當處理單詞“上”時,它可能會更多地關注“墊子”。

當你要求LLM回答問題時,類似的過程也會發(fā)生。LLM首先將您的單詞轉換為嵌入,就像它對其訓練示例所做的那樣。然后,它以相同的方式處理您的詢問,使其能夠專注于輸入的最重要部分,并使用這些來預測如果您開始回答問題,則輸入的下一個單詞可能是什么。

Transformer vs 詞嵌入

Transformer模型利用詞嵌入來表達語言中的復雜概念。在Transformer中,每個單詞都被表示為一個高維向量,而這些向量在表示空間中的位置反映了單詞之間的語義關系。例如,具有相似含義的單詞在表示空間中可能會更加接近,而含義不同的單詞則會相對遠離。

通過使用這種高維表示,Transformer能夠更好地理解和生成自然語言。它們通過學習大量文本數(shù)據(jù),自動調(diào)整詞嵌入向量的參數(shù),使得模型能夠根據(jù)上下文理解單詞的含義,并生成連貫的語言輸出。Transformer模型中的注意力機制允許模型集中注意力于輸入中與當前任務相關的部分,從而提高了模型在處理長文本序列和復雜語境中的性能。

什么是token?

在語言模型中,”tokens”是指單詞、單詞部分(稱為子詞)或字符轉換成的數(shù)字列表。每個單詞或單詞部分都被映射到一個特定的數(shù)字表示,稱為token。這種映射關系通常是通過預定義的規(guī)則或算法完成的,不同的語言模型可能使用不同的tokenization方案,但重要的是要保證在相同的語境下,相同的單詞或單詞部分始終被映射到相同的token。

v2-9e04de23f78760e65822085fbe0d290c_1440w.webp

大多數(shù)語言模型傾向于使用子詞(tokenization),因為這種方法既高效又靈活。子詞tokenization能夠處理單詞的變形、錯字等情況,從而更好地識別單詞之間的關系。

幻覺

幻覺是指LLMs在回答問題或提示時,并不會查閱其訓練時接觸到的所有詞序列,這是不切實際的。這意味著它們并不一定能夠訪問所有原始內(nèi)容,而只能訪問那些信息的統(tǒng)計摘要。與你一樣,LLMs可能“知道”很多詞,但它們無法重現(xiàn)創(chuàng)建它們的確切序列。

v2-c26bcdab4551d134dffebe07501613f2_1440w.webp

LLMs很難區(qū)分現(xiàn)實和想象。至少目前來說,它們沒有很好的方法來驗證它們認為或相信可能是真實的事物的準確性。即使它們能夠咨詢互聯(lián)網(wǎng)等其他來源,也不能保證它們會找到可靠的信息。

內(nèi)容整理:AIGC工具導航