Yann LeCun:今天的AI比貓還笨,自曝早已放棄大模型
在AI圈里,圖靈獎(jiǎng)得主Yann Lecun是一個(gè)典型的異類(lèi)。
當(dāng)眾多技術(shù)專(zhuān)家堅(jiān)信,沿著當(dāng)前的技術(shù)路線(xiàn),agi的實(shí)現(xiàn)只是時(shí)間問(wèn)題時(shí),Yann Lecun卻一再提出異議。
在與同行的激烈辯論中,他不止一次表示,當(dāng)前主流的技術(shù)路徑無(wú)法引領(lǐng)我們走向AGI,甚至現(xiàn)在AI的水平還不如一只貓。
而圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家、紐約大學(xué)教授等等,這些耀眼的頭銜以及沉甸甸的一線(xiàn)實(shí)踐經(jīng)驗(yàn),卻也讓我們誰(shuí)也無(wú)法忽視這位AI專(zhuān)家的見(jiàn)解。
那么,Yann LeCun對(duì)于AI的未來(lái)究竟有何看法呢?在最近一次公開(kāi)演講中,他也再次詳細(xì)闡述了自己的觀點(diǎn):僅僅依靠文本訓(xùn)練,AI永遠(yuǎn)無(wú)法達(dá)到接近人類(lèi)水平的智能。
部分觀點(diǎn)如下:
1. 未來(lái),人們將普遍佩戴智能眼鏡或其他類(lèi)型的智能設(shè)備,這些設(shè)備將內(nèi)置助手系統(tǒng),形成個(gè)人的智能虛擬團(tuán)隊(duì),以提高個(gè)人的創(chuàng)造性和效率。
2. 智能系統(tǒng)的目的不是為了取代人類(lèi),而是為了增強(qiáng)人類(lèi)的智力,使人們能夠更高效地工作。
3. 即使是寵物貓,其大腦中的模型也比任何AI系統(tǒng)能夠構(gòu)建的模型復(fù)雜。
4. FAIR基本上不再專(zhuān)注于語(yǔ)言模型,而是朝向下一代AI系統(tǒng)的長(zhǎng)期目標(biāo)邁進(jìn)。
5. 僅僅通過(guò)訓(xùn)練文本數(shù)據(jù),AI系統(tǒng)無(wú)法達(dá)到接近人類(lèi)水平的智力。
6. Yann Lecun建議放棄生成模型、概率模型、對(duì)比學(xué)習(xí)和強(qiáng)化學(xué)習(xí),轉(zhuǎn)而采用JEPA架構(gòu)和基于能量的模型,認(rèn)為這些方法更有可能推動(dòng)AI的發(fā)展。
7. 雖然機(jī)器最終會(huì)超越人類(lèi)智力,但它們將受到控制,因?yàn)樗鼈兪悄繕?biāo)驅(qū)動(dòng)的。
有趣的是,演講開(kāi)始前還發(fā)生了一段小插曲。
主持人在介紹LeCun時(shí),稱(chēng)他為Facebook AI研究院(FAIR)的首席AI科學(xué)家。
對(duì)此,LeCun在演講開(kāi)始前澄清,F(xiàn)AIR中的“F”已經(jīng)不再代表Facebook,而是“基礎(chǔ)”(Fundamental)的意思。
以下演講原文由APPSO編譯,有刪減。
最后附上原視頻鏈接: https://www.youtube.com/watch?v=4DsCtgtQlZU
AI對(duì)世界的了解不如你的貓
好的,我將談?wù)勅祟?lèi)水平級(jí)別的AI,以及說(shuō)我們?nèi)绾螌?shí)現(xiàn)它,以及我們?yōu)楹斡植粫?huì)實(shí)現(xiàn)它。
首先,我們確實(shí)需要人類(lèi)水平的AI。
因?yàn)槲磥?lái),有一個(gè)是我們大多數(shù)人將佩戴智能眼鏡或其他類(lèi)型的設(shè)備。我們將與這些設(shè)備進(jìn)行對(duì)話(huà),而這些系統(tǒng)將承載助手,可能不止一個(gè),可能是一整套助手。
這將導(dǎo)致我們每個(gè)人基本上都有一支智能虛擬團(tuán)隊(duì)在為我們工作。
所以,人人都將成為“老板”,只是這些“員工”不是真正的人類(lèi)。我們需要構(gòu)建這樣的系統(tǒng),基本上是為了增強(qiáng)人類(lèi)的智力,使人們更具創(chuàng)造性和更高效。
但為此,我們需要機(jī)器能夠理解世界,能夠記住事物,具備直覺(jué)和常識(shí),能夠推理和計(jì)劃,達(dá)到與人類(lèi)相同的水平。
盡管你可能聽(tīng)到過(guò)一些支持者說(shuō),目前的AI系統(tǒng)并不具備這些能力。所以我們需要花時(shí)間學(xué)習(xí)如何建模世界,擁有關(guān)于世界運(yùn)作的心理模型。
事實(shí)上,每種動(dòng)物都有這樣的模型。你的貓一定有一個(gè)比任何AI系統(tǒng)所能構(gòu)建或設(shè)計(jì)的模型都要復(fù)雜的模型。
我們需要的系統(tǒng)應(yīng)該具有持久記憶的系統(tǒng),而當(dāng)前的語(yǔ)言模型(LLM)并沒(méi)有,能夠規(guī)劃復(fù)雜行動(dòng)序列的系統(tǒng),而今天的系統(tǒng)無(wú)法做到,并且這個(gè)系統(tǒng)應(yīng)該是可控和安全的。
因此,我將提出一個(gè)架構(gòu),稱(chēng)為目標(biāo)驅(qū)動(dòng)的AI。我大約兩年前寫(xiě)了一篇關(guān)于這個(gè)的愿景論文,并發(fā)布了這篇論文。FAIR的很多人正在努力實(shí)現(xiàn)這個(gè)計(jì)劃。
FAIR過(guò)去研究過(guò)更多應(yīng)用項(xiàng)目,但Meta在一年半前創(chuàng)建了一個(gè)名為生成式AI(Gen AI)的產(chǎn)品部門(mén),專(zhuān)注于AI產(chǎn)品。
他們進(jìn)行應(yīng)用研發(fā),因此現(xiàn)在FAIR已經(jīng)被重新引導(dǎo),朝向下一代AI系統(tǒng)的長(zhǎng)期目標(biāo)。我們基本上不再專(zhuān)注于語(yǔ)言模型。
包括大型語(yǔ)言模型(LLM)在內(nèi)的AI成功,尤其是過(guò)去5、6年中取得的許多其他系統(tǒng)的成功,依賴(lài)于一系列技術(shù),當(dāng)然,包括自監(jiān)督學(xué)習(xí)。
自監(jiān)督學(xué)習(xí)的核心在于訓(xùn)練一個(gè)系統(tǒng),不是針對(duì)任何特定任務(wù),而是盡量以良好的方式表示輸入數(shù)據(jù)。實(shí)現(xiàn)這一點(diǎn)的一種方法是通過(guò)損壞再重建恢復(fù)。
因此,你可以取一段文本,通過(guò)去掉一些單詞或改變其他單詞來(lái)破壞它。這個(gè)過(guò)程可以用于文本、DNA序列、蛋白質(zhì)或其他任何內(nèi)容,甚至在某種程度上也可以用于圖像。然后你訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)來(lái)重建完整的輸入,即未被破壞的版本。
這是一個(gè)生成模型,因?yàn)樗噲D重建原始信號(hào)。
所以,紅色框就像一個(gè)代價(jià)函數(shù),對(duì)吧?它計(jì)算輸入Y和重建后的輸出y之間的距離,而這就是學(xué)習(xí)過(guò)程中要最小化的參數(shù)。在這個(gè)過(guò)程中,系統(tǒng)學(xué)習(xí)到了輸入的內(nèi)部表示,可以用于各種后續(xù)任務(wù)。
當(dāng)然,這可以用于預(yù)測(cè)文本中的單詞,這就是自回歸預(yù)測(cè)(autoregressive prediction)所做的事情。
語(yǔ)言模型是這一點(diǎn)的特例,其中架構(gòu)的設(shè)計(jì)方式是為了預(yù)測(cè)一個(gè)項(xiàng)、一個(gè)token或一個(gè)單詞時(shí),只能查看其左側(cè)的其他token。
它不能查看未來(lái)。如果你正確訓(xùn)練一個(gè)系統(tǒng),給它展示文本,并要求它預(yù)測(cè)文本中的下一個(gè)單詞或下一個(gè)token,那么你可以使用該系統(tǒng)來(lái)預(yù)測(cè)下一個(gè)單詞。然后你將那個(gè)下一個(gè)單詞加入輸入中,再預(yù)測(cè)第二個(gè)單詞,并將其加入輸入中,預(yù)測(cè)第三個(gè)單詞。
這就是自回歸預(yù)測(cè)(autoregressive prediction)。
這是LLMs所做的事情,這并不是一個(gè)新概念,自香農(nóng)(Shannon)時(shí)代以來(lái)就存在了,可以追溯到50年代,這已經(jīng)很久了,但變化在于我們現(xiàn)在擁有那些龐大的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,并且看起來(lái)會(huì)從中涌現(xiàn)出一些特性。
但這種自回歸預(yù)測(cè)有一些主要的局限性,在通常意義上這里并沒(méi)有真正的推理存在。
還有另一個(gè)局限性是,這僅適用于以離散對(duì)象、符號(hào)、token、單詞等形式出現(xiàn)的數(shù)據(jù),基本上是可以離散化的東西。
我們?cè)谶_(dá)到人類(lèi)水平智力方面仍然缺少一些重要的東西。
我在這里并不一定是在談?wù)撊祟?lèi)水平的智力,但即使是你的貓或狗也能完成一些當(dāng)前AI系統(tǒng)無(wú)法企及的驚人壯舉。
任何10歲的小孩都可以一次性學(xué)會(huì)清理餐桌并填滿(mǎn)洗碗機(jī),對(duì)吧?根本不需要練習(xí)之類(lèi)的,對(duì)吧?
17歲的人學(xué)會(huì)開(kāi)車(chē)大約需要20小時(shí)的練習(xí)。
我們?nèi)匀粵](méi)有L5級(jí)自動(dòng)駕駛汽車(chē),當(dāng)然也沒(méi)有能夠清理餐桌和填滿(mǎn)洗碗機(jī)的家用機(jī)器人。
僅僅通過(guò)訓(xùn)練文本,AI永遠(yuǎn)無(wú)法達(dá)到接近人類(lèi)水平的智力
所以我們真的缺少一些重要的東西,否則我們將能夠用AI系統(tǒng)完成這些事情。
我們不斷碰到一個(gè)叫做莫拉維克悖論(moravec’s Paradox)的東西,即對(duì)我們而言看似微不足道、甚至不被認(rèn)為是智能的事情,實(shí)際上用機(jī)器完成起來(lái)卻非常困難,而像操縱語(yǔ)言這樣的高級(jí)復(fù)雜抽象思維,似乎對(duì)機(jī)器來(lái)說(shuō)卻很簡(jiǎn)單,像下棋、圍棋之類(lèi)的事情也是如此。
也許其中一個(gè)原因是這樣的。
一個(gè)大型語(yǔ)言模型(LLM)通常是在20萬(wàn)億個(gè)token上進(jìn)行訓(xùn)練的。
一個(gè)token基本上是一個(gè)單詞的四分之三,平均來(lái)說(shuō)。因此,這里總共是1.5×10的13次方個(gè)單詞。每個(gè)token大約是3B,通常,這樣就需要6×10的13次方個(gè)字節(jié)。
對(duì)于我們?nèi)魏我粋€(gè)人來(lái)說(shuō),讀完這些內(nèi)容大約需要幾十萬(wàn)年的時(shí)間,對(duì)吧?這基本上是互聯(lián)網(wǎng)上所有公開(kāi)文本的總和。
但考慮一下一個(gè)孩子,一個(gè)四歲的孩子總共清醒了16000小時(shí)。我們有200萬(wàn)個(gè)視神經(jīng)纖維進(jìn)入我們的大腦。每根神經(jīng)纖維大約以每秒1B的速度傳輸數(shù)據(jù),也許是每秒半個(gè)字節(jié)。有些估計(jì)說(shuō)這可能是每秒3B。
這沒(méi)關(guān)系,反正是一個(gè)數(shù)量級(jí)。
這個(gè)數(shù)據(jù)量大約是10的14次方個(gè)字節(jié),差不多與LLM的數(shù)量級(jí)相當(dāng)。因此,在四年內(nèi),一個(gè)四歲孩子看到的視覺(jué)數(shù)據(jù)與最大的語(yǔ)言模型在整個(gè)互聯(lián)網(wǎng)上公開(kāi)可用的文本上訓(xùn)練的數(shù)據(jù)量一樣多。
以數(shù)據(jù)作為起點(diǎn),這告訴我們幾個(gè)事情。
首先,這告訴我們,僅僅通過(guò)訓(xùn)練文本,我們永遠(yuǎn)無(wú)法達(dá)到接近人類(lèi)水平的智力。這是根本不可能發(fā)生的。
其次,視覺(jué)信息是非常冗余的,每根視神經(jīng)纖維每秒傳輸1B的信息,這已經(jīng)比你視網(wǎng)膜中的光感受器壓縮了100比1。
我們視網(wǎng)膜中大約有6000萬(wàn)到1億個(gè)光感受器。這些光感受器通過(guò)視網(wǎng)膜前的神經(jīng)元壓縮為100萬(wàn)個(gè)神經(jīng)纖維。因此,已經(jīng)存在100比1的壓縮。然后到達(dá)大腦時(shí),信息被擴(kuò)展了大約50倍。
因此,我測(cè)量的是壓縮信息,但它仍然非常冗余。而冗余實(shí)際上是自監(jiān)督學(xué)習(xí)所需要的。自監(jiān)督學(xué)習(xí)只會(huì)從冗余數(shù)據(jù)中學(xué)習(xí)到有用的東西,如果數(shù)據(jù)高度壓縮,這意味著數(shù)據(jù)變成了隨機(jī)噪聲的,那么你就無(wú)法學(xué)習(xí)任何東西。
你需要冗余才能學(xué)習(xí)到任何東西。你需要學(xué)習(xí)數(shù)據(jù)的潛在結(jié)構(gòu)。因此,我們需要訓(xùn)練系統(tǒng),通過(guò)觀看視頻或在現(xiàn)實(shí)世界中生活來(lái)學(xué)習(xí)常識(shí)和物理知識(shí)。
我說(shuō)話(huà)的順序可能會(huì)有些混亂,我主要想告訴你這個(gè)目標(biāo)驅(qū)動(dòng)的人工智能架構(gòu)到底是什么。它與LLM或前饋神經(jīng)元有很大不同,因?yàn)橥评磉^(guò)程不僅僅是通過(guò)神經(jīng)網(wǎng)絡(luò)的一系列層,而實(shí)際上是運(yùn)行一個(gè)優(yōu)化算法。
從概念上來(lái)看,它看起來(lái)是這樣的。
一種前饋過(guò)程是觀察結(jié)果通過(guò)感知系統(tǒng)運(yùn)行的過(guò)程。例如,如果你有一系列的神經(jīng)網(wǎng)絡(luò)層并產(chǎn)生一個(gè)輸出,那么對(duì)于任何單一輸入,你只能有一個(gè)輸出,但在很多情況下,對(duì)于一個(gè)感知,可能會(huì)有多個(gè)可能的輸出解釋。你需要一種不僅僅計(jì)算功能,而是能夠?yàn)閱我惠斎胩峁┒鄠€(gè)輸出的映射過(guò)程。實(shí)現(xiàn)這一點(diǎn)的唯一方法是通過(guò)隱函數(shù)。
基本上,這個(gè)目標(biāo)框架右側(cè)的紅色框表示一個(gè)函數(shù),它基本上測(cè)量輸入與其提議輸出之間的兼容性,然后通過(guò)找到最與輸入兼容的輸出值來(lái)計(jì)算輸出。你可以想象這個(gè)目標(biāo)是某種能量函數(shù),你是在以輸出為變量最小化這個(gè)能量。
你可能會(huì)有多個(gè)解決方案,并且你可能有某種方法來(lái)處理這些多個(gè)解決方案。人類(lèi)的感知系統(tǒng)確實(shí)如此,如果你對(duì)特定的感知有多個(gè)解釋?zhuān)愕拇竽X會(huì)自發(fā)地在這些解釋之間循環(huán)。因此,有一些證據(jù)表明,這種類(lèi)型的事情確實(shí)會(huì)發(fā)生。
但是讓我回到架構(gòu)上來(lái)。因此,利用這種通過(guò)優(yōu)化推理的原則。如果你愿意,關(guān)于人類(lèi)思維方式的假設(shè)如下。你在世界中作出觀察。感知系統(tǒng)給你提供了世界當(dāng)前狀態(tài)的概念。但當(dāng)然,它只給你提供了你當(dāng)前能夠感知的世界狀態(tài)的概念。
你可能對(duì)世界其余部分的狀態(tài)有一些記憶中的想法。這可能與記憶的內(nèi)容結(jié)合在一起,并被輸入到世界模型中。
什么是模型?世界模型是你對(duì)世界行為的心理模型,因此你可以想象你可能采取的一系列行動(dòng),而你的世界模型將允許你預(yù)測(cè)這些行動(dòng)序列對(duì)世界的影響。
因此,綠色框表示世界模型,你將假設(shè)的一系列行動(dòng)輸入其中,它預(yù)測(cè)世界的最終狀態(tài)將是什么,或者你預(yù)測(cè)在世界中將要發(fā)生的整個(gè)軌跡。
你將其與一組目標(biāo)函數(shù)相結(jié)合。一個(gè)目標(biāo)是測(cè)量目標(biāo)實(shí)現(xiàn)的程度,任務(wù)是否完成,也許還有一組其他目標(biāo),作為安全邊界,基本上測(cè)量所遵循的軌跡或采取的行動(dòng)在多大程度上對(duì)機(jī)器人或機(jī)器周?chē)娜藳](méi)有危險(xiǎn),等等。
因此,現(xiàn)在的推理過(guò)程(我還沒(méi)有談?wù)搶W(xué)習(xí))僅僅是推理,包括尋找最小化這些目標(biāo)的行動(dòng)序列,找到最小化這些目標(biāo)的一系列行動(dòng)。這就是推理過(guò)程。
因此,這不僅僅是前饋過(guò)程。你可以通過(guò)搜索離散選項(xiàng)來(lái)完成這一點(diǎn),但這并不高效。更好的方法是確保所有這些框都是可微分的,你可以對(duì)它們進(jìn)行反向傳播梯度,然后通過(guò)梯度下降更新行動(dòng)序列。
現(xiàn)在,這個(gè)想法其實(shí)并不新鮮,已經(jīng)存在了超過(guò)60年,甚至更久。首先,讓我談?wù)勈褂檬澜缒P瓦M(jìn)行這種推理的優(yōu)勢(shì)。優(yōu)勢(shì)在于,你可以在不需要任何學(xué)習(xí)的情況下完成新任務(wù)。
我們時(shí)常這樣做。我們面臨新情況時(shí),會(huì)考慮它,想象我們行動(dòng)的后果,然后采取將實(shí)現(xiàn)目標(biāo)(無(wú)論是什么)的行動(dòng)序列,我們不需要學(xué)習(xí)來(lái)完成該任務(wù),我們可以進(jìn)行規(guī)劃。因此,這基本上是規(guī)劃。
你可以將大多數(shù)推理形式歸結(jié)為優(yōu)化。因此,通過(guò)優(yōu)化進(jìn)行推理的過(guò)程本質(zhì)上比僅僅通過(guò)神經(jīng)網(wǎng)絡(luò)的多層運(yùn)行更強(qiáng)大。正如我所說(shuō),這種通過(guò)優(yōu)化進(jìn)行推理的思想已經(jīng)存在超過(guò)60年。
在優(yōu)化控制理論領(lǐng)域,這被稱(chēng)為模型預(yù)測(cè)控制。
你有一個(gè)要控制的系統(tǒng)模型,比如火箭、飛機(jī)或機(jī)器人。你可以想象,利用你的世界模型計(jì)算一系列控制指令的效果。
然后你優(yōu)化這一序列,使運(yùn)動(dòng)達(dá)到你想要的結(jié)果。所有經(jīng)典機(jī)器人學(xué)的運(yùn)動(dòng)規(guī)劃都是通過(guò)這種方式完成的,這并不是新事物。這里的新意在于,我們將學(xué)習(xí)世界模型,感知系統(tǒng)將提取出適當(dāng)?shù)某橄蟊硎尽?/p>
現(xiàn)在,在我進(jìn)入一個(gè)例子之前,說(shuō)明如何運(yùn)行這個(gè)系統(tǒng),你可以構(gòu)建一個(gè)整體的AI系統(tǒng),包含所有這些組件:世界模型、可以針對(duì)手頭任務(wù)配置的成本函數(shù)、優(yōu)化模塊(即真正優(yōu)化、尋找給定世界模型的最佳動(dòng)作序列的模塊)、短期記憶、感知系統(tǒng)等等。
那么,這樣是如何工作的呢?如果你的動(dòng)作不是單一動(dòng)作,而是一個(gè)動(dòng)作序列,而你的世界模型實(shí)際上是一個(gè)系統(tǒng),它告訴你,在時(shí)間T的世界狀態(tài)和可能采取的行動(dòng)下,預(yù)測(cè)時(shí)間T+1的世界狀態(tài)。
你想預(yù)測(cè)在這種情況下兩個(gè)動(dòng)作的序列將產(chǎn)生什么效果。你可以多次運(yùn)行你的世界模型來(lái)實(shí)現(xiàn)這一點(diǎn)。
獲取初始世界狀態(tài)表示,輸入對(duì)行動(dòng)零的假設(shè),利用模型預(yù)測(cè)下一狀態(tài),然后進(jìn)行行動(dòng)一,計(jì)算下一狀態(tài),計(jì)算成本,然后通過(guò)反向傳播和基于梯度的優(yōu)化方法,找出將最小化成本的兩個(gè)動(dòng)作。這就是模型預(yù)測(cè)控制。
現(xiàn)在,世界并不是完全確定的,因此你必須使用潛在變量來(lái)擬合你的世界模型。潛變量基本上是可以在一組數(shù)據(jù)中切換或從分布中抽取的變量,它們代表世界模型在與觀察兼容的多個(gè)預(yù)測(cè)之間的切換。
更有趣的是,智能系統(tǒng)目前還無(wú)法去做人類(lèi)乃至動(dòng)物能夠做到的事情,那就是分層規(guī)劃。
例如,如果你在計(jì)劃從紐約到巴黎的旅行,你可以使用你對(duì)世界、對(duì)身體的理解,可能還有你對(duì)從這里到巴黎整個(gè)配置的想法,以你的低級(jí)肌肉控制來(lái)規(guī)劃你的整個(gè)旅行。
對(duì)吧?如果每十毫秒的肌肉控制步驟數(shù)量,所有這些你在去巴黎之前必須做的事情疊加起來(lái),簡(jiǎn)直是巨大的數(shù)字。因此,你所做的就是以分層規(guī)劃的方式進(jìn)行規(guī)劃,你從很高的層面開(kāi)始說(shuō),好吧,要去巴黎,我首先需要去機(jī)場(chǎng),搭乘飛機(jī)。
我如何去機(jī)場(chǎng)?假設(shè)我在紐約市,我必須下樓去叫出租車(chē)。我怎么下樓?我必須先從椅子上起來(lái),打開(kāi)門(mén),走到電梯,按下按鈕,等等。我如何從椅子上站起來(lái)?
在某個(gè)時(shí)刻,你將不得不將事情表達(dá)為低級(jí)肌肉控制動(dòng)作,但我們并不是在以低級(jí)別的方式規(guī)劃整個(gè)過(guò)程,而是在進(jìn)行分層規(guī)劃。
如何使用AI系統(tǒng)做到這一點(diǎn)仍然是完全未解決的,我們對(duì)此毫無(wú)頭緒。
這似乎是智能行為的一個(gè)重要要求。
那么,我們?nèi)绾螌W(xué)習(xí)能夠進(jìn)行層次規(guī)劃的世界模型,能夠在不同抽象層次上工作呢?沒(méi)有人展示出任何接近這一點(diǎn)的成果。這是一個(gè)重大挑戰(zhàn)。圖像顯示我剛剛提到的例子。
那么,我們現(xiàn)在如何訓(xùn)練這個(gè)世界模型呢?因?yàn)檫@確實(shí)是一個(gè)大問(wèn)題。
我嘗試弄清楚嬰兒在什么年齡學(xué)習(xí)關(guān)于世界的基本概念。他們?nèi)绾螌W(xué)習(xí)直觀的物理學(xué)、物理直覺(jué),以及所有這些內(nèi)容?這些發(fā)生在他們開(kāi)始學(xué)習(xí)語(yǔ)言和互動(dòng)等事情之前很久。
因此,諸如面孔追蹤之類(lèi)的能力實(shí)際上發(fā)生得非常早。生物運(yùn)動(dòng),即有生命的物體與無(wú)生命物體之間的區(qū)別,也會(huì)很早就出現(xiàn)。物體恒常性也是如此,指的是當(dāng)一個(gè)物體被另一個(gè)物體遮擋時(shí),它依然存在這一事實(shí)。
而嬰兒是很自然地學(xué)習(xí)的,你不需要給他們事物的名稱(chēng)。他們會(huì)知道椅子、桌子和貓是不同的。而關(guān)于穩(wěn)定性和支持性等概念,比如像重力、慣性、守恒、動(dòng)量這些實(shí)際上大約在九個(gè)月大時(shí)才會(huì)出現(xiàn)。
這需要很長(zhǎng)時(shí)間。因此,如果你向六個(gè)月大的嬰兒展示左邊的情境,即小車(chē)在平臺(tái)上,你將它推下平臺(tái),它似乎在空中漂浮。六個(gè)月大的嬰兒會(huì)注意到這一點(diǎn),而十個(gè)月大的嬰兒則會(huì)覺(jué)得這不應(yīng)該發(fā)生,物體應(yīng)該掉落。
當(dāng)發(fā)生意外情況時(shí),這意味著你的“世界模型”是錯(cuò)誤的。所以你會(huì)關(guān)注,因?yàn)檫@可能會(huì)要了你的命。
因此,這里需要發(fā)生的學(xué)習(xí)類(lèi)型與我們之前討論的學(xué)習(xí)類(lèi)型非常相似。
獲取輸入,以某種方式破壞它,并訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)缺失的部分。如果你訓(xùn)練一個(gè)系統(tǒng)來(lái)預(yù)測(cè)視頻中將要發(fā)生的事情,就像我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)文本中將要發(fā)生的事情一樣,也許這些系統(tǒng)將能夠?qū)W習(xí)常識(shí)。
不幸的是,我們已經(jīng)嘗試了這個(gè)十年了,結(jié)果完全失敗。我們從來(lái)沒(méi)有接近過(guò)能夠通過(guò)僅僅試圖預(yù)測(cè)視頻中的像素來(lái)真正學(xué)習(xí)任何通用知識(shí)的系統(tǒng)。
你可以訓(xùn)練一個(gè)系統(tǒng)來(lái)預(yù)測(cè)看起來(lái)不錯(cuò)的視頻。現(xiàn)在有許多視頻生成系統(tǒng)的例子,但它們內(nèi)部并不是良好的物理世界模型。我們不能用它們來(lái)做這件事。
好吧,所以我們將使用生成模型來(lái)預(yù)測(cè)個(gè)體將要發(fā)生的事情的想法,系統(tǒng)會(huì)神奇地理解世界的結(jié)構(gòu),這完全是失敗的。
在過(guò)去的十年里,我們嘗試了許多方法。
之所以失敗,是因?yàn)橛性S多可能的未來(lái)。在像文本這樣的離散空間中,你可以預(yù)測(cè)哪個(gè)單詞會(huì)跟在一串單詞之后,你可以生成字典中可能單詞的概率分布。但當(dāng)涉及到視頻幀時(shí),我們沒(méi)有好的方法來(lái)表示視頻幀的概率分布。實(shí)際上,這個(gè)任務(wù)完全不可能。
比如,我拍攝這個(gè)房間的視頻,對(duì)吧?我拿著相機(jī)拍攝那部分,然后停止視頻。我問(wèn)系統(tǒng)接下來(lái)會(huì)發(fā)生什么。它可能會(huì)預(yù)測(cè)剩下的房間。會(huì)有一面墻,會(huì)有人坐著,密度可能會(huì)和左邊的相似,但絕對(duì)不可能在像素級(jí)別上準(zhǔn)確預(yù)測(cè)你們每個(gè)人的樣子、世界的紋理以及房間的精確大小等所有細(xì)節(jié)。
所以,我提出的解決方案為聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)。
其理念就是放棄預(yù)測(cè)像素,而是學(xué)習(xí)一個(gè)對(duì)世界運(yùn)作的抽象表示,然后在這個(gè)表示空間中進(jìn)行預(yù)測(cè)。這就是架構(gòu),聯(lián)合嵌入預(yù)測(cè)架構(gòu)。這兩個(gè)嵌入分別取X(損壞版本)和Y,經(jīng)過(guò)編碼器處理,然后訓(xùn)練系統(tǒng)根據(jù)X的表示預(yù)測(cè)Y的表示。
現(xiàn)在的問(wèn)題是,如果只是用梯度下降、反向傳播來(lái)最小化預(yù)測(cè)誤差來(lái)訓(xùn)練這樣的系統(tǒng),它將崩潰。它可能會(huì)學(xué)習(xí)一個(gè)常量表示,這樣預(yù)測(cè)就變得非常簡(jiǎn)單,但卻沒(méi)有信息量。
因此,我希望你記住的是,生成架構(gòu)試圖重建預(yù)測(cè)的自編碼器、生成架構(gòu)、掩碼自編碼器等,與在表示空間中進(jìn)行預(yù)測(cè)的聯(lián)合嵌入架構(gòu)之間的區(qū)別。
我認(rèn)為未來(lái)在于這些聯(lián)合嵌入架構(gòu),我們有大量的經(jīng)驗(yàn)證據(jù)表明,學(xué)習(xí)良好的圖像表示的最佳方法是使用聯(lián)合編輯架構(gòu)。
所有嘗試通過(guò)重建來(lái)學(xué)習(xí)圖像表示的嘗試都很糟糕,效果不好,盡管有很多大型項(xiàng)目聲稱(chēng)它們有效,但實(shí)際上并不行,最佳性能是通過(guò)右邊的架構(gòu)獲得的。
現(xiàn)在,如果你仔細(xì)想想,這實(shí)際上就是我們智力的表現(xiàn):尋找某種現(xiàn)象的良好表示,以便能夠進(jìn)行預(yù)測(cè),這真的就是科學(xué)的本質(zhì)。
真的。想想看,如果你想預(yù)測(cè)一個(gè)行星的軌跡,行星是一個(gè)非常復(fù)雜的物體,它巨大,具有天氣、溫度和密度等各種特征。
雖然它是一個(gè)復(fù)雜的對(duì)象,但要預(yù)測(cè)行星的軌跡,你只需要知道6個(gè)數(shù)字:3個(gè)位置坐標(biāo)和3個(gè)速度向量,僅此而已,你不需要做其他任何事情。這是一個(gè)非常重要的例子,真正展示了預(yù)測(cè)能力的本質(zhì)在于找到我們觀察事物的良好表示。
那么,我們?nèi)绾斡?xùn)練這樣一個(gè)系統(tǒng)呢?
所以你想要防止系統(tǒng)崩潰。做到這一點(diǎn)的一種方法是使用某種代價(jià)函數(shù),測(cè)量編碼器輸出的表示的信息內(nèi)容,并盡量最大化信息內(nèi)容,最小化負(fù)信息。你的訓(xùn)練系統(tǒng)要同時(shí)盡可能提取輸入中的信息,同時(shí)最小化在該表示空間中的預(yù)測(cè)誤差。
系統(tǒng)將找到提取盡可能多的信息與不提取不可預(yù)測(cè)信息之間的某種權(quán)衡。你將得到一個(gè)良好的表示空間,在這個(gè)空間中可以進(jìn)行預(yù)測(cè)。
現(xiàn)在,你如何測(cè)量信息?這就是事情變得有點(diǎn)奇怪的地方。我將跳過(guò)這一點(diǎn)。
機(jī)器將會(huì)超越人類(lèi)智力,且安全可控
實(shí)際上,有一種方法可以通過(guò)訓(xùn)練、基于能量的模型和能量函數(shù)從數(shù)學(xué)上理解這一點(diǎn),但我沒(méi)有時(shí)間深入探討。
基本上,我在這里告訴你幾件不同的事情:放棄生成模型,轉(zhuǎn)而使用那些JEPA架構(gòu);放棄概率模型,轉(zhuǎn)而使用那些基于能量的模型,放棄對(duì)比學(xué)習(xí)方法,還有強(qiáng)化學(xué)習(xí)。這些我已經(jīng)說(shuō)了10年了。
而這些都是今天機(jī)器學(xué)習(xí)中最流行的四個(gè)支柱。因此目前我可能不太受歡迎。
一種方法是估計(jì)信息量,測(cè)量來(lái)自編碼器的信息內(nèi)容。
目前有六種不同的方法來(lái)實(shí)現(xiàn)這一點(diǎn)。實(shí)際上,這里有一個(gè)叫做MCR的方法,來(lái)自我在NYU的同事,那就是防止系統(tǒng)崩潰并產(chǎn)生常數(shù)。
取出來(lái)自編碼器的變量,并確保這些變量具有非零的標(biāo)準(zhǔn)差。你可以將其放入一個(gè)成本函數(shù)中,確保權(quán)重被搜索,變量不會(huì)崩潰并變?yōu)槌?shù)。這是比較簡(jiǎn)單的。
現(xiàn)在的問(wèn)題是,系統(tǒng)可能會(huì)“作弊”,使所有變量相等或高度相關(guān)。因此,你需要添加另一個(gè)項(xiàng),要求最小化這些變量的協(xié)方差矩陣的非對(duì)角線(xiàn)項(xiàng),以確保它們相關(guān)。
當(dāng)然,這還不夠,因?yàn)樽兞咳钥赡芤蕾?lài),但不相關(guān)。因此,我們采用另一種方法,將SX的維度擴(kuò)展到更高的維度空間VX,并在該空間中應(yīng)用方差協(xié)方差正則化,以確保滿(mǎn)足要求。
這里還有一個(gè)技巧,因?yàn)槲宜畲蠡氖切畔?nèi)容的上限。我希望實(shí)際的信息內(nèi)容能跟隨我對(duì)上限的最大化。我需要的是一個(gè)下限,這樣它會(huì)推動(dòng)下限,信息也會(huì)隨之增加。不幸的是,我們并沒(méi)有信息的下限,或者至少我們不知道如何計(jì)算它們。
有第二套方法,稱(chēng)為“蒸餾風(fēng)格方法”。
這種方法以神秘的方式運(yùn)作。如果你想清楚了解誰(shuí)在做什么,你應(yīng)該問(wèn)坐在這里的Grill。
他在這方面有一篇個(gè)人論文,定義得很好。它的核心思想是只更新模型的一部分,而在另一部分不進(jìn)行梯度的反向傳播,并通過(guò)一種有趣的方式共享權(quán)重。關(guān)于這方面也有很多論文。
如果你想訓(xùn)練一個(gè)完全自監(jiān)督的系統(tǒng),以生成良好的圖像表示,這種方法效果很好。圖像的破壞是通過(guò)掩蔽進(jìn)行的,最近的一些工作是我們?yōu)橐曨l做的,這樣我們就可以訓(xùn)練一個(gè)系統(tǒng)來(lái)提取良好的視頻表示,以便用于下游任務(wù),如動(dòng)作識(shí)別視頻等。你可以看到,給一個(gè)視頻掩蔽掉一大塊,通過(guò)這個(gè)過(guò)程進(jìn)行預(yù)測(cè),在表示空間中使用這種蒸餾技巧來(lái)防止崩潰。這效果很好。
因此,如果我們?cè)谶@個(gè)項(xiàng)目中成功,并最終得到能夠推理、計(jì)劃和理解物理世界的系統(tǒng),未來(lái)我們所有的互動(dòng)將會(huì)是這樣的。
這將需要數(shù)年,甚至可能是十年才能讓一切正常運(yùn)作。馬克·扎克伯格一直在問(wèn)我需要多長(zhǎng)時(shí)間。如果我們成功做到這一點(diǎn),好的,我們將擁有能夠調(diào)解我們與數(shù)字世界所有互動(dòng)的系統(tǒng)。它們將回答我們所有的問(wèn)題。
它們將在很多時(shí)候與我們同在,基本上會(huì)構(gòu)成所有人類(lèi)知識(shí)的一個(gè)庫(kù)。這感覺(jué)像是一個(gè)基礎(chǔ)設(shè)施的東西,就像互聯(lián)網(wǎng)一樣。這并不像是一個(gè)產(chǎn)品,而更像是一種基礎(chǔ)設(shè)施。
這些人工智能平臺(tái)必須是開(kāi)源的。IBM和Meta參與了一個(gè)名為人工智能聯(lián)盟的組織,促進(jìn)開(kāi)源人工智能平臺(tái)。我們需要這些平臺(tái)是開(kāi)源的,因?yàn)槲覀冃枰@些人工智能系統(tǒng)的多樣性。
我們需要它們理解世界上所有的語(yǔ)言、所有的文化、所有的價(jià)值體系,而你不會(huì)僅僅從由美國(guó)西海岸或東海岸的公司生產(chǎn)的單一系統(tǒng)中獲得這些。這必須是來(lái)自全世界的貢獻(xiàn)。
當(dāng)然,訓(xùn)練金融模型的成本非常高,因此只有少數(shù)公司能夠做到這一點(diǎn)。如果像Meta這樣的公司能夠提供開(kāi)源的基礎(chǔ)模型,那么全世界都可以為自己的目的對(duì)其進(jìn)行微調(diào)。這是Meta和IBM采用的哲學(xué)。
因此,開(kāi)源人工智能不僅僅是一個(gè)好主意,它對(duì)于文化多樣性,甚至可能對(duì)于民主的保存都是必要的。
訓(xùn)練和微調(diào)將通過(guò)眾包進(jìn)行,或者由初創(chuàng)公司和其他公司的生態(tài)系統(tǒng)完成。
這正是推動(dòng)人工智能初創(chuàng)生態(tài)系統(tǒng)發(fā)展的原因之一,就是這些開(kāi)源人工智能模型的可用性。達(dá)到通用人工智能需要多長(zhǎng)時(shí)間?我不知道,可能需要數(shù)年到數(shù)十年。
這過(guò)程中有很大的變化,還有許多問(wèn)題需要解決。這幾乎肯定比我們想象的要困難得多。這不會(huì)在一天內(nèi)發(fā)生,而是逐步的、漸進(jìn)的演變。
所以并不是說(shuō)某一天我們會(huì)發(fā)現(xiàn)通用人工智能的秘密,啟動(dòng)機(jī)器后立刻擁有超智能,而我們都會(huì)被超智能所消滅,不,情況并不是這樣的。
機(jī)器將會(huì)超越人類(lèi)智力,但它們將處于控制之下,因?yàn)樗鼈兪悄繕?biāo)驅(qū)動(dòng)的。我們給它們?cè)O(shè)定目標(biāo),它們就會(huì)完成這些目標(biāo)。就像我們這里的許多人都是行業(yè)或?qū)W術(shù)界的領(lǐng)導(dǎo)者。
我們與比我們聰明的人合作,我當(dāng)然也是。有很多人比我聰明,并不意味著他們想要主宰或接管,這就是事情的真相。當(dāng)然這背后確實(shí)也有風(fēng)險(xiǎn),但我將把這留給后面的討論,非常感謝。