張鈸直指人工智能行業(yè)當(dāng)前問題：沒有理論只有模型算法

8月1日，中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長張鈸在ISC.AI 2024第十二屆互聯(lián)網(wǎng)安全大會的演講上表示，當(dāng)前人工智能還沒有理論，只有發(fā)展出來針對的模型和算法，它們都是針對特定領(lǐng)域的，軟件或硬件也都是專用的，市場很小，因此到現(xiàn)在為止還沒有發(fā)展出一個大型的人工智能產(chǎn)業(yè)，問題就出在這里。

張鈸現(xiàn)年已經(jīng)89歲高齡，過去幾十年里，他在清華大學(xué)培養(yǎng)了一批人工智能人才，是中國人工智能學(xué)科的奠基人之一。當(dāng)前不少火熱的“清華系”大模型企業(yè)如生數(shù)科技、智譜AI、面壁智能、Kimi等，均受益于在清華打下的技術(shù)基礎(chǔ)，核心技術(shù)人才或直接或間接師承于張鈸。

本次演講，張鈸不僅指出了當(dāng)前人工智能技術(shù)存在的缺陷和問題，也給出了未來改進(jìn)的方向。

張鈸演講時現(xiàn)場觀眾拍攝其演講PPT 新京報貝殼財經(jīng)記者羅亦丹/攝

當(dāng)考慮基礎(chǔ)模型時，要考慮3大能力與1大缺陷

在張鈸看來，因?yàn)槔碚摰南拗?，人工智能產(chǎn)業(yè)的前一階段必須要結(jié)合具體的應(yīng)用領(lǐng)域來發(fā)展，因此這一階段發(fā)展出的人工智能屬于專用人工智能，即“弱”人工智能。不過，他也指出，目前基礎(chǔ)模型在語言問題上做到了通用，“我們考慮基礎(chǔ)模型的時候需要考慮3大能力與1大缺陷，這點(diǎn)是非常重要，是我們考慮今后產(chǎn)業(yè)發(fā)展的出發(fā)點(diǎn)。”

他解釋稱，大語言模型的強(qiáng)大之處體現(xiàn)在強(qiáng)大的語言生成能力、強(qiáng)大的人機(jī)自然交互能力和強(qiáng)大的舉一反三能力，“大語言模型的語言生成屬于開放領(lǐng)域，能夠生成多樣化的結(jié)果，所有輸出人類都可以理解，即便是‘胡說八道’我們也可以理解在胡說什么，這一點(diǎn)非常重要。人類跟機(jī)器在開放領(lǐng)域進(jìn)行自然語言對話，我們之前以為要通過幾代人的努力才能達(dá)到這個目標(biāo)，但大家沒想到的是2020年這個目標(biāo)已經(jīng)達(dá)到了?！?/span>

張鈸表示，大模型的缺陷就是“幻覺”，“因?yàn)槲覀円笏卸鄻有缘妮敵?，必然它會產(chǎn)生錯誤。這個錯誤跟機(jī)器都會產(chǎn)生錯誤非常不一樣，機(jī)器產(chǎn)生的錯誤往往是我們可以控制的，這個錯誤是本身的錯誤，是一定會發(fā)生的，而且我們不可控，所以，這點(diǎn)也是我們后面考慮它應(yīng)用需要考慮的問題。”

結(jié)合3大能力與1大缺陷，張鈸總結(jié)出了大模型當(dāng)前適合應(yīng)用的場景：對錯誤的容忍程度要高。他表示從產(chǎn)業(yè)情況來看，大模型的應(yīng)用呈現(xiàn)“U”字形——前部的規(guī)劃、設(shè)計(jì)要求內(nèi)容多樣性，后部的服務(wù)、推薦也要求多樣性，同時對錯誤的容忍程度較高，但中間部分就需要根據(jù)情況來考慮使用。

盡管存在問題，張鈸還是表示不論怎樣“模型是一定要用的”，“因?yàn)橛辛四Ｐ偷鬃院螅瑧?yīng)用的效率和質(zhì)量一定會提高。過去的應(yīng)用場景我們是在空的計(jì)算機(jī)上開發(fā)軟件提供服務(wù)，空的計(jì)算機(jī)相當(dāng)于文盲，而現(xiàn)在有了大模型，平臺至少是個高中生，開發(fā)效率一定會提高，以后的方向一定是這樣?！?/span>

張鈸重點(diǎn)分析了幻覺出現(xiàn)的根本原因，他認(rèn)為模型的根本限制在于目前所有的機(jī)器所做的工作都是外部驅(qū)動，人類教它怎么做，而不是自己主動做。同時，它生成的結(jié)果受提示詞的影響非常大，與人類是在內(nèi)部意圖的控制下完成工作有明顯的區(qū)別。

大模型未來的4個發(fā)展方向：對齊、多模態(tài)、智能體、具身智能

張鈸介紹，未來大模型有4個發(fā)展方向，對如何改進(jìn)大模型非常重要。

其一是與人類對齊，“大模型沒有判斷對錯的能力，自己不能自我更新，都是人類驅(qū)動下去更新的，不突破這一點(diǎn)，機(jī)器就不能自我進(jìn)化。大模型需要外部的提示，所以在人類的驅(qū)動下改正大模型的錯誤是我們做的第一件工作。”

其二是多模態(tài)生成，“多模態(tài)生成將來對產(chǎn)業(yè)的發(fā)展非常重要，因?yàn)榇蠹铱吹酱竽Ｐ椭饕巧晌谋?，但是我們用同樣的辦法生成圖像、聲音、視頻、代碼之后，生成的水平是跟人類的水平接近的。我們現(xiàn)在為什么圖像能生成的那么好，主要是把圖像跟文本掛鉤。所以，最本質(zhì)的是文本處理的突破?！?/span>

其三是ai agent（智能體）的概念，“要把大模型和周圍的虛擬環(huán)境結(jié)合起來，讓環(huán)境提示它的錯誤，因?yàn)橐患伦隽酥蟛胖缹湾e，因此智能體的概念非常重要，讓環(huán)境提示智能體，讓它有反思的機(jī)會，去改正錯誤?！?/span>

其四是具身智能，“通過加上機(jī)器人，讓大模型在物理世界也能夠工作。將來如何發(fā)展通用機(jī)器人？我認(rèn)為要‘軟件通用，硬件多樣化’，馬斯克宣傳人形機(jī)器人，但我認(rèn)為將來不止限于人形機(jī)器人?！?/span>

在張鈸看來，發(fā)展第三代人工智能，首先必須建立理論，大模型的存在沒有理論可以解釋，所以才會引起各種困惑和誤解，機(jī)器發(fā)展規(guī)模越來越大，理論不能解釋就會引起恐慌，得到安全、可控、可信、可靠、可擴(kuò)展的人工智能技術(shù)，在這一領(lǐng)域沒有發(fā)展完善之前，人工智能始終是存在安全問題的。