人工智能公司正在從創(chuàng)造上帝轉向做好產(chǎn)品,這是好事
隨著這一波人工智能熱潮的消退,大家的期望已經(jīng)從做出通用人工智能逐漸轉到做出有人工智能輔助的好產(chǎn)品,對于面臨五大限制的生成式AI來說,這種務實態(tài)度不失為一件好事。文章來自編譯。
人工智能公司正打算往硬件與數(shù)據(jù)中心砸萬億美元,但迄今為止,這些計劃收到的成果相對較少。大家開始擔心,認為生成式人工智能只是泡沫而已。未來會發(fā)生什么我們這里不做預測。但我們認為,我們對事情如何發(fā)展到這一步已經(jīng)有了一個可靠診斷。
在本文里,我們將解釋人工智能公司犯下的錯誤及如何努力糾正這些錯誤。然后,我們將討論為了讓生成式人工智能在商業(yè)上獲得足夠的成功,從而證明投資的合理性,他們?nèi)孕杩朔奈鍌€障礙。
產(chǎn)品市場匹配
ChatGPT 推出后,大家發(fā)現(xiàn)了其成千上萬種讓人意想不到的用途。這讓人工智能的開發(fā)者興奮不已??伤麄兺耆`解了市場,低估了概念驗證與可靠產(chǎn)品之間的巨大差距。這種誤解導致了兩種截然相反但同樣有缺陷的大語言模型( LLM )商業(yè)化的做法。
OpenAI 與 Anthropic 把焦點放在開發(fā)模型,而不是去關心產(chǎn)品。舉個例子,OpenAI 用了 6 個月的時間才推出 ChatGPT iOS 應用,然后又花了 8 個月的時間才推出 Android 應用!
谷歌和微軟則是在驚慌失措的爭奪當中將人工智能推向一切,卻沒有考慮哪些產(chǎn)品真正受益于人工智能以及應該如何整合它們。
這兩類公司都忘記了“造大家想要的東西”這個口號。LLM 的普遍性讓開發(fā)者自欺欺人,自認為他們不需要尋找適合市場的產(chǎn)品,就好像讓模型執(zhí)行任務可以替代精心設計的產(chǎn)品或功能一樣。
OpenAI 與 Anthropic 這種 DIY 的做法意味著 LLM 的早期采用者往往是壞人,因為他們更注重研究如何將新技術為我所用,而日常用戶想要的是易用的產(chǎn)品。這導致公眾對這項技術的認知度較低。
與此同時,微軟與谷歌將人工智能懟到你臉上的策略導致了一些功能有時有用,但更多時候卻令人討厭。由于測試不夠,這還導致了許多非受迫性錯誤,比方說微軟早期的 Sydney 聊天機器人,谷歌的 Gemini 的圖像生成器等。這還引發(fā)了強烈反應。
但企業(yè)正在改變自己的做法。OpenAI 似乎正在從一個專注于推測性未來的研究實驗室轉變?yōu)橐粋€做普通產(chǎn)品的公司。如果從 OpenAI 董事會鬧劇中剔除掉所有的人情元素,這件事本質(zhì)上其實是關于公司從試圖創(chuàng)造上帝到制造產(chǎn)品的轉變。Anthropic 一直在招募 OpenAI 的眾多研究人員與開發(fā)人員,這些人更關心通用人工智能,在 OpenAI 感到格格不入,盡管 Anthropic 也認識到制造產(chǎn)品的必要性。
谷歌與微軟的學習速度比較慢,但我們估計蘋果會迫使它們做出改變。去年,蘋果被視為人工智能領域的落后者,但回想起來,蘋果在開發(fā)者大會 WWDC 上所展示的緩慢但深思熟慮的做法更有可能引起用戶的共鳴。在將人工智能融入到即將推出的 Pixel 手機以及 Android 上,谷歌花費的心思似乎比在搜索方面的還要多,但這些手機還沒有上市,我們拭目以待吧。
此外還有 Meta,其愿景是利用人工智能在其廣告驅動的社交媒體平臺上創(chuàng)建內(nèi)容并進行互動。人工智能生成內(nèi)容泛濫的世界對社會的影響是把雙刃劍,但從商業(yè)角度來看,這是行得通的。
消費級人工智能面臨的五大挑戰(zhàn)
開發(fā)者需要克服 LLM 的五種局限才能做出吸引人的 AI 型消費產(chǎn)品。
1.成本
對于很多應用來說,能力不是障礙,成本才是。即便是一個簡單的聊天應用,成本問題也會決定機器人可以跟蹤多少歷史記錄——隨著對話時間的延長,處理每一個響應的整個歷史記錄很快就會變得非常昂貴。
在成本方面以及取得了快速進展——在過去 18 個月的時間里,同等功能成本下降了 100 多倍。因此,有公司聲稱 LLM 已經(jīng)或將很快“便宜到可忽略不計”。好吧,等到他們能免費提供 API 時,我們才會相信這一點。
我們認為成本將繼續(xù)成為關注點,因為問題的嚴重性在于,在許多應用當中,成本改進會直接轉化為準確性的改進。這是因為考慮到 LLM 的隨機性,反復重試任務數(shù)十次、數(shù)千次甚至數(shù)百萬次被證明是提高成功率的好方法。因此,模型越便宜,我們在給定預算的情況下可以進行的重試次數(shù)就越多。我們在最近關于智能體的論文中對此進行了量化;從那時起,許多其他論文也提出了類似的觀點。
話雖如此,我們很快就會達到這樣一種程度:即大多數(shù)應用的成本優(yōu)化不再是個嚴重問題。
2.可靠性
我們認為能力與可靠性在某種程度上是相互獨立的。如果一個人工智能系統(tǒng)在 90% 的時間內(nèi)都能正確執(zhí)行任務,我們可以說它能執(zhí)行任務,但不能可靠地完成任務。能讓我們達到 90% 的技術不大可能讓我們達到 100%。
對于基于統(tǒng)計學習的系統(tǒng)爾雅,實現(xiàn)完美的準確性其實是很困難的。不妨想想機器學習的成功案例,比如廣告定位或欺詐檢測,或者最近的天氣預報,其目標并不是完美的準確性——只要系統(tǒng)比最先進的系統(tǒng)好就是有用的。即便是醫(yī)療診斷以及其他的醫(yī)療保健應用,我們也能容忍很多錯誤。
但當開發(fā)者將人工智能融入到消費產(chǎn)品時,人們希望它能像軟件一樣運行,這意味著它需要有確定性。如果一個人工智能旅行社只有 90% 的時間能預訂到正確的度假目的地,這樣的產(chǎn)品是不會成功的。正如我們之前所寫那樣,可靠性限制在一定程度上解釋了最近人工智能型小工具的失敗。
人工智能開發(fā)者之所以遲遲沒有意識到這一點,是因為作為專家,我們習慣于將人工智能概念化為與傳統(tǒng)軟件有著根本區(qū)別的東西。比方說,我們兩人在日常工作中都是聊天機器人及智能體的重度用戶,我們對避開這些工具的幻覺與不可靠性幾乎已經(jīng)習以為常。一年前,人工智能開發(fā)者希望或假設非專家用戶會學會適應人工智能,但情況已逐漸明朗,企業(yè)必須讓人工智能適應用戶的期望,讓人工智能像傳統(tǒng)軟件一樣運行。
提高可靠性是我們普林斯頓團隊的研究興趣所在。目前,是否有可能用隨機組件 (LLM型) 開發(fā)出確定性系統(tǒng),這個從根本上來說是一個懸而未決的問題。一些公司聲稱已經(jīng)解決了可靠性問題——比方說,法律技術供應商宣稱實現(xiàn)了“無幻覺”系統(tǒng)。但事實證明這些說法為時過早。
3. 隱私
從歷史上看,機器學習通常要依賴敏感數(shù)據(jù)源,比方說用于廣告定位的瀏覽歷史記錄或用于醫(yī)療技術的醫(yī)療記錄。從這個意義上來說,LLM有點反常,因為它們主要用網(wǎng)頁、書籍等公共資源來進行訓練。
但隨著人工智能助手的出現(xiàn),隱私問題又卷土重來。為了打造出實用的助手,公司必須訓練系統(tǒng)處理用戶交互。比方說,為了讓AI擅長撰寫電子郵件,如果模型接受過電子郵件的訓練的話,會非常有幫助。公司的隱私政策對此含糊其辭,目前尚不清楚他們在多大程度用電子郵件對AI進行了訓練。電子郵件、文檔、屏幕截圖等可能要比聊天交互敏感得多。
與訓練相比,推理還存在一種獨特的隱私問題。為了讓助手能為我們做一些有用的事情,它們必須能夠訪問我們的個人數(shù)據(jù)。比方說,微軟發(fā)布了一項有爭議的功能,該功能需要每隔幾秒鐘截取用戶電腦的屏幕截圖,好讓 CoPilot AI 記住你的活動。但此舉遭到了強烈抗議,該公司已經(jīng)改變主意。
敬告各位,不要對隱私做出純技術性的解讀,比如“數(shù)據(jù)永遠不會離開設備”。梅雷迪斯·惠特克認為,設備的欺詐檢測導致始終在線的監(jiān)控成為常態(tài),而基礎設施可以被重新用于更具侵略性的目的。話雖如此,技術創(chuàng)新肯定能有所幫助。
4. 安全與保障
在安全性方面,存在一系列相關擔憂:無意的故障,比方說 Gemini 圖像生成產(chǎn)生的偏見;人工智能的濫用,比方說語音克隆或深度偽造;以及可能泄露用戶數(shù)據(jù)或以其他方式傷害用戶的黑客行為,比方說提示注入等。
我們認為意外故障是可以修復的。至于大多數(shù)類型的誤用,我們的觀點是,沒有辦法建立一個不會被誤用的模型,因此防御措施必須主要位于下游。當然,并不是每個人都同意這一點,因此公司會因為不可避免的誤用而不斷遭到負面報道,但他們似乎已經(jīng)將其視為經(jīng)營成本的一部分。
這里我們重點談談第三類——黑客攻擊。據(jù)我們所知,這似乎是公司最不關注的一個。至少從理論上來說,災難性的黑客攻擊是可能的,比方說在用戶之間傳播的 AI 蠕蟲,誘騙這些用戶的 AI 助手進行有害操作,包括創(chuàng)建更多的蠕蟲副本等。
盡管有大量的概念驗證演示和漏洞賞金項目揭示了已部署產(chǎn)品中的這些漏洞,但我們尚未在實驗室之外看到此類攻擊。我們不確定這是因為人工智能助手的采用率低,還是因為公司制定的笨拙的防御措施已經(jīng)足夠,還是其他原因。時間會告訴我們答案。
5. 用戶界面
對于很多應用來說,LLM 的不可靠性意味著如果機器人偏離軌道,用戶必須能用某種方式進行干預。如果是聊天機器人,這可以像重新生成答案或顯示多個版本并讓用戶選擇一樣簡單。但如果時候錯誤代價高昂的應用,比方說航班預訂,確保充分的監(jiān)督會更加棘手,系統(tǒng)必須避免因過多的干擾而惹惱用戶。
對于自然語言界面(用戶與助手對話,助手回應)來說,問題會更加棘手。這正是生成式人工智能的潛力所在。舉個例子,人工智能會隱藏在你的眼鏡背后,在你需要時與你對話,甚至不需要你詢問——比如檢測到你正在盯著一個外語標志時提供幫助——這將是一種與我們今天完全不同的體驗。但受限的用戶界面幾乎沒有任何犯錯或意外行為的空間。
總結
人工智能的支持者經(jīng)常聲稱,由于人工智能能力的快速提升,我們很快就會看到巨大的社會和經(jīng)濟效應。我們對這些能力預測當中的趨勢推斷以及草率的思維持懷疑態(tài)度。更重要的是,即便人工智能能力確實得到迅速提高,開發(fā)者也必須應對上述挑戰(zhàn)。這些挑戰(zhàn)屬于社會技術方面,而不是純技術方面的,因此進展會很緩慢。就算這些挑戰(zhàn)得到解決,組織也需要將人工智能集成到現(xiàn)有產(chǎn)品與工作流程之中,并培訓人們有效地使用,同時避免其陷阱。我們的合理預計是這會在十年或更長的時間內(nèi)發(fā)生,而不是一兩年。