百度為什么能做到?我國(guó)AIGC產(chǎn)業(yè)市場(chǎng)規(guī)模預(yù)測(cè)圖
百度為什么能做到?
百度發(fā)力大模型的更深層次原因,或許可以從行業(yè)現(xiàn)狀和技術(shù)積累兩個(gè)方面來(lái)解讀。
首先是行業(yè)趨勢(shì)。當(dāng)下以大模型技術(shù)為代表的AIGC領(lǐng)域,已經(jīng)開(kāi)始從技術(shù)和應(yīng)用兩方面變革各行各業(yè)的生產(chǎn)方式,甚至帶來(lái)突破性的效率提升。
根據(jù)量子位智庫(kù)預(yù)測(cè),AIGC市場(chǎng)規(guī)模會(huì)在2030年達(dá)到1.15萬(wàn)億元,期間將經(jīng)歷培育摸索期、應(yīng)用蓬勃期和整體加速期三個(gè)階段。
△來(lái)源于量子位智庫(kù)
即使目前還在培育摸索期階段,新玩家還在不斷涌現(xiàn),大模型頭部領(lǐng)域的競(jìng)爭(zhēng)卻已經(jīng)到了白熱化階段。
尤其行業(yè)中進(jìn)展最快的技術(shù)玩家,已經(jīng)開(kāi)始有上層應(yīng)用落地的趨勢(shì)。
在國(guó)外,以OpenAI為例,根據(jù)SimilarWeb數(shù)據(jù),ChatGPT僅2023年4月份,全球訪(fǎng)問(wèn)量就已經(jīng)達(dá)到17.6億次;至于與ChatGPT和GPT-3相關(guān)的應(yīng)用,據(jù)GPT3demo統(tǒng)計(jì)已經(jīng)超過(guò)800個(gè),光是這兩個(gè)月就增加了200多個(gè)。
在國(guó)內(nèi),百度也已經(jīng)透露了大模型相關(guān)應(yīng)用數(shù)據(jù)。文心一言開(kāi)始企業(yè)內(nèi)測(cè)之后,在與百度智能云接洽大模型業(yè)務(wù)的客戶(hù)中,新客戶(hù)比例已經(jīng)超過(guò)老客戶(hù)比例,有超過(guò)300+企業(yè)參與內(nèi)測(cè)。
顯然,當(dāng)?shù)讓哟竽P图夹g(shù)達(dá)到穩(wěn)定進(jìn)入實(shí)際生產(chǎn)環(huán)節(jié)的水平,上層就會(huì)不斷開(kāi)發(fā)出真正有突破性質(zhì)量的應(yīng)用。
伴隨著應(yīng)用數(shù)量不斷增加形成生態(tài),最終將徹底在電商、內(nèi)容、辦公、交通等領(lǐng)域產(chǎn)生巨大的行業(yè)變革。
△來(lái)源于量子位智庫(kù)
營(yíng)銷(xiāo)客服行業(yè),百度文心一言目前已經(jīng)將智能客服的知識(shí)生產(chǎn)效率提升了9倍,多輪對(duì)話(huà)構(gòu)建的成本下降65%,終端用戶(hù)認(rèn)為客服接近真人的比率也在上升。
城市交通行業(yè),目前北京亦莊的300多個(gè)路口,全都部署了百度AI信控系統(tǒng),通過(guò)智能調(diào)整紅綠燈的時(shí)間,提升最高30%的交通效率,有效解決了北京堵車(chē)這一“歷史性難題”。
但若僅僅從行業(yè)變革的速率和市場(chǎng)規(guī)模角度出發(fā),還無(wú)法完全解釋百度發(fā)力大模型的原因。
畢竟從打造大模型的算力、數(shù)據(jù)和算法等層面的難度來(lái)看,僅憑短期的技術(shù)自研,顯然難以支撐“快速重構(gòu)所有產(chǎn)品”這一做法。
因此,從自身實(shí)力來(lái)看,百度這些年在自研芯片、架構(gòu)到AI算法等各方面的“技術(shù)基底”,恰恰又成為了發(fā)力這波大模型浪潮必備的關(guān)鍵因素。
具體來(lái)說(shuō),主要可以分為三個(gè)方面。
其一,是在AI技術(shù)、尤其是大模型技術(shù)上的長(zhǎng)期投入和積累。
最早從2013年開(kāi)始,百度就在布局AI相關(guān)的技術(shù),累計(jì)十年下來(lái)已經(jīng)投入超過(guò)1000億元,其中核心研發(fā)投入多個(gè)季度占比超過(guò)20%;
巨量研發(fā)投入背后,是技術(shù)護(hù)城河的建立,截至2022年4月,百度全球AI專(zhuān)利申請(qǐng)已經(jīng)超過(guò)2.2萬(wàn)件。
這樣的技術(shù)積累,讓百度如今在大模型研發(fā)必不可少的芯片、框架、模型和應(yīng)用四層架構(gòu)中,均實(shí)現(xiàn)了對(duì)應(yīng)的自研技術(shù)積累。
芯片層上,百度自研芯片昆侖二代,已經(jīng)量產(chǎn)并部署了幾萬(wàn)片,而昆侖芯最新的第三代,則預(yù)計(jì)2024年初投入量產(chǎn);
框架層上,百度從2016年就開(kāi)源了飛槳深度學(xué)習(xí)框架,目前這一框架已經(jīng)集成了深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫(kù)、端到端開(kāi)發(fā)套件等工具組件,在中國(guó)市場(chǎng)份額中排行第一;
模型層上,文心一言背后的核心技術(shù)文心大模型,從2019年開(kāi)始就已經(jīng)發(fā)布1.0版本,并在后續(xù)研發(fā)中不斷進(jìn)行優(yōu)化,目前已經(jīng)迭代到3.5版本;
應(yīng)用層上,百度除了研發(fā)了單獨(dú)的十個(gè)行業(yè)大模型以外,在搜索、智能云、自動(dòng)駕駛、小度等上面也已經(jīng)積累了不少研發(fā)經(jīng)驗(yàn)。
不過(guò),在各層技術(shù)棧上“單獨(dú)發(fā)力”,還只是百度大模型的核心競(jìng)爭(zhēng)力的一部分。
其二,針對(duì)這四層核心架構(gòu)打出“組合拳”,又進(jìn)一步形成了百度獨(dú)特的技術(shù)優(yōu)勢(shì)。
雖然國(guó)外如亞馬遜、國(guó)內(nèi)阿里都已經(jīng)在芯片層、模型層上發(fā)展了自研技術(shù),微軟則也已經(jīng)在框架層和應(yīng)用技術(shù)上有所準(zhǔn)備。
但百度之所以同時(shí)發(fā)力自研芯片、框架、模型和應(yīng)用領(lǐng)域,正是側(cè)重于優(yōu)化這些架構(gòu)之間的高效協(xié)同,從而讓自研大模型的基礎(chǔ)設(shè)施能力進(jìn)一步提升。
打個(gè)比方,對(duì)于大模型而言,想要極致優(yōu)化推理速度和使用成本,算力、框架、模型、應(yīng)用就像是四個(gè)齒輪,各自轉(zhuǎn)速之外,很大程度上還要看它們之間的“配合能力”。
如今,這種“配合能力”,也已經(jīng)成為百度發(fā)力大模型的獨(dú)特優(yōu)勢(shì)。
打通四層技術(shù)架構(gòu)后,百度已經(jīng)能在基礎(chǔ)設(shè)施層面上,打出千卡加速比90%、資源利用率70%,開(kāi)發(fā)效率提升100%這樣的“組合拳”。
如今,這一套組合拳更是在文心一言大模型應(yīng)用的成本上,有直觀的體現(xiàn):
此前3月份啟動(dòng)內(nèi)測(cè)時(shí),如今不到2個(gè)月,百度大模型文心一言已完成4次技術(shù)版本升級(jí),其推理成本更是已經(jīng)降為原來(lái)的十分之一。
最后,在自主可控上,百度的這些技術(shù)不僅能用在自身大模型上,還能反過(guò)來(lái)進(jìn)一步加速行業(yè)大模型的生產(chǎn)落地。
換而言之,文心一言不僅做到了數(shù)據(jù)可控、框架可控、模型可控,在全球科技領(lǐng)域中擁有話(huà)語(yǔ)權(quán),更能將這一套技術(shù)對(duì)外輸出,助力行業(yè)加速打造更多大模型。
以百度已經(jīng)在內(nèi)測(cè)的文心千帆大模型平臺(tái)為例,僅需少量數(shù)據(jù)、最快幾分鐘,大模型就能完成一次“定制化”,極大地加速了大模型從研發(fā)到生產(chǎn)的全套過(guò)程。
而文心千帆的這一套流水線(xiàn),并非僅為文心一言所打造,其訓(xùn)練調(diào)優(yōu)經(jīng)驗(yàn)和技術(shù),已經(jīng)可以向第三方輸出。
換而言之,百度不僅是這波大模型變革浪潮的“參與者”,更是其中的“發(fā)力者”,其技術(shù)不僅可以用于構(gòu)建大模型底座,更能對(duì)外輸出,讓國(guó)內(nèi)更多玩家在這一領(lǐng)域具備國(guó)際競(jìng)爭(zhēng)力。