亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

智譜 AI 開放平臺上線了 GLM-4-Long,支持 1M 上下文

AIGC行業(yè)資訊1年前 (2024)發(fā)布 zhang
96 0

年初大模型行業(yè)上演 ” 長文本 ” 大戰(zhàn)時(shí),我們就萌生過做一個(gè) ” 讀書助理 ” 的想法。測試了市面上主流的大模型后,發(fā)現(xiàn)普遍存在兩個(gè)不足:

一種是可以處理的文本長度不夠,即使有些大模型將文本長度提升到了 20 萬字,像《紅樓夢》這樣近百萬字的名著,還是需要多次才能 ” 讀 ” 完。

另一種是語言理解和生成能力不足,經(jīng)常出現(xiàn) ” 幻覺 “。” 長文本 ” 的特點(diǎn)不僅僅是長,還涉及到復(fù)雜的邏輯和文本語義,需要更連貫、相關(guān)的響應(yīng)。

直到前兩天,一位做 AIGC 的朋友向我們同步了一個(gè)新消息:” 智譜 AI 開放平臺默默上線了為處理超長文本和記憶型任務(wù)設(shè)計(jì)的 GLM-4-Long,支持 1M 上下文。”100 萬上下文長度到底意味著什么呢?我們找來了另外兩個(gè)大模型,用 120 回版本的《紅樓夢》(大約有 73 萬個(gè)漢字)進(jìn)行了簡單對比:

月之暗面 128K 的大模型,每次可以處理 6.4 萬個(gè)漢字,需要 12 次才能讀完;Claude 200K 的大模型,每次可以處理 10 萬個(gè)漢字,需要 8 次才能讀完;GLM-4-Long 實(shí)測可以處理 150-200 萬字,一次就能讀完一本《紅樓夢》。

不過,文本長度只是一個(gè)入門能力,能否扮演起 ” 讀書助理 ” 的角色,必須要確保能夠從大量文本中準(zhǔn)確檢索信息,特別是當(dāng)某些關(guān)鍵信息被置于文檔的深處時(shí),以及出色的推理和內(nèi)容生成能力。

于是我們對 GLM-4-Long 進(jìn)行了深度測試。

01 兩分鐘 ” 熟讀 ” 錢穆先生的《國史大綱》

大約是 5 年前,我們購買了錢穆先生的《國史大綱》,商務(wù)印書館的繁體豎排版。因?yàn)槭怯么髮W(xué)教科書體例寫成,學(xué)術(shù)味兒比較濃,再加上錢穆先生精煉的文筆風(fēng)格,至今都沒有完整讀完。

GLM-4-Long 能否勝任 ” 書童 ” 的角色呢?

我們調(diào)用了 GLM-4-Long 的 API 接口,讀取了 50 多萬字的電子版《國史大綱》,然后針對性地問了三個(gè)問題:

第一個(gè)問題:請總結(jié)這篇文檔中每個(gè)部分的主要內(nèi)容

原書目錄中只羅列了每個(gè)章節(jié)的標(biāo)題,希望通過這個(gè)問題驗(yàn)證大模型是否處理了文檔的全部信息,對內(nèi)容的理解和總結(jié)生成能力。

從輸出的結(jié)果來看,不僅準(zhǔn)確整理出了每個(gè)章節(jié)的核心內(nèi)容,還按照現(xiàn)在比較主流的紀(jì)年方式,將全書內(nèi)容拆分為上古文化、春秋戰(zhàn)國、秦漢、魏晉南北朝、隋唐五代、兩宋、元明、清代等 8 個(gè)部分,內(nèi)容準(zhǔn)確度超過 99%,僅僅是 ” 兩宋之部 ” 在小標(biāo)題上被列舉了兩次(可以通過模型微調(diào)進(jìn)行優(yōu)化)。

第二個(gè)問題:” 秦漢國力與對外形勢 ” 在文檔哪個(gè)部分?

這是一個(gè)迷惑性比較強(qiáng)的問題,因?yàn)榈谄哒潞偷诎苏露贾v了相關(guān)背景,但錢穆先生放在了第十一章進(jìn)行重點(diǎn)介紹。

智譜 AI 開放平臺上線了 GLM-4-Long,支持 1M 上下文

GLM-4-Long 并未掉進(jìn)預(yù)設(shè)的 ” 陷阱 “,準(zhǔn)確指出了問題所在的章節(jié)和標(biāo)題。這也是長文本處理的一個(gè)典型痛點(diǎn),在長達(dá)幾十萬字的內(nèi)容中,作者可能在多個(gè)地方描述相似的幾件事,最為考驗(yàn)大模型的語義理解和內(nèi)容檢索能力,并非是對文本的機(jī)械處理,意味著需要更強(qiáng)的抽象和內(nèi)容歸納能力。

第三個(gè)問題:北宋的建國和漢唐時(shí)期有什么不同?

搜索引擎上沒有直接相關(guān)的答案,但錢穆先生在書中給出了系統(tǒng)闡述,用于驗(yàn)證 GLM-4-Long 能否理解書中的細(xì)節(jié)信息。

智譜 AI 開放平臺上線了 GLM-4-Long,支持 1M 上下文

這次的答案再次讓我們驚艷,分別從建國方式、統(tǒng)治方式、對外政策、經(jīng)濟(jì)、文化、社會、政治制度等角度綜述了錢穆先生的觀點(diǎn)。特別是在 ” 對外政策 ” 上,準(zhǔn)確回答了 ” 漢唐時(shí)期積極對外擴(kuò)張,北宋采取保守的防御策略 “,并且簡單提及了政策變化背后的原因,即五代十國時(shí)期戰(zhàn)爭頻繁,導(dǎo)致國力消耗嚴(yán)重。

相關(guān)的測試問題不再一一贅述,直接給出我們的答案:GLM-4-Long 對文檔全局信息的處理、長文本理解和生成、多輪對話等能力均超出預(yù)期,整個(gè)體驗(yàn)有一種和錢穆先生跨時(shí)空對話的 ” 錯(cuò)覺 “。

另一個(gè)不應(yīng)該被忽略的信息在于,一本 50 多萬字的書籍,GLM-4-Long 僅用了兩分鐘左右的時(shí)間進(jìn)行處理。如果想要用大模型處理一些沒有時(shí)間研讀的長文本,GLM-4-Long 某種程度上可以說是最佳幫手。

02 用多個(gè)文檔訓(xùn)練出一位 ” 知識博主 ”

很多人在日常工作和生活中接觸的文檔,并非是動輒近百萬字的巨著,而是幾萬字、最多十幾萬字的文檔和資料。在這樣比較大眾化的需求下,像 GLM-4-Long 這樣 1M 長文本能力的大模型,有何特殊價(jià)值?

前面用《紅樓夢》做了對比,其實(shí)還有另一種對比方式:

月之暗面 128K 的大模型,每次可以處理 6.4 萬個(gè)漢字,相當(dāng)于讀 1 本《活著》;Claude 200K 的大模型,每次可以處理 10 萬個(gè)漢字,相當(dāng)于一次讀《活著》和《在細(xì)雨中吶喊》兩本書;GLM-4-Long 的 1M 上下文,可以一次讀余華老師的多本書,比如《活著》《在細(xì)雨中吶喊》《河邊的錯(cuò)誤》《第七天》……

由此萌生的一個(gè)想法是:是不是可以讓大模型一次讀多本相關(guān)的專業(yè)書籍,快速訓(xùn)練出一個(gè)專業(yè)的知識博主?

首先想到的一個(gè)場景就是飲食,生活中經(jīng)常碰到吃什么可以減肥、6 月齡寶寶能不能吃蛋黃、高血壓病人的飲食需要注意什么等問題,每次都需要搜索或者問 AI,又擔(dān)心內(nèi)容是不是準(zhǔn)確。

我們讓 GLM-4-Long 一次性讀取了《中國居民膳食指南》《中國食物成分表》《中國飲食文化》《中國居民膳食營養(yǎng)素參考攝入量》等多個(gè)文檔,然后用日常生活中的常見問題進(jìn)行了針對性提問:

8 月齡兒童日常飲食應(yīng)該注意什么?

智譜 AI 開放平臺上線了 GLM-4-Long,支持 1M 上下文

可以看到,GLM-4-Long 輸出的答案非常全面,除了要補(bǔ)充蛋白質(zhì)、維生素和礦物質(zhì),還給出了一些貼心的建議:食物應(yīng)該細(xì)膩易消化,避免大塊或硬的食物,以防噎食;建議先引入蔬菜泥,然后是水果泥,接著是強(qiáng)化鐵的米粉或米糊;如果家族中有過敏史,應(yīng)避免引入可能導(dǎo)致過敏的食物……

50 歲的高血壓病人有什么飲食建議?

智譜 AI 開放平臺上線了 GLM-4-Long,支持 1M 上下文

答案依然比較全面,包括應(yīng)將食鹽攝入量控制在每天 6 克以下、每天攝入 300-500 克新鮮蔬菜和 200-350 克新鮮水果、每日攝入 25-30 克膳食纖維、避免過多攝入精制糖和白面食、建議通過食物攝入足夠的鉀和鈣、避免過多攝入蛋白質(zhì)、限制飲酒等等,并提供了具體的食物建議。

以上只是我們簡單嘗試的一個(gè)場景,可以聯(lián)想到的應(yīng)用場景還有很多。

比如一次性通讀余華老師的所有小說,然后 ” 變身 ” 余華老師進(jìn)行對話;一次性讀多篇相關(guān)的論文,幫助提升論文閱讀的效率;一次性讀取上百份簡歷,然后根據(jù)需求篩選出最合適的候選人;以及找到一家企業(yè)多個(gè)季度的財(cái)報(bào)進(jìn)行橫向?qū)Ρ?,從更宏大、信息更豐富的視角進(jìn)行財(cái)報(bào)分析 ……

我們列舉的 ” 想法 ” 僅僅是拋磚引玉,相信智譜 AI 在大模型能力上打破天花板后,會有越來越多開發(fā)者參與其中,挖掘藏在應(yīng)用層的機(jī)會,帶來各種有趣、有生產(chǎn)力的體驗(yàn)。

03 ” 卷 ” 長文本過渡到 ” 卷 ” 綜合能力

有別于年初單純卷文本長度的比拼,智譜 AI 在 GLM-4-Long 的宣傳和營銷上不可謂不低調(diào),卻折射出了大模型市場的一個(gè)隱性共識:不再為了傳播某個(gè)能力硬凹需求,而是開始卷大模型的綜合能力。

個(gè)中原因并不難解釋。

長文本在本質(zhì)上是一種智力能力。如果將大模型比作是一臺 ” 電腦 ” 的話,” 更長的上下文 ” 可以看作是更大的內(nèi)存,能夠提高多任務(wù)處理能力、提升運(yùn)行大型軟件的流暢度、帶來更好的游戲體驗(yàn)等等。內(nèi)存的大小,可能在某種程度上影響消費(fèi)者的購買決策,卻不是優(yōu)先級最高的購買因素。

同樣的道理,僅僅是在文本長度上領(lǐng)先,并不足以讓大模型吸引所有的注意力,不會是一條穩(wěn)定的護(hù)城河。

與之相對應(yīng)的,大模型的 ” 長文本熱 ” 就像是曇花一現(xiàn),開發(fā)者們沒有趨之若鶩,資本市場不斷傳出批判的聲音:” 感覺是各家公司在為搶入頭部陣營做成績,本質(zhì)上還是為了秀肌肉,衡量長文本的價(jià)值,要等到更明確的落地場景和對應(yīng)的商業(yè)模式出現(xiàn),否則市場再熱鬧也是沒有用的。”

時(shí)間過去半年后,GLM-4-Long 讓外界看到了大模型新的演變方向:除了記住多長的上下文,還在比拼語言理解和生成能力、長文本推理和 QA 能力,不再是做長木桶的一塊板,而是把把所有木板做長。

比起我們 ” 淺嘗輒止 ” 的測試,對大模型行業(yè)新方向感到興奮的,恰恰是那群做 AIGC 的創(chuàng)業(yè)者。正如那位朋友所說的:” 大模型可以滿足 100 萬字的上下文,并且可以很好地、準(zhǔn)確地執(zhí)行復(fù)雜指令,預(yù)示著巨大的想象空間。希望智譜 AI 開放平臺可以早日推出 GLM-4-Long 的正式版,我們已經(jīng)有了多個(gè)智能體相關(guān)的想法。”

自從 ChatGPT 走紅后,整個(gè)大模型行業(yè)風(fēng)譎云詭。然而一個(gè)看起來有些畸形的現(xiàn)象是:資本大多將錢投個(gè)了大模型企業(yè),做應(yīng)用創(chuàng)新的創(chuàng)業(yè)者鮮有機(jī)會,即便不少人都在呼吁創(chuàng)業(yè)者應(yīng)該卷應(yīng)用,而非卷模型。

回頭再來看這樣的現(xiàn)象,需要批判的不是資本的 ” 勢力 “,而是開發(fā)者們的無奈。直接的例子就是長文本,半年前的火爆只是技術(shù)上的,由于存在能力上的短板,未能在應(yīng)用層延續(xù)熱度和爆點(diǎn)。借著上面的比喻,一臺電腦的內(nèi)存很大,可 CPU、GPU、屏幕等依然是短板,開發(fā)者很難做出體驗(yàn)優(yōu)秀的應(yīng)用。

當(dāng)大模型的競爭走向綜合能力的較量,100 萬長文本賦予了開發(fā)者更大的創(chuàng)造空間,同時(shí)在生成、推理、QA 等能力上不再被制約,注定會吸引越來越多的開發(fā)者參與進(jìn)來,進(jìn)一步將想象力轉(zhuǎn)化為生產(chǎn)力,創(chuàng)造出一個(gè)又一個(gè) ” 出圈 ” 的現(xiàn)象級應(yīng)用,加速大模型在應(yīng)用賽道上的繁榮。

04 結(jié)語

“2024 年是 agi 落地元年 “。

? 版權(quán)聲明

相關(guān)文章