大模型里的國(guó)家隊(duì)，中國(guó)電信為何要做方言語(yǔ)音大模型？

AIGC行業(yè)資訊1年前 (2024)發(fā)布 zhang

來(lái)源：數(shù)智前線

大模型里的國(guó)家隊(duì)，中國(guó)電信為何要做方言語(yǔ)音大模型？

中國(guó)電信在方言語(yǔ)音大模型上的布局，既有踐行市場(chǎng)導(dǎo)向，提高生產(chǎn)力和服務(wù)水平的業(yè)務(wù)考量，也有作為央企的社會(huì)責(zé)任擔(dān)當(dāng)。

文｜游勇

編｜周路平

OpenAI不久前發(fā)布的GPT-4o大模型，再一次讓人們看到了人工智能的強(qiáng)大。它在極低時(shí)延、極度擬人化方面展現(xiàn)出了極其絲滑的效果。之前大家的目光更多在圖文和視頻領(lǐng)域，如今隨著大模型在語(yǔ)音上的突破，業(yè)內(nèi)看到了大模型在語(yǔ)音識(shí)別和交互上的更多可能。

國(guó)內(nèi)語(yǔ)音大模型也卷出了新高度。近日，中國(guó)電信人工智能研究院（TeleAI）也公布了語(yǔ)音大模型領(lǐng)域的進(jìn)展，正式對(duì)外發(fā)布星辰超多方言語(yǔ)音識(shí)別大模型。這是業(yè)內(nèi)首個(gè)支持30種方言自由混說(shuō)的語(yǔ)音識(shí)別大模型，也是目前國(guó)內(nèi)支持最多方言的語(yǔ)音識(shí)別大模型。

在大家都在卷語(yǔ)義大模型時(shí)，為何電信要在語(yǔ)音大模型上發(fā)力，而且還是難度更高的方言賽道？中國(guó)電信的解題思路和過(guò)往的語(yǔ)音識(shí)別方案有何不同？另外，作為為數(shù)不多在基礎(chǔ)大模型上發(fā)力的央企，電信在大模型上的進(jìn)展和布局也引人關(guān)注。

方言的魅力和窘境

“尼和，岑咱”，“幾喲嗯幾尼要早刺湖列與發(fā)”。

這兩句話恐怕很少人知道是什么意思。這是兩句溫州話，翻譯成普通話是“你好，請(qǐng)進(jìn)”，“端午節(jié)你有去看劃龍舟嗎？”。

多年前，網(wǎng)友曾投票選出了最難懂的四大方言，居首的就是溫州話，當(dāng)然還包括閩南語(yǔ)、粵語(yǔ)、客家話。

雖然有些方言難懂難學(xué)，但方言作為一種獨(dú)特的民族文化，它傳承千年，有著豐厚的文化底蘊(yùn)。語(yǔ)言學(xué)家劉半農(nóng)曾說(shuō)，方言是地域的神味。

燦爛多彩的方言背后蘊(yùn)藏著獨(dú)特的文化韻味，比如吳語(yǔ)柔軟細(xì)膩、關(guān)中方言質(zhì)樸厚重、四川方言幽默詼諧、粵語(yǔ)古雅瀟灑。有人形容，普通話是一杯水，方言像母親煲的一碗湯。

但一個(gè)很尷尬的現(xiàn)實(shí)是，全球各地不少語(yǔ)言正在面臨消亡的困境。此前聯(lián)合國(guó)教科文組織的調(diào)查數(shù)據(jù)顯示，“大約平均兩周就會(huì)有一種語(yǔ)言消亡”，世界上現(xiàn)存約6700種語(yǔ)言，其中約40%的語(yǔ)言瀕臨消亡。

在我國(guó)，這樣的情況同樣不容樂(lè)觀。我國(guó)擁有五大語(yǔ)系130多種語(yǔ)言，但其中有68種使用人口在萬(wàn)人以下，保護(hù)語(yǔ)言的多樣性已經(jīng)迫在眉睫。

除了保護(hù)方言本身，還有一個(gè)很重要的課題是，如何更好地讓說(shuō)方言的群體也能便捷地與外界溝通，讓他們享受科技普惠帶來(lái)的便利，縮小數(shù)字鴻溝。

早在上世紀(jì)70年代，中科院聲學(xué)所就開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。隨著深度學(xué)習(xí)用于語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練，普通話的語(yǔ)音識(shí)別已經(jīng)非常成熟，近場(chǎng)中文普通話的識(shí)別率能達(dá)到98%以上，已接近人類(lèi)水平。如今的普通話水平考試，基本可以用系統(tǒng)評(píng)判，無(wú)需依賴(lài)人工。

但方言的語(yǔ)音識(shí)別面臨更多的挑戰(zhàn)。一是方言差異性太大，十里不同音，即便是同一種方言，不同地區(qū)之間可能也面臨聽(tīng)不懂的尷尬，甚至很多方言沒(méi)有對(duì)應(yīng)的文字。

比如普通話由21個(gè)聲母和39個(gè)韻母組成，而上海方言則包含了34個(gè)聲母和54個(gè)韻母?？图以捰新暷?9個(gè)，韻母74，聲調(diào)6個(gè)；粵語(yǔ)綜合音聲母20個(gè)，韻母50個(gè)，聲調(diào)9個(gè)。聲母和韻母越多，能夠組合的范圍更廣，識(shí)別的難度也更大。

二是很多方言，用母語(yǔ)發(fā)音的人太少，導(dǎo)致高質(zhì)量的方言數(shù)據(jù)集比較匱乏，對(duì)大模型的訓(xùn)練帶來(lái)了不小的難題。

盡管普通話的普及率已經(jīng)超過(guò)了80%，但依然有約20%的人在日常使用方言交流，尤其在不少“老少邊窮”地區(qū)以及老年人群體中，這樣的習(xí)慣更為明顯。

無(wú)論是出于對(duì)方言多樣性的保護(hù)，還是幫助說(shuō)方言的群體更好地融入當(dāng)下數(shù)智化的社會(huì)，AI等技術(shù)手段的使用已經(jīng)變得愈加迫切。

方言語(yǔ)音大模型是如何煉成的？

語(yǔ)音識(shí)別已經(jīng)在很多場(chǎng)景中被廣泛使用，比如中英文翻譯在各類(lèi)語(yǔ)音助手、會(huì)議軟件里幫助人們滿(mǎn)足商務(wù)洽談、出境旅行的需要。

但方言的語(yǔ)音識(shí)別被關(guān)注的不多，背后有一些主客觀的因素。如今，隨著人工智能的新范式演進(jìn)，大模型開(kāi)始被用于方言語(yǔ)音的識(shí)別和處理，不過(guò)相比于其他的語(yǔ)音大模型，方言語(yǔ)音大模型的訓(xùn)練有兩大難題：一是數(shù)據(jù)，二是算法。

數(shù)據(jù)作為訓(xùn)練大模型的養(yǎng)料，在很大程度上決定了大模型本身的性能。而高質(zhì)量的方言語(yǔ)音數(shù)據(jù)又是一直處于匱乏狀態(tài)。

一位業(yè)內(nèi)人士曾表示，從大量語(yǔ)音中提取方言數(shù)據(jù)是很大的一個(gè)挑戰(zhàn)，比如從10000小時(shí)的語(yǔ)音數(shù)據(jù)中要找出100小時(shí)的方言猶如大海撈針。

造成方言語(yǔ)料數(shù)據(jù)偏少，一個(gè)很重要的原因是各地方言常以口語(yǔ)形式流傳，缺乏對(duì)應(yīng)文字，難以收集。而傳統(tǒng)的方言研究依賴(lài)于調(diào)查者主觀感知標(biāo)注，工程量巨大且難以系統(tǒng)標(biāo)注。

除了數(shù)據(jù)的匱乏，在算法層面也面臨挑戰(zhàn)。傳統(tǒng)的語(yǔ)音識(shí)別算法方案，各任務(wù)彼此獨(dú)立，而且對(duì)不同語(yǔ)言進(jìn)行單獨(dú)建模。當(dāng)這種方言的標(biāo)注數(shù)據(jù)量足夠多，比如達(dá)到十萬(wàn)小時(shí)，單方言獨(dú)立建模的效果出色。但針對(duì)不同場(chǎng)景單獨(dú)建模，不僅成本更高、工作量更大，更關(guān)鍵的是，模型的泛化性很差。

而現(xiàn)在的問(wèn)題就在于很多方言語(yǔ)音的數(shù)據(jù)量不足，除了主要的幾個(gè)方言，其他的很難單獨(dú)建模。如果不利用其他方言數(shù)據(jù)中的共有信息而單獨(dú)訓(xùn)練這個(gè)方言模型的效果不盡人意。

中國(guó)電信采用的是多任務(wù)、多語(yǔ)言聯(lián)合建模方式，通過(guò)自監(jiān)督學(xué)習(xí)(SSL)，讓模型在無(wú)標(biāo)注的情況下直接學(xué)習(xí)音頻底層結(jié)構(gòu)信息，其隱層表征可作為音頻特征的替代，更為有效地訓(xùn)練各下游任務(wù)。

結(jié)合表征離散化方法，讓模型在保留語(yǔ)音中任務(wù)相關(guān)信息的同時(shí)，去除掉其余不相關(guān)信息，從而達(dá)到降低語(yǔ)音推理傳輸比特率、減少內(nèi)存使用、提升訓(xùn)練效率的目的，同時(shí)也為語(yǔ)音多任務(wù)（如ASR、TTS、說(shuō)話人識(shí)別等）統(tǒng)一模型構(gòu)建、多模態(tài)模型建模、說(shuō)話人隱私保護(hù)等方向提供可能的解決方案。

而聯(lián)合建模的方式，使得模型學(xué)習(xí)到了各個(gè)方言之間的共性，降低了對(duì)新方言標(biāo)注數(shù)據(jù)的需求。根據(jù)中國(guó)電信人工智能研究院的實(shí)驗(yàn)顯示，有標(biāo)注數(shù)據(jù)需求量降低到了1%。

例如用普通話來(lái)作為其他方言的基底得到通用的預(yù)訓(xùn)練模型，在此基礎(chǔ)上疊加少量的方言數(shù)據(jù)進(jìn)行模型訓(xùn)練。同時(shí)，也會(huì)考慮語(yǔ)言的近似性，比如貴州和四川在地理位置上接近，語(yǔ)言的近似性較高。在方言數(shù)據(jù)樣本低資源下，可以進(jìn)行聯(lián)合學(xué)習(xí)，從而降低模型的識(shí)別難度。

而且，中國(guó)電信的做法在模型部署上也更有優(yōu)勢(shì)，不用根據(jù)地域、省份等信息調(diào)用不同的模型服務(wù)，有效降低部署成本。

不久前，基于超多方言語(yǔ)音識(shí)別大模型積累的算法，中國(guó)電信人工智能研究院研發(fā)團(tuán)隊(duì)獲得了INTERSPEECH 2024 離散語(yǔ)音單元建模挑戰(zhàn)賽中語(yǔ)音識(shí)別賽道的第一名。

模型算法之外，方言數(shù)據(jù)則是中國(guó)電信的獨(dú)特優(yōu)勢(shì)。作為頭部運(yùn)營(yíng)商，電信每天都會(huì)接到高達(dá)幾百萬(wàn)通的客服電話，而且很大比例是方言和方言口音較重的普通話。同時(shí)，電信的線下門(mén)店覆蓋了全國(guó)，很多門(mén)店工作人員都是當(dāng)?shù)囟窖匀巳?，這是其他企業(yè)所難以比擬的優(yōu)勢(shì)，發(fā)達(dá)的毛細(xì)血管給方言數(shù)據(jù)的采集提供了便利。

而這次方言語(yǔ)音大模型的訓(xùn)練就用到了中國(guó)電信人工智能研究院構(gòu)建的超30種、超30萬(wàn)小時(shí)的高質(zhì)量方言數(shù)據(jù)庫(kù)。

也就是說(shuō)，通過(guò)算法上的優(yōu)化，星辰方言語(yǔ)音大模型降低了對(duì)高質(zhì)量數(shù)據(jù)的依賴(lài)，同時(shí)中國(guó)電信在方言數(shù)據(jù)上的儲(chǔ)備，也讓模型訓(xùn)練取得了更好的效果。

如今，星辰超多方言語(yǔ)音識(shí)別大模型已經(jīng)實(shí)現(xiàn)了30種方言的自由混說(shuō)，中國(guó)電信下一步將會(huì)持續(xù)擴(kuò)展方言種類(lèi)，爭(zhēng)取覆蓋全國(guó)333個(gè)地市和主要少數(shù)民族語(yǔ)言。另外，建模任務(wù)也會(huì)不斷豐富，中國(guó)電信希望能通過(guò)一個(gè)語(yǔ)音理解通用大模型，實(shí)現(xiàn)多語(yǔ)言/多方言語(yǔ)音識(shí)別、跨語(yǔ)言語(yǔ)音翻譯、語(yǔ)種識(shí)別、情感識(shí)別等多個(gè)任務(wù)。

不過(guò)，有一個(gè)好的模型并不能形成完整的商業(yè)閉環(huán)。事實(shí)上，百模大戰(zhàn)的當(dāng)下，很多大模型還處于拿著錘子找釘子的尷尬階段，對(duì)應(yīng)用場(chǎng)景的探索是大模型廠商今年的重要工作。而中國(guó)電信的優(yōu)勢(shì)是，有了大模型這個(gè)錘子，也有大量的業(yè)務(wù)場(chǎng)景這些釘子。

目前，星辰語(yǔ)音大模型已在福建、江西、廣西、北京、內(nèi)蒙等地的中國(guó)電信萬(wàn)號(hào)智能客服系統(tǒng)試點(diǎn)應(yīng)用，實(shí)現(xiàn)日均處理約200萬(wàn)通電話；而智能客服翼聲平臺(tái)也接入星辰大模型的語(yǔ)音理解和分析能力，實(shí)現(xiàn)每天處理125萬(wàn)通客服電話。龐大的業(yè)務(wù)系統(tǒng)，成了星辰方言語(yǔ)音大模型最好的練兵場(chǎng)。

除了電信內(nèi)部的客服系統(tǒng)，星辰語(yǔ)音大模型開(kāi)始賦能了多地的12345等政務(wù)服務(wù)平臺(tái)，讓每個(gè)客服人員秒懂30種方言。

而數(shù)字人也是語(yǔ)音大模型天然適配的場(chǎng)景。2023年6月，中國(guó)電信打造了超寫(xiě)實(shí)數(shù)字人“數(shù)數(shù)”，數(shù)數(shù)當(dāng)時(shí)與主持人康輝同臺(tái)，實(shí)現(xiàn)了自然流暢的對(duì)話，中英文隨意切換，廣受好評(píng)。隨著方言大模型的發(fā)布，這將意味著，數(shù)字人不僅能模擬不同的角色，甚至可以用方言直接與用戶(hù)對(duì)話，拉近與用戶(hù)的距離，效果更加逼真。

不難發(fā)現(xiàn)，中國(guó)電信在方言語(yǔ)音大模型上的布局，既有作為央企踐行社會(huì)責(zé)任的使命，比如更好地保護(hù)方言和傳承文化，比如幫助那些容易被忽視的群體享受AI成果；也有提高生產(chǎn)力和服務(wù)水平的業(yè)務(wù)考量，方言語(yǔ)音大模型通過(guò)與真實(shí)的業(yè)務(wù)場(chǎng)景結(jié)合，正在智能客服、數(shù)字人等場(chǎng)景上給用戶(hù)帶來(lái)更好的服務(wù)體驗(yàn)。

大模型里的國(guó)家隊(duì)

把中國(guó)語(yǔ)音大模型帶上了新高度

自從ChatGPT爆火之后，人工智能已經(jīng)成為了最大的共識(shí)。但另一個(gè)共識(shí)是，盡管現(xiàn)在涌現(xiàn)出成百上千個(gè)大模型，但并非所有企業(yè)都有必要或者有能力去研發(fā)基礎(chǔ)的通用大模型，做行業(yè)大模型被認(rèn)為是更切實(shí)際的路線。

事實(shí)上，央企作為國(guó)家隊(duì)，大多也沒(méi)有去自研基礎(chǔ)大模型，而是側(cè)重于行業(yè)大模型的應(yīng)用。但擁有算力優(yōu)勢(shì)和人才儲(chǔ)備的運(yùn)營(yíng)商，是大模型賽道上非?；钴S的角色。

比如中國(guó)聯(lián)通發(fā)布了“鴻湖”大模型、中國(guó)移動(dòng)推出了“九天”大模型、中國(guó)電科推出了“小可”大模型，一批央企大模型紛紛涌現(xiàn)。

中國(guó)電信無(wú)疑是央企隊(duì)伍中的佼佼者。2023年，中國(guó)電信人工智能研究院發(fā)布了首個(gè)千億參數(shù)星辰語(yǔ)義大模型“TeleChat”，成為最早布局大模型的央企之一并集中人才優(yōu)勢(shì)和資源優(yōu)勢(shì)全力攻堅(jiān)人工智能技術(shù)，決心很大。

據(jù)悉，這個(gè)團(tuán)隊(duì)由中國(guó)電信CTO、人工智能研究院院長(zhǎng)李學(xué)龍教授帶隊(duì)，有著近800人的研發(fā)人員，大多來(lái)自國(guó)內(nèi)外頂尖高校。

目前，中國(guó)電信在大模型上形成了“1+1+1+M+N”的大模型布局，包括1個(gè)智算云底座、1個(gè)通用大模型底座、1個(gè)數(shù)據(jù)底座、M個(gè)內(nèi)部大模型、N個(gè)行業(yè)大模型。而且，中國(guó)電信的各大模型已經(jīng)走上了全面開(kāi)源的路線。其中，TeleChat的7B和12B及52B語(yǔ)義大模型已經(jīng)開(kāi)源，預(yù)計(jì)年內(nèi)開(kāi)源千億級(jí)參數(shù)大模型。

從這個(gè)布局中不難看出，電信的大模型產(chǎn)品既有基礎(chǔ)模型，也有行業(yè)模型和應(yīng)用模型，而且大模型種類(lèi)也非常全面，覆蓋了語(yǔ)義、語(yǔ)音、視覺(jué)、多模態(tài)等多個(gè)方向。

另外，除了自研的品類(lèi)豐富的大模型，中國(guó)電信已經(jīng)聯(lián)合頭部生態(tài)伙伴構(gòu)建了涵蓋教育、政務(wù)、應(yīng)急等20多個(gè)行業(yè)大模型，覆蓋全行業(yè)500多個(gè)應(yīng)用場(chǎng)景。

而在這些大模型成果的背后，中國(guó)電信的大模型也已經(jīng)圍繞算力、算法和數(shù)據(jù)等三大要素沉淀了自己的優(yōu)勢(shì)。

算力資源是運(yùn)營(yíng)商最顯性的優(yōu)勢(shì)。中國(guó)電信作為國(guó)內(nèi)最早進(jìn)入云計(jì)算領(lǐng)域的運(yùn)營(yíng)商，旗下天翼云這幾年增速迅猛，積累了大量算力建設(shè)和算力調(diào)度的核心技術(shù)，已經(jīng)構(gòu)建了“中心－省－邊緣－端”的四級(jí)算力體系，并陸續(xù)投產(chǎn)了京津冀智算中心、中南智算中心等多個(gè)滿(mǎn)足大模型訓(xùn)練的公共智算中心。豐富的網(wǎng)絡(luò)和算力資源，將讓中國(guó)電信的大模型在訓(xùn)練、精調(diào)和推理時(shí)擁有相對(duì)更低的成本。

在算法方面，以語(yǔ)音大模型為例，中國(guó)電信首創(chuàng)了“蒸餾+膨脹”聯(lián)合訓(xùn)練算法，解決超大規(guī)模多場(chǎng)景數(shù)據(jù)集和大規(guī)模參數(shù)條件下，預(yù)訓(xùn)練坍縮的問(wèn)題，實(shí)現(xiàn)80層模型穩(wěn)定訓(xùn)練；星辰語(yǔ)音大模型也是業(yè)內(nèi)首個(gè)開(kāi)源的基于離散語(yǔ)音表征的語(yǔ)音識(shí)別大模型，通過(guò)“從語(yǔ)音到token再到文本”的建模新范式，將推理時(shí)語(yǔ)音傳輸比特率降低數(shù)十倍。

在數(shù)據(jù)方面，除了上述在方言語(yǔ)音數(shù)據(jù)上的積累，中國(guó)電信已經(jīng)積累了超過(guò)500TB文本數(shù)據(jù)、12億張圖文數(shù)據(jù)和PB級(jí)視頻數(shù)據(jù)，用于大模型訓(xùn)練。不僅包括了通用數(shù)據(jù)，也有自身業(yè)務(wù)積累的大量數(shù)據(jù)。比如方言語(yǔ)音大模型就用到了客服場(chǎng)景的數(shù)據(jù)。

作為一家用戶(hù)和業(yè)務(wù)數(shù)量龐大的央企，中國(guó)電信有自身的使命。同時(shí)，在大模型上的布局和落地也有著很多大模型廠商所無(wú)法比擬的優(yōu)勢(shì)。