亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

AIGC行業(yè)資訊1年前 (2024)發(fā)布 zhang
34 0

來(lái)源:數(shù)智前線

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

中國(guó)電信在方言語(yǔ)音大模型上的布局,既有踐行市場(chǎng)導(dǎo)向,提高生產(chǎn)力和服務(wù)水平的業(yè)務(wù)考量,也有作為央企的社會(huì)責(zé)任擔(dān)當(dāng)。

文|游勇

編|周路平

OpenAI不久前發(fā)布的GPT-4o大模型,再一次讓人們看到了人工智能的強(qiáng)大。它在極低時(shí)延、極度擬人化方面展現(xiàn)出了極其絲滑的效果。之前大家的目光更多在圖文和視頻領(lǐng)域,如今隨著大模型在語(yǔ)音上的突破,業(yè)內(nèi)看到了大模型在語(yǔ)音識(shí)別和交互上的更多可能。

國(guó)內(nèi)語(yǔ)音大模型也卷出了新高度。近日,中國(guó)電信人工智能研究院(TeleAI)也公布了語(yǔ)音大模型領(lǐng)域的進(jìn)展,正式對(duì)外發(fā)布星辰超多方言語(yǔ)音識(shí)別大模型。這是業(yè)內(nèi)首個(gè)支持30種方言自由混說(shuō)的語(yǔ)音識(shí)別大模型,也是目前國(guó)內(nèi)支持最多方言的語(yǔ)音識(shí)別大模型。

在大家都在卷語(yǔ)義大模型時(shí),為何電信要在語(yǔ)音大模型上發(fā)力,而且還是難度更高的方言賽道?中國(guó)電信的解題思路和過(guò)往的語(yǔ)音識(shí)別方案有何不同?另外,作為為數(shù)不多在基礎(chǔ)大模型上發(fā)力的央企,電信在大模型上的進(jìn)展和布局也引人關(guān)注。

01

方言的魅力和窘境

“尼和,岑咱”,“幾喲嗯幾尼要早刺湖列與發(fā)”。

這兩句話恐怕很少人知道是什么意思。這是兩句溫州話,翻譯成普通話是“你好,請(qǐng)進(jìn)”,“端午節(jié)你有去看劃龍舟嗎?”。

多年前,網(wǎng)友曾投票選出了最難懂的四大方言,居首的就是溫州話,當(dāng)然還包括閩南語(yǔ)、粵語(yǔ)、客家話。

雖然有些方言難懂難學(xué),但方言作為一種獨(dú)特的民族文化,它傳承千年,有著豐厚的文化底蘊(yùn)。語(yǔ)言學(xué)家劉半農(nóng)曾說(shuō),方言是地域的神味。

燦爛多彩的方言背后蘊(yùn)藏著獨(dú)特的文化韻味,比如吳語(yǔ)柔軟細(xì)膩、關(guān)中方言質(zhì)樸厚重、四川方言幽默詼諧、粵語(yǔ)古雅瀟灑。有人形容,普通話是一杯水,方言像母親煲的一碗湯。

但一個(gè)很尷尬的現(xiàn)實(shí)是,全球各地不少語(yǔ)言正在面臨消亡的困境。此前聯(lián)合國(guó)教科文組織的調(diào)查數(shù)據(jù)顯示,“大約平均兩周就會(huì)有一種語(yǔ)言消亡”,世界上現(xiàn)存約6700種語(yǔ)言,其中約40%的語(yǔ)言瀕臨消亡。

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

在我國(guó),這樣的情況同樣不容樂(lè)觀。我國(guó)擁有五大語(yǔ)系130多種語(yǔ)言,但其中有68種使用人口在萬(wàn)人以下,保護(hù)語(yǔ)言的多樣性已經(jīng)迫在眉睫

除了保護(hù)方言本身,還有一個(gè)很重要的課題是,如何更好地讓說(shuō)方言的群體也能便捷地與外界溝通,讓他們享受科技普惠帶來(lái)的便利,縮小數(shù)字鴻溝。

早在上世紀(jì)70年代,中科院聲學(xué)所就開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。隨著深度學(xué)習(xí)用于語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,普通話的語(yǔ)音識(shí)別已經(jīng)非常成熟,近場(chǎng)中文普通話的識(shí)別率能達(dá)到98%以上,已接近人類(lèi)水平。如今的普通話水平考試,基本可以用系統(tǒng)評(píng)判,無(wú)需依賴(lài)人工。

但方言的語(yǔ)音識(shí)別面臨更多的挑戰(zhàn)。一是方言差異性太大,十里不同音,即便是同一種方言,不同地區(qū)之間可能也面臨聽(tīng)不懂的尷尬,甚至很多方言沒(méi)有對(duì)應(yīng)的文字。

比如普通話由21個(gè)聲母和39個(gè)韻母組成,而上海方言則包含了34個(gè)聲母和54個(gè)韻母??图以捰新暷?9個(gè),韻母74,聲調(diào)6個(gè);粵語(yǔ)綜合音聲母20個(gè),韻母50個(gè),聲調(diào)9個(gè)。聲母和韻母越多,能夠組合的范圍更廣,識(shí)別的難度也更大。

二是很多方言,用母語(yǔ)發(fā)音的人太少,導(dǎo)致高質(zhì)量的方言數(shù)據(jù)集比較匱乏,對(duì)大模型的訓(xùn)練帶來(lái)了不小的難題。

盡管普通話的普及率已經(jīng)超過(guò)了80%,但依然有約20%的人在日常使用方言交流,尤其在不少“老少邊窮”地區(qū)以及老年人群體中,這樣的習(xí)慣更為明顯。

無(wú)論是出于對(duì)方言多樣性的保護(hù),還是幫助說(shuō)方言的群體更好地融入當(dāng)下數(shù)智化的社會(huì),AI等技術(shù)手段的使用已經(jīng)變得愈加迫切

02

方言語(yǔ)音大模型是如何煉成的?

語(yǔ)音識(shí)別已經(jīng)在很多場(chǎng)景中被廣泛使用,比如中英文翻譯在各類(lèi)語(yǔ)音助手、會(huì)議軟件里幫助人們滿(mǎn)足商務(wù)洽談、出境旅行的需要。

但方言的語(yǔ)音識(shí)別被關(guān)注的不多,背后有一些主客觀的因素。如今,隨著人工智能的新范式演進(jìn),大模型開(kāi)始被用于方言語(yǔ)音的識(shí)別和處理,不過(guò)相比于其他的語(yǔ)音大模型,方言語(yǔ)音大模型的訓(xùn)練有兩大難題:一是數(shù)據(jù),二是算法

數(shù)據(jù)作為訓(xùn)練大模型的養(yǎng)料,在很大程度上決定了大模型本身的性能。而高質(zhì)量的方言語(yǔ)音數(shù)據(jù)又是一直處于匱乏狀態(tài)。

一位業(yè)內(nèi)人士曾表示,從大量語(yǔ)音中提取方言數(shù)據(jù)是很大的一個(gè)挑戰(zhàn),比如從10000小時(shí)的語(yǔ)音數(shù)據(jù)中要找出100小時(shí)的方言猶如大海撈針。

造成方言語(yǔ)料數(shù)據(jù)偏少,一個(gè)很重要的原因是各地方言常以口語(yǔ)形式流傳,缺乏對(duì)應(yīng)文字,難以收集。而傳統(tǒng)的方言研究依賴(lài)于調(diào)查者主觀感知標(biāo)注,工程量巨大且難以系統(tǒng)標(biāo)注。

除了數(shù)據(jù)的匱乏,在算法層面也面臨挑戰(zhàn)。傳統(tǒng)的語(yǔ)音識(shí)別算法方案,各任務(wù)彼此獨(dú)立,而且對(duì)不同語(yǔ)言進(jìn)行單獨(dú)建模。當(dāng)這種方言的標(biāo)注數(shù)據(jù)量足夠多,比如達(dá)到十萬(wàn)小時(shí),單方言獨(dú)立建模的效果出色。但針對(duì)不同場(chǎng)景單獨(dú)建模,不僅成本更高、工作量更大,更關(guān)鍵的是,模型的泛化性很差。

而現(xiàn)在的問(wèn)題就在于很多方言語(yǔ)音的數(shù)據(jù)量不足,除了主要的幾個(gè)方言,其他的很難單獨(dú)建模。如果不利用其他方言數(shù)據(jù)中的共有信息而單獨(dú)訓(xùn)練這個(gè)方言模型的效果不盡人意。

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

中國(guó)電信采用的是多任務(wù)、多語(yǔ)言聯(lián)合建模方式,通過(guò)自監(jiān)督學(xué)習(xí)(SSL),讓模型在無(wú)標(biāo)注的情況下直接學(xué)習(xí)音頻底層結(jié)構(gòu)信息,其隱層表征可作為音頻特征的替代,更為有效地訓(xùn)練各下游任務(wù)。

結(jié)合表征離散化方法,讓模型在保留語(yǔ)音中任務(wù)相關(guān)信息的同時(shí),去除掉其余不相關(guān)信息,從而達(dá)到降低語(yǔ)音推理傳輸比特率、減少內(nèi)存使用、提升訓(xùn)練效率的目的,同時(shí)也為語(yǔ)音多任務(wù)(如ASR、TTS、說(shuō)話人識(shí)別等)統(tǒng)一模型構(gòu)建、多模態(tài)模型建模、說(shuō)話人隱私保護(hù)等方向提供可能的解決方案。

聯(lián)合建模的方式,使得模型學(xué)習(xí)到了各個(gè)方言之間的共性,降低了對(duì)新方言標(biāo)注數(shù)據(jù)的需求。根據(jù)中國(guó)電信人工智能研究院的實(shí)驗(yàn)顯示,有標(biāo)注數(shù)據(jù)需求量降低到了1%。

例如用普通話來(lái)作為其他方言的基底得到通用的預(yù)訓(xùn)練模型,在此基礎(chǔ)上疊加少量的方言數(shù)據(jù)進(jìn)行模型訓(xùn)練。同時(shí),也會(huì)考慮語(yǔ)言的近似性,比如貴州和四川在地理位置上接近,語(yǔ)言的近似性較高。在方言數(shù)據(jù)樣本低資源下,可以進(jìn)行聯(lián)合學(xué)習(xí),從而降低模型的識(shí)別難度。

而且,中國(guó)電信的做法在模型部署上也更有優(yōu)勢(shì),不用根據(jù)地域、省份等信息調(diào)用不同的模型服務(wù),有效降低部署成本。

不久前,基于超多方言語(yǔ)音識(shí)別大模型積累的算法,中國(guó)電信人工智能研究院研發(fā)團(tuán)隊(duì)獲得了INTERSPEECH 2024 離散語(yǔ)音單元建模挑戰(zhàn)賽中語(yǔ)音識(shí)別賽道的第一名。

模型算法之外,方言數(shù)據(jù)則是中國(guó)電信的獨(dú)特優(yōu)勢(shì)。作為頭部運(yùn)營(yíng)商,電信每天都會(huì)接到高達(dá)幾百萬(wàn)通的客服電話,而且很大比例是方言和方言口音較重的普通話。同時(shí),電信的線下門(mén)店覆蓋了全國(guó),很多門(mén)店工作人員都是當(dāng)?shù)囟窖匀巳?,這是其他企業(yè)所難以比擬的優(yōu)勢(shì),發(fā)達(dá)的毛細(xì)血管給方言數(shù)據(jù)的采集提供了便利。

而這次方言語(yǔ)音大模型的訓(xùn)練就用到了中國(guó)電信人工智能研究院構(gòu)建的超30種、超30萬(wàn)小時(shí)的高質(zhì)量方言數(shù)據(jù)庫(kù)。

也就是說(shuō),通過(guò)算法上的優(yōu)化,星辰方言語(yǔ)音大模型降低了對(duì)高質(zhì)量數(shù)據(jù)的依賴(lài),同時(shí)中國(guó)電信在方言數(shù)據(jù)上的儲(chǔ)備,也讓模型訓(xùn)練取得了更好的效果。

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

如今,星辰超多方言語(yǔ)音識(shí)別大模型已經(jīng)實(shí)現(xiàn)了30種方言的自由混說(shuō),中國(guó)電信下一步將會(huì)持續(xù)擴(kuò)展方言種類(lèi),爭(zhēng)取覆蓋全國(guó)333個(gè)地市和主要少數(shù)民族語(yǔ)言。另外,建模任務(wù)也會(huì)不斷豐富,中國(guó)電信希望能通過(guò)一個(gè)語(yǔ)音理解通用大模型,實(shí)現(xiàn)多語(yǔ)言/多方言語(yǔ)音識(shí)別、跨語(yǔ)言語(yǔ)音翻譯、語(yǔ)種識(shí)別、情感識(shí)別等多個(gè)任務(wù)。

不過(guò),有一個(gè)好的模型并不能形成完整的商業(yè)閉環(huán)。事實(shí)上,百模大戰(zhàn)的當(dāng)下,很多大模型還處于拿著錘子找釘子的尷尬階段,對(duì)應(yīng)用場(chǎng)景的探索是大模型廠商今年的重要工作。而中國(guó)電信的優(yōu)勢(shì)是,有了大模型這個(gè)錘子,也有大量的業(yè)務(wù)場(chǎng)景這些釘子

目前,星辰語(yǔ)音大模型已在福建、江西、廣西、北京、內(nèi)蒙等地的中國(guó)電信萬(wàn)號(hào)智能客服系統(tǒng)試點(diǎn)應(yīng)用,實(shí)現(xiàn)日均處理約200萬(wàn)通電話;而智能客服翼聲平臺(tái)也接入星辰大模型的語(yǔ)音理解和分析能力,實(shí)現(xiàn)每天處理125萬(wàn)通客服電話。龐大的業(yè)務(wù)系統(tǒng),成了星辰方言語(yǔ)音大模型最好的練兵場(chǎng)。

除了電信內(nèi)部的客服系統(tǒng),星辰語(yǔ)音大模型開(kāi)始賦能了多地的12345等政務(wù)服務(wù)平臺(tái),讓每個(gè)客服人員秒懂30種方言。

數(shù)字人也是語(yǔ)音大模型天然適配的場(chǎng)景。2023年6月,中國(guó)電信打造了超寫(xiě)實(shí)數(shù)字人“數(shù)數(shù)”,數(shù)數(shù)當(dāng)時(shí)與主持人康輝同臺(tái),實(shí)現(xiàn)了自然流暢的對(duì)話,中英文隨意切換,廣受好評(píng)。隨著方言大模型的發(fā)布,這將意味著,數(shù)字人不僅能模擬不同的角色,甚至可以用方言直接與用戶(hù)對(duì)話,拉近與用戶(hù)的距離,效果更加逼真。

不難發(fā)現(xiàn),中國(guó)電信在方言語(yǔ)音大模型上的布局,既有作為央企踐行社會(huì)責(zé)任的使命,比如更好地保護(hù)方言和傳承文化,比如幫助那些容易被忽視的群體享受AI成果;也有提高生產(chǎn)力和服務(wù)水平的業(yè)務(wù)考量,方言語(yǔ)音大模型通過(guò)與真實(shí)的業(yè)務(wù)場(chǎng)景結(jié)合,正在智能客服、數(shù)字人等場(chǎng)景上給用戶(hù)帶來(lái)更好的服務(wù)體驗(yàn)。

03

大模型里的國(guó)家隊(duì)

把中國(guó)語(yǔ)音大模型帶上了新高度

自從ChatGPT爆火之后,人工智能已經(jīng)成為了最大的共識(shí)。但另一個(gè)共識(shí)是,盡管現(xiàn)在涌現(xiàn)出成百上千個(gè)大模型,但并非所有企業(yè)都有必要或者有能力去研發(fā)基礎(chǔ)的通用大模型,做行業(yè)大模型被認(rèn)為是更切實(shí)際的路線。

事實(shí)上,央企作為國(guó)家隊(duì),大多也沒(méi)有去自研基礎(chǔ)大模型,而是側(cè)重于行業(yè)大模型的應(yīng)用。但擁有算力優(yōu)勢(shì)和人才儲(chǔ)備的運(yùn)營(yíng)商,是大模型賽道上非?;钴S的角色。

比如中國(guó)聯(lián)通發(fā)布了“鴻湖”大模型、中國(guó)移動(dòng)推出了“九天”大模型、中國(guó)電科推出了“小可”大模型,一批央企大模型紛紛涌現(xiàn)。

中國(guó)電信無(wú)疑是央企隊(duì)伍中的佼佼者。2023年,中國(guó)電信人工智能研究院發(fā)布了首個(gè)千億參數(shù)星辰語(yǔ)義大模型“TeleChat”,成為最早布局大模型的央企之一并集中人才優(yōu)勢(shì)和資源優(yōu)勢(shì)全力攻堅(jiān)人工智能技術(shù),決心很大。

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

據(jù)悉,這個(gè)團(tuán)隊(duì)由中國(guó)電信CTO、人工智能研究院院長(zhǎng)李學(xué)龍教授帶隊(duì),有著近800人的研發(fā)人員,大多來(lái)自國(guó)內(nèi)外頂尖高校。

目前,中國(guó)電信在大模型上形成了“1+1+1+M+N”的大模型布局,包括1個(gè)智算云底座、1個(gè)通用大模型底座、1個(gè)數(shù)據(jù)底座、M個(gè)內(nèi)部大模型、N個(gè)行業(yè)大模型。而且,中國(guó)電信的各大模型已經(jīng)走上了全面開(kāi)源的路線。其中,TeleChat的7B和12B及52B語(yǔ)義大模型已經(jīng)開(kāi)源,預(yù)計(jì)年內(nèi)開(kāi)源千億級(jí)參數(shù)大模型。

從這個(gè)布局中不難看出,電信的大模型產(chǎn)品既有基礎(chǔ)模型,也有行業(yè)模型和應(yīng)用模型,而且大模型種類(lèi)也非常全面,覆蓋了語(yǔ)義、語(yǔ)音、視覺(jué)、多模態(tài)等多個(gè)方向。

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

另外,除了自研的品類(lèi)豐富的大模型,中國(guó)電信已經(jīng)聯(lián)合頭部生態(tài)伙伴構(gòu)建了涵蓋教育、政務(wù)、應(yīng)急等20多個(gè)行業(yè)大模型,覆蓋全行業(yè)500多個(gè)應(yīng)用場(chǎng)景。

而在這些大模型成果的背后,中國(guó)電信的大模型也已經(jīng)圍繞算力、算法和數(shù)據(jù)等三大要素沉淀了自己的優(yōu)勢(shì)。

算力資源是運(yùn)營(yíng)商最顯性的優(yōu)勢(shì)。中國(guó)電信作為國(guó)內(nèi)最早進(jìn)入云計(jì)算領(lǐng)域的運(yùn)營(yíng)商,旗下天翼云這幾年增速迅猛,積累了大量算力建設(shè)和算力調(diào)度的核心技術(shù),已經(jīng)構(gòu)建了“中心-省-邊緣-端”的四級(jí)算力體系,并陸續(xù)投產(chǎn)了京津冀智算中心、中南智算中心等多個(gè)滿(mǎn)足大模型訓(xùn)練的公共智算中心。豐富的網(wǎng)絡(luò)和算力資源,將讓中國(guó)電信的大模型在訓(xùn)練、精調(diào)和推理時(shí)擁有相對(duì)更低的成本。

大模型里的國(guó)家隊(duì),中國(guó)電信為何要做方言語(yǔ)音大模型?

在算法方面,以語(yǔ)音大模型為例,中國(guó)電信首創(chuàng)了“蒸餾+膨脹”聯(lián)合訓(xùn)練算法,解決超大規(guī)模多場(chǎng)景數(shù)據(jù)集和大規(guī)模參數(shù)條件下,預(yù)訓(xùn)練坍縮的問(wèn)題,實(shí)現(xiàn)80層模型穩(wěn)定訓(xùn)練;星辰語(yǔ)音大模型也是業(yè)內(nèi)首個(gè)開(kāi)源的基于離散語(yǔ)音表征的語(yǔ)音識(shí)別大模型,通過(guò)“從語(yǔ)音到token再到文本”的建模新范式,將推理時(shí)語(yǔ)音傳輸比特率降低數(shù)十倍。

在數(shù)據(jù)方面,除了上述在方言語(yǔ)音數(shù)據(jù)上的積累,中國(guó)電信已經(jīng)積累了超過(guò)500TB文本數(shù)據(jù)、12億張圖文數(shù)據(jù)和PB級(jí)視頻數(shù)據(jù),用于大模型訓(xùn)練。不僅包括了通用數(shù)據(jù),也有自身業(yè)務(wù)積累的大量數(shù)據(jù)。比如方言語(yǔ)音大模型就用到了客服場(chǎng)景的數(shù)據(jù)。

作為一家用戶(hù)和業(yè)務(wù)數(shù)量龐大的央企,中國(guó)電信有自身的使命。同時(shí),在大模型上的布局和落地也有著很多大模型廠商所無(wú)法比擬的優(yōu)勢(shì)。

? 版權(quán)聲明

相關(guān)文章