亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

MiniMax:大模型,云上造!

AI應(yīng)用信息2年前 (2024)發(fā)布 XIAOT
193 0

去年6月,MiniMax自研文本大模型MiniMax-ABAB(“阿巴阿巴”)快速迭代到第二個(gè)版本,隨著參數(shù)規(guī)模增長、海量數(shù)據(jù)涌入,彼時(shí)的計(jì)算資源捉襟見肘。

如果算力不足,大模型研發(fā)進(jìn)度將被嚴(yán)重影響。而帶來的后果可能是,這家國內(nèi)最早入場之一的大模型創(chuàng)業(yè)公司,將會失去他們好不容易獲得的市場先機(jī)。

解決算力問題,刻不容緩。

MiniMax:大模型,云上造!

// 向云看,底座大升級

不同于上一波人工智能的“算法制勝”,大模型更像是一個(gè)用算力”大力出奇跡“的工程。

在規(guī)模不大時(shí),依靠自購服務(wù)器、自建小規(guī)模的算力平臺,還能夠滿足業(yè)務(wù)需求。

但一旦上量,弊病就逐步顯現(xiàn):

  • 每一臺物理服務(wù)器上架、通電、調(diào)試都要耗費(fèi)大量人力,即使不考慮供應(yīng)鏈緊張的問題,光是采購、搬機(jī)器、通電開機(jī)也要耗費(fèi)數(shù)周,效率很低;
  • 更關(guān)鍵的是,大模型訓(xùn)練、推理,不是單臺服務(wù)器所能完成,需要由成百上千臺服務(wù)器共同處理。如果沒有成熟經(jīng)驗(yàn)就自己搭架構(gòu),很容易在性能和成本上落后。

MiniMax找到了騰訊云團(tuán)隊(duì)——

騰訊云布局異構(gòu)計(jì)算多年,在深度學(xué)習(xí)、科學(xué)計(jì)算、芯片仿真等高性能計(jì)算場景下積累的多年經(jīng)驗(yàn),還面向大模型推出了「HCC高性能計(jì)算集群」。

它協(xié)同優(yōu)化了單機(jī)算力、網(wǎng)絡(luò)架構(gòu)和存儲性能:

借助自研星脈網(wǎng)絡(luò),將集群通信帶來的算力損耗降到更低;騰訊云CFS Turbo、COS+GooseFS高性能存儲,讓上千個(gè)計(jì)算節(jié)點(diǎn)能同時(shí)高速讀取訓(xùn)練數(shù)據(jù)。

雙方先拿出少量服務(wù)器做性能驗(yàn)證。隨著實(shí)測符合預(yù)期、可用性達(dá)到99.9%,集群規(guī)模很快提升到千卡級以上。

隨后,業(yè)務(wù)逐步開放,MiniMax也迎來了創(chuàng)立以來首個(gè)的模型驗(yàn)證、推理任務(wù)的洪峰,在云底座的支撐下,激增的并發(fā)計(jì)算量被穩(wěn)健扛住。

在保證研發(fā)進(jìn)度的情況下,MiniMax也完成了一次順滑的底座升級。

MiniMax:大模型,云上造!

// 摳成本,資源利用率再高一點(diǎn)

大模型創(chuàng)業(yè),算力是成本的大頭。對MiniMax而言,一個(gè)理想的算力基礎(chǔ)設(shè)施,不僅要能承載海量任務(wù),還要足夠高性價(jià)比。
在整體支出不變的情況下,提升利用率成為了MiniMax努力的方向。
邏輯很簡單——
雖然云計(jì)算工程師們已經(jīng)能把故障率降得很低很低,但由于大模型任務(wù)和環(huán)境的復(fù)雜,仍然有可能出現(xiàn)偶發(fā)的中斷。
一個(gè)粗略的計(jì)算是,一小時(shí)異常,在千卡規(guī)模下可產(chǎn)生數(shù)以十萬計(jì)的成本開銷。
怎么把這部分成本摳出來?MiniMax和騰訊云提出的解決方案是云原生。
一方面,利用騰訊云TKE,MiniMax實(shí)現(xiàn)了對不同規(guī)格云服務(wù)器的統(tǒng)一管理和調(diào)度,各種類型的應(yīng)用和服務(wù)得以部署在同一套基礎(chǔ)設(shè)施上,資源實(shí)現(xiàn)了高效整合,資源利用率大幅提升;
另一方面,云原生的管理方式,支撐7*24小時(shí)的全局監(jiān)控視角,支持編排、框架、實(shí)例等多層級的指標(biāo)監(jiān)控。一旦觸發(fā)故障,能夠在5分鐘內(nèi)恢復(fù)任務(wù)、10分鐘內(nèi)恢復(fù)基礎(chǔ)設(shè)施,無需人工干預(yù)完成,能夠最大化保障任務(wù)連續(xù)進(jìn)行。
統(tǒng)計(jì)下來,基于云原生的支撐,MiniMax整體用云成本降低了至少20%。這些成本,也將進(jìn)一步投入到MiniMax的業(yè)務(wù)研發(fā)中。
MiniMax:大模型,云上造!

// 用大數(shù)據(jù),給大模型性能做診斷

大模型需要的不止是算力,也包括大數(shù)據(jù)分析、安全防護(hù)。
比如,在研發(fā)時(shí),為了確定大模型的優(yōu)化方向,需要根據(jù)準(zhǔn)確率和召回率等性能指標(biāo)評估大模型性能。
一套存算分離的海量大數(shù)據(jù)分析架構(gòu)被迅速拉起。通過騰訊云的數(shù)據(jù)集成DatAInlong、流計(jì)算Oceanus、數(shù)據(jù)湖計(jì)算DLC等云原生大數(shù)據(jù)產(chǎn)品提供的數(shù)據(jù)處理能力,對大量數(shù)據(jù)做實(shí)時(shí)或離線分析,滿足了MiniMax在各個(gè)階段的數(shù)據(jù)分析需求,實(shí)現(xiàn)數(shù)據(jù)的快速靈活部署。
以容器化的方式使用大數(shù)據(jù)組件,使得模型驗(yàn)證、推理等任務(wù)得以按計(jì)劃推進(jìn)。
此外,大模型研發(fā)過程中,MiniMax對云上資產(chǎn)安全、Web業(yè)務(wù)運(yùn)營風(fēng)險(xiǎn)、DDoS攻擊防護(hù)等高度關(guān)注。
通過引入騰訊云的防火墻、WAF、主機(jī)安全、漏洞掃描、數(shù)據(jù)加密、iOA零信任安全管理等一系列安全產(chǎn)品,MiniMax實(shí)現(xiàn)了對云上資產(chǎn)的全方位保護(hù),確保業(yè)務(wù)的穩(wěn)定運(yùn)行和數(shù)據(jù)的安全性。
將業(yè)務(wù)搬到云上,經(jīng)過這些大量的改進(jìn)調(diào)優(yōu),MiniMax的更多難題被逐一攻破,大模型研發(fā)得以加速。從以月為單位更新,到每周一個(gè)改進(jìn)版本。
“基礎(chǔ)設(shè)施的問題要說完全靠自己,可能也能解決,但一定不是最有性價(jià)比的方案。MiniMax打算進(jìn)一步擴(kuò)大用云規(guī)模,將訓(xùn)練、推理等更多核心環(huán)節(jié)放到云上?!癕iniMax業(yè)務(wù)副總裁魏偉說。
云上的一系列技術(shù)與產(chǎn)品,是大模型的助推器。
除了算力集群、向量數(shù)據(jù)庫,騰訊云還推出涵蓋模型預(yù)訓(xùn)練、模型精調(diào)、智能應(yīng)用開發(fā)的一站式行業(yè)大模型解決方案,助力企業(yè)快速搭建專屬模型。
騰訊云助力下,更多探索正在加速啟航。
? 版權(quán)聲明

相關(guān)文章