亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

AI應(yīng)用信息2年前 (2024)發(fā)布 XIAOT
197 0

1 月 29 日,百川智能發(fā)布超千億參數(shù)的大語(yǔ)言模型 BAIchuan 3。

在多個(gè)權(quán)威通用能力評(píng)測(cè)如 CMMLU、GAOKAO 和 AGI-Eval 中,Baichuan 3 都展現(xiàn)了出色的能力,尤其在中文任務(wù)上更是超越了 GPT-4。而在數(shù)學(xué)和代碼專項(xiàng)評(píng)測(cè)如 MATH、HumanEval 和 MBPP 中同樣表現(xiàn)出色,證明了 Baichuan 3 在自然語(yǔ)言處理和代碼生成領(lǐng)域的強(qiáng)大實(shí)力。

不僅如此,其在對(duì)邏輯推理能力及專業(yè)性要求極高的 MCMLE、MedExam、CMExam 等權(quán)威醫(yī)療評(píng)測(cè)上的中文效果同樣超過(guò)了 GPT-4,是中文醫(yī)療任務(wù)表現(xiàn)最佳的大模型。Baichuan 3 還突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),進(jìn)一步提升了語(yǔ)義理解和生成能力,在詩(shī)詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)優(yōu)異,領(lǐng)先于其他大模型。

鏈接:https://www.baichuan-ai.com/

百川智能做了哪些改進(jìn)

與百億、幾百億級(jí)別參數(shù)模型訓(xùn)練不同,超千億參數(shù)模型在訓(xùn)練過(guò)程中對(duì)高質(zhì)量數(shù)據(jù),訓(xùn)練穩(wěn)定性、訓(xùn)練效率的要求都高出幾個(gè)量級(jí)。為解決相關(guān)問(wèn)題,百川智能在訓(xùn)練過(guò)程中針對(duì)性地提出了“動(dòng)態(tài)數(shù)據(jù)選擇”、“重要度保持”以及“異步 CheckPoint 存儲(chǔ)”等多種創(chuàng)新技術(shù)手段及方案,有效提升了 Baicuan 3 的各項(xiàng)能力。

高質(zhì)量數(shù)據(jù)方面,傳統(tǒng)的數(shù)據(jù)篩選依靠人工定義,通過(guò)濾重篩選、質(zhì)量打分、Textbook 篩選等方法過(guò)濾數(shù)據(jù)。而百川智能認(rèn)為,數(shù)據(jù)的優(yōu)化和采樣是一個(gè)動(dòng)態(tài)過(guò)程,應(yīng)該隨著模型本身的訓(xùn)練過(guò)程優(yōu)化,而非單純依靠人工先驗(yàn)進(jìn)行數(shù)據(jù)的采樣和篩選。

為全面提升數(shù)據(jù)質(zhì)量,百川智能設(shè)計(jì)了一套基于因果采樣的動(dòng)態(tài)訓(xùn)練數(shù)據(jù)選擇方案,該方案能夠在模型訓(xùn)練過(guò)程中動(dòng)態(tài)地選擇訓(xùn)練數(shù)據(jù),極大提升數(shù)據(jù)質(zhì)量。

訓(xùn)練穩(wěn)定性方面,超千億參數(shù)的模型由于參數(shù)量巨大,訓(xùn)練過(guò)程中經(jīng)常會(huì)出現(xiàn)梯度爆炸、loss 跑飛、模型不收斂等問(wèn)題。對(duì)此,百川智能提出了“重要度保持”(Salience-Consistency) 的漸進(jìn)式初始化方法,用以保證模型訓(xùn)練初期的穩(wěn)定性。并且優(yōu)化了模型訓(xùn)練過(guò)程的監(jiān)控方案,在梯度、Loss 等指標(biāo)上引入了參數(shù)“有效秩”的方法來(lái)提早發(fā)現(xiàn)訓(xùn)練過(guò)程中的問(wèn)題,極大加速對(duì)訓(xùn)練問(wèn)題的定位,確保了最后模型的收斂效果。

此外,為了確保在數(shù)千張 GPU 上高效且穩(wěn)定地訓(xùn)練超千億參數(shù)模型,百川智能同步優(yōu)化了模型的訓(xùn)練穩(wěn)定性和訓(xùn)練框架,并采用“異步 CheckPoint 存儲(chǔ)”機(jī)制,可以無(wú)性能損失地加大存儲(chǔ)的頻率,減少機(jī)器故障對(duì)訓(xùn)練任務(wù)的影響,使 Baichuan 3 的穩(wěn)定訓(xùn)練時(shí)間達(dá)到一個(gè)月以上,故障恢復(fù)時(shí)間不超過(guò) 10 分鐘。

訓(xùn)練效率方面,百川智能針對(duì)超千億參數(shù)模型的并行訓(xùn)練問(wèn)題進(jìn)行了一系列優(yōu)化,如高度優(yōu)化的 RoPE, SwiGLU 計(jì)算算子;在數(shù)據(jù)并行中實(shí)現(xiàn)參數(shù)通信與計(jì)算的重疊,以及在序列并行中實(shí)現(xiàn)激活值通信與計(jì)算的重疊,從而有效降低了通信時(shí)間的比重;在流水并行中引入了將激活值卸載至 GPU 的技術(shù),解決了流水并行中顯存占用不均的問(wèn)題,減少了流水并行的分段數(shù)量并顯著降低了空泡率。通過(guò)這些技術(shù)創(chuàng)新,Baichuan 3 的訓(xùn)練框架在性能方面相比業(yè)界主流框架提升超過(guò) 30%。

測(cè)評(píng)展示
中文任務(wù)成績(jī)超越 GPT-4

根據(jù)百川智能,Baichuan 3 在多個(gè)英文評(píng)測(cè)中表現(xiàn)出色,達(dá)到接近 GPT-4 的水平。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多個(gè)中文評(píng)測(cè)榜單上,是超越 GPT-4 展現(xiàn)了其在中文任務(wù)上的優(yōu)勢(shì)。

 

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

 

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

此外,在 MT-Bench、IFEval 等對(duì)齊榜單的評(píng)測(cè)中,Baichuan 3 超越了 GPT-3.5、Claude 等大模型,處于行業(yè)領(lǐng)先水平。

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4
醫(yī)療數(shù)據(jù)集 token 數(shù)超千億,
醫(yī)療能力逼近 GPT-4

另外值得注意的是,百川智能還給 Baichuan3 注入了豐富的醫(yī)療知識(shí)。

Baichuan 3 在數(shù)學(xué)和代碼等多個(gè)權(quán)威評(píng)測(cè)上中文任務(wù)超越 GPT-4 的優(yōu)異成績(jī),已經(jīng)充分證明了其基礎(chǔ)邏輯推理的能力。在擁有豐富高質(zhì)量專業(yè)醫(yī)療知識(shí),并能通過(guò)調(diào)優(yōu)后的 prompt 對(duì)這些知識(shí)進(jìn)行充分激發(fā)的基礎(chǔ)上,結(jié)合超千億參數(shù)的推理能力,Baichuan 3 在醫(yī)療領(lǐng)域的任務(wù)效果提升顯著,在各類中英文醫(yī)療測(cè)試中的成績(jī)提升了 2~14 個(gè)百分點(diǎn)。

根據(jù)百川智能,Baichuan 3 在多個(gè)權(quán)威醫(yī)療評(píng)測(cè)任務(wù)中表現(xiàn)優(yōu)異,不僅 MCMLE、MedExam、CMExam 等中文醫(yī)療任務(wù)的評(píng)測(cè)成績(jī)超過(guò) GPT-4,USMLE、MedMCQA 等英文醫(yī)療任務(wù)的評(píng)測(cè)成績(jī)也逼近了 GPT-4 的水準(zhǔn),是醫(yī)療能力最強(qiáng)的中文大模型。

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

據(jù)悉,百川智能在模型預(yù)訓(xùn)練階段構(gòu)建了超過(guò)千億 Token 的醫(yī)療數(shù)據(jù)集,包括醫(yī)學(xué)研究文獻(xiàn)、真實(shí)的電子病歷資料、醫(yī)學(xué)領(lǐng)域的專業(yè)書(shū)籍和知識(shí)庫(kù)資源、針對(duì)醫(yī)療問(wèn)題的問(wèn)答資料等。該數(shù)據(jù)集涵蓋了從理論到實(shí)際操作,從基礎(chǔ)理論到臨床應(yīng)用等各個(gè)方面的醫(yī)學(xué)知識(shí),確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識(shí)深度。

針對(duì)醫(yī)療知識(shí)激發(fā)的問(wèn)題,百川智能在推理階段針對(duì) Prompt 做了系統(tǒng)性的研究和調(diào)優(yōu),通過(guò)準(zhǔn)確的描述任務(wù)、恰當(dāng)?shù)氖纠龢颖具x擇,讓模型輸出更加準(zhǔn)確以及符合邏輯的推理步驟,最終不僅提升了 Baichuan 3 在多項(xiàng)醫(yī)療考試上的成績(jī),并且在真實(shí)的醫(yī)療問(wèn)答場(chǎng)景下也能給用戶提供更精準(zhǔn)、細(xì)致的反饋。

創(chuàng)作精準(zhǔn)度再大幅提升

語(yǔ)義理解和文本生成,作為大模型最基礎(chǔ)的底層能力,是其他能力的支柱。為提升這兩項(xiàng)能力,業(yè)界進(jìn)行了大量探索和實(shí)踐,OpenAI、Google 以及 Anthropic 等引入的 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)) 和 RLAIF(基于 AI 反饋的強(qiáng)化學(xué)習(xí)) 是其中的關(guān)鍵技術(shù)。

基于強(qiáng)化學(xué)習(xí)對(duì)齊后的模型不僅可以更精準(zhǔn)地理解用戶指令,尤其是多約束以及多輪對(duì)話下的指令,還能進(jìn)一步提升生成內(nèi)容的質(zhì)量。但是在大模型中充分發(fā)揮強(qiáng)化學(xué)習(xí)的作用不僅需要穩(wěn)定且高效的強(qiáng)化學(xué)習(xí)訓(xùn)練框架和高質(zhì)量的優(yōu)質(zhì)偏序數(shù)據(jù),還需要在“探索與利用”兩者間進(jìn)行平衡,實(shí)現(xiàn)模型能力持續(xù)爬坡。

對(duì)于以上問(wèn)題,百川智能進(jìn)行了深入研究并給出了針對(duì)性的解決方案。

強(qiáng)化學(xué)習(xí)訓(xùn)練框架方面,百川智能自研了訓(xùn)練推理雙引擎融合、多模型并行調(diào)度的 PPO 訓(xùn)練框架,能夠很好支持超千億模型的高效訓(xùn)練,訓(xùn)練效率相比業(yè)界主流框架提升 400%。

偏序數(shù)據(jù)方面,百川智能創(chuàng)新性的采用了 RLHF 與 RLAIF 結(jié)合的方式來(lái)生成高質(zhì)量?jī)?yōu)質(zhì)偏序數(shù)據(jù),在數(shù)據(jù)質(zhì)量和數(shù)據(jù)成本之間獲得了更好的平衡。在此基礎(chǔ)上,對(duì)于“探索與利用”這一根本挑戰(zhàn),百川智能通過(guò) PPO 探索空間與 Reward Model 評(píng)價(jià)空間的同步升級(jí),實(shí)現(xiàn)“迭代式強(qiáng)化學(xué)習(xí)”(iterative RLHF&RLAIF)。基于強(qiáng)化學(xué)習(xí)的版本爬坡,可以在 SFT 的基礎(chǔ)上進(jìn)一步發(fā)揮底座模型的潛力,讓 Baichuan 3 的語(yǔ)義理解和生成創(chuàng)作能力大幅提升。

以文本創(chuàng)作中最具挑戰(zhàn)的唐詩(shī)宋詞為例,作為中國(guó)傳統(tǒng)文化的瑰寶,詩(shī)詞不僅在格式、平仄、對(duì)偶、韻律等方面均有著嚴(yán)格的約束條件,并且內(nèi)容高度凝練、寓意深遠(yuǎn)。如果僅通過(guò) SFT 的微調(diào)學(xué)習(xí),一方面高質(zhì)量詩(shī)詞的創(chuàng)作數(shù)據(jù)需要極高的專家成本,另一方面不能在平仄、對(duì)偶、韻律等多個(gè)方面實(shí)現(xiàn)較好的約束理解和遵循。此外,傳統(tǒng)的單次 RLHF 范式在唐詩(shī)宋詞面前也遇到極大挑戰(zhàn),PPO 在訓(xùn)練過(guò)程中生成的 Response 有可能超出 Reward Model 的評(píng)價(jià)范圍導(dǎo)致“探索”的過(guò)程失控。

Baichuan 3 結(jié)合“RLHF&RLAIF”以及迭代式強(qiáng)化學(xué)習(xí)的方法,讓大模型的詩(shī)詞創(chuàng)作能力達(dá)到全新高度??捎眯韵啾犬?dāng)前業(yè)界最好的模型水平提升達(dá) 500%,文采遠(yuǎn)超 GPT-4。

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

作為參數(shù)規(guī)模超過(guò)千億的大語(yǔ)言模型,Baichuan 3 不僅英文效果達(dá)到接近 GPT-4 的水平,還在多項(xiàng)通用中文任務(wù)的表現(xiàn)上實(shí)現(xiàn)了對(duì) GPT-4 的超越,是百川智能的全新里程碑。Baichuan 3 全面的通用能力以及在醫(yī)療領(lǐng)域的強(qiáng)大表現(xiàn),將為百川智能打造“超級(jí)應(yīng)用”,把大模型技術(shù)落地到諸多復(fù)雜應(yīng)用場(chǎng)景提供有力支撐。

? 版權(quán)聲明

相關(guān)文章