達(dá)觀數(shù)據(jù)宣布研發(fā)國產(chǎn)版GPT模型“曹植”系統(tǒng)

AI應(yīng)用信息1年前 (2024)發(fā)布 XIAOT

今年以來，最火熱的人工智能工具無疑是ChatGPT。ChatGPT是自然語言處理（NLP）下的AI 大模型，其出現(xiàn)帶動的大模型熱潮，撲面而來，包括谷歌、微軟、百度、阿里、騰訊、字節(jié)在內(nèi)的多個大廠爭相布局。在浦東，不少創(chuàng)新企業(yè)也開始發(fā)力。

記者最新從浦東人工智能創(chuàng)新企業(yè)——達(dá)觀數(shù)據(jù)獲悉，基于多年文本智能技術(shù)積累和垂直領(lǐng)域場景業(yè)務(wù)經(jīng)驗，該公司研發(fā)團(tuán)隊正在積極探索大語言模型（LLM）的實踐，研發(fā)國產(chǎn)版GPT“曹植”系統(tǒng)，作為垂直、專用、自主可控的國產(chǎn)版ChatGPT模型，未來可持續(xù)賦能金融、政務(wù)、制造等多個垂直領(lǐng)域。這也是國內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級模型。

達(dá)觀數(shù)據(jù)宣布研發(fā)國產(chǎn)版GPT模型“曹植”系統(tǒng)

大模型或?qū)⒊蔀橄乱淮A(chǔ)設(shè)施

在通用領(lǐng)域，以ChatGPT為代表的生成式大規(guī)模語言模型展現(xiàn)出卓越的知識學(xué)習(xí)和文字創(chuàng)作能力，受到國內(nèi)外的廣泛關(guān)注。

近日，在由中國人工智能學(xué)會主辦，達(dá)觀數(shù)據(jù)攜手中國人工智能學(xué)會自然語言理解專委會、真格基金共同承辦，中國信通院云計算與大數(shù)據(jù)研究所支持的“ChatGPT及大模型專題研討會”上，開展了一場圍繞ChatGPT和大規(guī)模語言模型發(fā)展應(yīng)用的“頭腦風(fēng)暴”。

現(xiàn)場，與會專家們一致認(rèn)為，對于“國產(chǎn)‘ChatGPT’和大模型的發(fā)展上，自然語言處理這一方向比起其他領(lǐng)域，跟海外先進(jìn)企業(yè)的差距要小很多。ChatGPT帶動了自然語言處理整體上下游以及芯片的思考和發(fā)展，某種程度上大模型可能將成為下一代的基礎(chǔ)設(shè)施，而中國需要有自己的基礎(chǔ)模型體系，來保證安全性、并發(fā)性、穩(wěn)定性等問題。

“ChatGPT帶來了人工智能技術(shù)和應(yīng)用的新一輪發(fā)展熱潮，雖然它離通用人工智能的距離還非常遙遠(yuǎn)，但應(yīng)充分認(rèn)識到借助人工智能技術(shù)進(jìn)行分析、理解、生成的道路是正確的。這對于中國乃至全球人工智能企業(yè)而言，既是機(jī)遇也是挑戰(zhàn)?！敝袊磐ㄔ?a href="http://www.xmqqs.cn/tag/%e4%ba%91%e8%ae%a1%e7%ae%97" style="color:#01579b">云計算與大數(shù)據(jù)研究所所長何寶宏表示。

國產(chǎn)模型如何追趕，甚至超越？業(yè)內(nèi)專家認(rèn)為，在這一過程中需要給國產(chǎn)模型一些時間，一定要遠(yuǎn)離概念炒作，扎扎實實做出成績。

“曹植”大模型已獲得重要技術(shù)突破

一直深耕自然語言處理領(lǐng)域的達(dá)觀數(shù)據(jù)再次成為了“先行者”。

ChatGPT本質(zhì)上是通過超大的統(tǒng)計語言模型，對詞語序列的概率分布進(jìn)行建模，利用上下文信息預(yù)測后續(xù)詞語出現(xiàn)的概率分布，這也突破了目前AI發(fā)展的技術(shù)瓶頸。而達(dá)觀數(shù)據(jù)作為國家級專精特新“小巨人”企業(yè)、AI屆最高獎“吳文俊“人工智能獎獲得企業(yè)，一直致力于用AI技術(shù)替代大量繁瑣的重復(fù)性工作，提升金融、政務(wù)、制造等行業(yè)的運(yùn)營管理效率，進(jìn)一步釋放勞動力價值。

達(dá)觀數(shù)據(jù)董事長兼CEO陳運(yùn)文表示，“深化大模型在垂直領(lǐng)域的應(yīng)用，真正把大模型融入到企業(yè)的實際業(yè)務(wù)中，對于商業(yè)化和大語言模型研究都具有重要意義?！?/p> 達(dá)觀數(shù)據(jù)宣布研發(fā)國產(chǎn)版GPT模型“曹植”系統(tǒng)

本次達(dá)觀數(shù)據(jù)的創(chuàng)新突破，將以“曹植”大模型作為支撐，為達(dá)觀全棧AIGC（AI Generated Content，是指利用人工智能技術(shù)來生成內(nèi)容）智能產(chǎn)品帶來革命性效果提升。

例如，達(dá)觀企業(yè)申報材料自動生成，基于達(dá)觀AIGC智能寫作能力，可適配各類材料申報業(yè)務(wù)場景，基于已有各結(jié)構(gòu)化類數(shù)據(jù)，快速撰寫各類制式和非制式文檔，應(yīng)用于公文、招投標(biāo)、投行申報文檔、法律文書等專業(yè)寫作場景。

“‘曹植’垂直領(lǐng)域大語言模型將進(jìn)一步夯實達(dá)觀產(chǎn)業(yè)應(yīng)用智能化基座，全面增強(qiáng)AI全產(chǎn)品矩陣能力?！标愡\(yùn)文表示，“未來可持續(xù)賦能金融、政務(wù)、制造等多個垂直領(lǐng)域和通用場景人工智能的落地和發(fā)展?！?/p>

深耕深度學(xué)習(xí)語義智能領(lǐng)域十余年，達(dá)觀數(shù)據(jù)與北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)等多個高校算法實驗室和科研團(tuán)隊建立了深度交流合作機(jī)制。在算法方面，達(dá)觀不斷探索GPT-3模型的原理驗證和垂直行業(yè)知識的強(qiáng)化訓(xùn)練，不斷提高模型的準(zhǔn)確性和實用性。

據(jù)悉，目前“曹植”大模型已獲得重要技術(shù)突破，在垂直領(lǐng)域內(nèi)的理解和生成的任務(wù)上都達(dá)到了很好的效果。未來達(dá)觀數(shù)據(jù)將建立多個垂直領(lǐng)域的專用語言大模型，為各行業(yè)的智能化需求提供更加專業(yè)和高效的解決方案。