亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用

AI應(yīng)用信息2年前 (2024)發(fā)布 XIAOT
189 0

達(dá)觀數(shù)據(jù)是一家2015年在上海浦東張江創(chuàng)立的人工智能企業(yè),專(zhuān)注于文本智能處理技術(shù),并以此在人工智能領(lǐng)域嶄露頭角。經(jīng)過(guò)幾年不斷發(fā)展,達(dá)觀已在行業(yè)中取得領(lǐng)先地位,并榮獲國(guó)家級(jí)“專(zhuān)精特新”小巨人獎(jiǎng)。

書(shū)面類(lèi)長(zhǎng)文本更具價(jià)值

DATAGRAND

從本質(zhì)上來(lái)講,大語(yǔ)言模型的核心價(jià)值是發(fā)展大語(yǔ)言模型,提煉出知識(shí),并以知識(shí)為驅(qū)動(dòng)形成智能的過(guò)程。文字是人類(lèi)文明的起點(diǎn),也是實(shí)現(xiàn)人工智能的關(guān)鍵要素。大語(yǔ)言模型,尤其是GPT(Generative Pre-TrAIned Transformer生成式預(yù)訓(xùn)練模型,近年來(lái)越來(lái)越受到關(guān)注,因?yàn)樗鉀Q了從文字中提煉人類(lèi)知識(shí)的重要任務(wù)。文字資料處理人類(lèi)知識(shí)有兩大應(yīng)用場(chǎng)景,一是用來(lái)做溝通和交流等短文本;二是用于書(shū)面文字資料,如文檔、書(shū)籍、報(bào)告、資料等長(zhǎng)文本。盡管目前很多大模型ChatGPT主要處理對(duì)話類(lèi)的短文本,但書(shū)面類(lèi)長(zhǎng)文本更具價(jià)值。因?yàn)闀?shū)面文字資料的知識(shí)密度高、專(zhuān)業(yè)化程度高,對(duì)于訓(xùn)練大語(yǔ)言模型有著重要價(jià)值。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用

過(guò)去幾年,達(dá)觀一直致力于優(yōu)化長(zhǎng)文本處理的各個(gè)環(huán)節(jié),包括數(shù)據(jù)的積累、工程實(shí)踐以及產(chǎn)品系列的打磨。在模型層出不窮的今天,我們認(rèn)為,專(zhuān)業(yè)化、特長(zhǎng)化、產(chǎn)品化的模型才是未來(lái)發(fā)展的關(guān)鍵?;谶@種理念,達(dá)觀開(kāi)發(fā)了自己的獨(dú)特大語(yǔ)言模型——“曹植”大語(yǔ)言模型。

他山之石可以攻玉,達(dá)觀參考海外經(jīng)驗(yàn),如今年3月份推出的BloombergGPT,它是全球第一個(gè)專(zhuān)門(mén)用于金融領(lǐng)域的優(yōu)秀大模型,為達(dá)觀提供了寶貴的參考。BloombergGPT的效果出眾,尤其在金融領(lǐng)域的專(zhuān)業(yè)任務(wù)上表現(xiàn)出色。

“曹植”大語(yǔ)言模型?

DATAGRAND

為此,達(dá)觀研發(fā)了自己的大語(yǔ)言模型技術(shù)架構(gòu),運(yùn)用了通用無(wú)監(jiān)督訓(xùn)練和領(lǐng)域有監(jiān)督訓(xùn)練,以及大量的專(zhuān)業(yè)領(lǐng)域語(yǔ)料。最終成功開(kāi)發(fā)出了自己的“曹植”大語(yǔ)言模型,這是一款垂直、專(zhuān)用、國(guó)產(chǎn)的大模型,具備長(zhǎng)文本、多語(yǔ)言、垂直化三大特點(diǎn)。

視頻加載失敗,請(qǐng)刷新頁(yè)面再試

達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用?刷新

“曹植”大語(yǔ)言模型,名字的靈感源自于曹植的“七步成詩(shī)”以及其作品《洛神賦》。前者展現(xiàn)了模型強(qiáng)大的寫(xiě)作能力,后者作為一篇超過(guò)1000字的長(zhǎng)文本,彰顯了“曹植”在處理長(zhǎng)文本方面的專(zhuān)業(yè)性。在構(gòu)建這一模型的過(guò)程中,我們結(jié)合了通用語(yǔ)料和專(zhuān)業(yè)垂直語(yǔ)料的混合訓(xùn)練數(shù)據(jù)方案,其中包括50%的混合語(yǔ)料和50%的垂直專(zhuān)用語(yǔ)料,以確保模型既具備通用處理能力,又能夠?qū)I(yè)應(yīng)對(duì)特定行業(yè)領(lǐng)域的語(yǔ)言處理任務(wù)。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
在研發(fā)過(guò)程中,我們充分利用了自身多年積累的專(zhuān)業(yè)文檔資料報(bào)告等信息,使得模型在垂直領(lǐng)域的語(yǔ)言能力和寫(xiě)作能力都達(dá)到了優(yōu)秀的水平。我們也采用了多模型并聯(lián)(Ensemble)的創(chuàng)新方法,通過(guò)整合經(jīng)典的知識(shí)圖譜、搜索引擎等工具和大語(yǔ)言模型,實(shí)現(xiàn)了模型性能的優(yōu)化和提升。并且,模型包括了不同參數(shù)規(guī)模的多種模型,如數(shù)十億、數(shù)百億等,未來(lái)還將研發(fā)數(shù)千億的模型。同時(shí),還可以與其他第三方的大模型進(jìn)行對(duì)接,實(shí)現(xiàn)模型間的融會(huì)貫通,進(jìn)一步提升模型的價(jià)值。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
“曹植”特點(diǎn)1:長(zhǎng)文本

DATAGRAND

“曹植”大語(yǔ)言模型也是針對(duì)處理長(zhǎng)文本而特別研發(fā)的產(chǎn)品。長(zhǎng)文本不僅包含文字信息,還包含許多復(fù)雜的結(jié)構(gòu),如表格、文檔樣式、簽名、蓋章等,甚至還有圖片等多模態(tài)的內(nèi)容。這些復(fù)雜的元素,需要大模型具備高級(jí)的理解和分析能力。對(duì)于長(zhǎng)文本,我們進(jìn)行了詳盡的處理和優(yōu)化。例如,我們進(jìn)行了段落篇章的解析,表格的解析等工作,以應(yīng)對(duì)表格復(fù)雜的形式和樣式。此外,我們還進(jìn)行了版面分析,以深入了解文本的組織結(jié)構(gòu)和版面布局,這對(duì)于專(zhuān)業(yè)報(bào)告等文檔尤為重要。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
因此,達(dá)觀的”曹植”大語(yǔ)言模型不僅具有優(yōu)秀的長(zhǎng)文本寫(xiě)作能力,更具備專(zhuān)業(yè)性的寫(xiě)作能力。用戶只需提供標(biāo)題,模型即可生成文章的提綱,并根據(jù)提綱生成專(zhuān)業(yè)報(bào)告。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
這一過(guò)程中,我們強(qiáng)大的AIGC多模態(tài)能力也會(huì)發(fā)揮作用,例如,可以根據(jù)用戶的文字描述生成相應(yīng)的圖表,并將其插入到文檔中。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
“曹植”特點(diǎn)2:多語(yǔ)言?

DATAGRAND

此外,我們的大模型還具備多語(yǔ)言處理能力,可以根據(jù)用戶的需求生成不同語(yǔ)種的專(zhuān)業(yè)報(bào)告。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
尤其是長(zhǎng)文本的翻譯能力,這一能力不僅包括語(yǔ)義翻譯,還包括版面分析與版面還原。在翻譯過(guò)程中,我們能夠精確地提取原始報(bào)告的格式和版式,并在翻譯完成后進(jìn)行精確的還原,以確保報(bào)告的專(zhuān)業(yè)性和整潔性。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
“曹植”特點(diǎn)3:垂直化

DATAGRAND

我們認(rèn)為,大模型的產(chǎn)品形態(tài)不應(yīng)只限于一問(wèn)一答,而應(yīng)該和行業(yè)應(yīng)用相結(jié)合,才能打造出真正優(yōu)秀的產(chǎn)品。因此,我們的大模型已經(jīng)與多個(gè)行業(yè)專(zhuān)業(yè)領(lǐng)域的產(chǎn)品相結(jié)合,能夠處理各種報(bào)告,處理專(zhuān)業(yè)領(lǐng)域的應(yīng)用場(chǎng)景。

我們還開(kāi)發(fā)了專(zhuān)門(mén)的WPS和Office插件,讓用戶在專(zhuān)業(yè)寫(xiě)作工具中直接使用“曹植”的能力。用戶在寫(xiě)作過(guò)程中,可以直接從企業(yè)的知識(shí)庫(kù)中調(diào)取所需的數(shù)據(jù)和信息,大幅度提高工作效率。這一插件分為個(gè)人免費(fèi)版本和企業(yè)專(zhuān)屬版本,我們可以為每個(gè)企業(yè)定制內(nèi)部的知識(shí)庫(kù),使其更加專(zhuān)業(yè)和垂直。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
“曹植”大模型能力拓展

DATAGRAND

在過(guò)去的幾年中,我們積極推動(dòng)RPA產(chǎn)品的開(kāi)發(fā),并將其視為大模型能力拓展的重要組成部分。在當(dāng)前的大語(yǔ)言模型時(shí)代,我們從企業(yè)的ERP、OA、知識(shí)庫(kù)以及各種外部數(shù)據(jù)源中獲取知識(shí)和數(shù)據(jù),以提升大模型的能力。在這方面,我們深受GPT和復(fù)旦最新版本的MOSS插件庫(kù)的設(shè)計(jì)理念的啟發(fā)。同時(shí),我們也看到,具有豐富插件功能的大語(yǔ)言模型,才能真正具有生命力,并發(fā)揮出巨大價(jià)值。
達(dá)觀數(shù)據(jù)陳運(yùn)文:“曹植”大語(yǔ)言模型的創(chuàng)新與應(yīng)用
? 版權(quán)聲明

相關(guān)文章