亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

“曹植”誕生記,且聽達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒的講述

AI應(yīng)用信息1年前 (2024)發(fā)布 XIAOT
98 0
“曹植七步成詩。作為建安七子之一,他寫的最著名的篇章《洛神賦》就是古代文學(xué)作品里典型的首屈一指的長文本。這也是‘曹植’大模型的專長,做長文檔資料智能化的分析寫作工作。”2023年世界人工智能大會(huì)(以下簡稱“WAIC2023”)上,達(dá)觀數(shù)據(jù)有限公司(以下簡稱“達(dá)觀數(shù)據(jù)”)董事長陳運(yùn)文正式發(fā)布“曹植”垂直領(lǐng)域大語言模型(以下簡稱“曹植”大模型)時(shí)如此介紹道。

這是國內(nèi)首個(gè)垂直行業(yè)專用的自主可控的國產(chǎn)GPT大語言模型,可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長文本寫作,自動(dòng)起草多種類型的文檔,未來將實(shí)現(xiàn)多模態(tài)內(nèi)容生成,如長文檔中的表格、圖表、圖片等。

電梯停靠在5樓,到達(dá)達(dá)觀數(shù)據(jù)辦公區(qū)。一面高3米、長10米的深灰色企業(yè)文化墻吸引了記者注意。從中國文字起源、文字演化發(fā)展歷程,到現(xiàn)代文字的編碼與處理、人工智能處理文本、ChatGPT等,詳盡的介紹以白金相間的大字印在墻面上。

“曹植”誕生記,且聽達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒的講述
成立于2015年的達(dá)觀數(shù)據(jù)成長于上海浦東軟件園,其創(chuàng)始團(tuán)隊(duì)都是與中國文字打過十幾年交道的程序老兵,并深耕于NLP自然語言處理)領(lǐng)域。八年間,達(dá)觀數(shù)據(jù)在金融、政務(wù)、制造等行業(yè)積累了垂直領(lǐng)域的大量數(shù)據(jù)、人才與NLP行業(yè)技術(shù)。今年3月,隨著垂直、專用、自主可控的國產(chǎn)版ChatGPT“曹植”大模型的發(fā)布,達(dá)觀數(shù)據(jù)正不斷推動(dòng)著NLP技術(shù)向不同行業(yè)領(lǐng)域深度結(jié)合。

Part. 01

以遷移學(xué)習(xí)攻破長文本關(guān)鍵難題

自然語言處理(NLP,Natural Language Processing)被譽(yù)為AI皇冠上的明珠。從互聯(lián)網(wǎng)拓寬至更廣泛行業(yè),達(dá)觀數(shù)據(jù)在金融、政務(wù)、制造等行業(yè)積累了垂直領(lǐng)域的大量數(shù)據(jù)、人才與NLP傳統(tǒng)架構(gòu)。達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人、CTO紀(jì)達(dá)麒與來自金融、政務(wù)、制造等行業(yè)的客戶進(jìn)行了廣泛的交流后,逐漸發(fā)現(xiàn)NLP技術(shù)在辦公文檔方面有著廣闊的應(yīng)用前景。

2017年,谷歌發(fā)表論文《Attention is all you need》,提出了NLP關(guān)于“理解”和“生成”的兩個(gè)技術(shù)路線,開啟了NLP的新篇章。

“基于達(dá)觀數(shù)據(jù)當(dāng)時(shí)的優(yōu)勢資源和未來發(fā)展,我們一開始就選擇了‘理解’這條技術(shù)路線?!?/strong>紀(jì)達(dá)麒告訴記者,“相比較生成,理解這條技術(shù)路線在當(dāng)時(shí)來看更容易落地?!?/p>

“曹植”誕生記,且聽達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒的講述
達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人、CTO紀(jì)達(dá)麒

這一年,紀(jì)達(dá)麒和研發(fā)團(tuán)隊(duì)運(yùn)用知識(shí)圖譜、文字識(shí)別等技術(shù)開發(fā)的IDP智能文檔審閱系統(tǒng)進(jìn)入市場。從技術(shù)到產(chǎn)品需要解決的最大難題便是“跨越理解客戶需要的鴻溝”。

“我們要去理解客戶需要,然后轉(zhuǎn)化為應(yīng)用場景,進(jìn)而翻譯為技術(shù)問題,最后實(shí)現(xiàn)相關(guān)的功能模塊?!奔o(jì)達(dá)麒解釋。彼時(shí),達(dá)觀數(shù)據(jù)曾聘請(qǐng)數(shù)十名行業(yè)專家,充當(dāng)客戶與程序員之間的“翻譯員”,嘗試解決這一難題。

隨著人工智能的不斷發(fā)展,機(jī)器智能處理長文本的需求日益緊迫。隨后,達(dá)觀數(shù)據(jù)便投入到大語言模型(LLM,Large Language Model)的開發(fā)工作中,紀(jì)達(dá)麒擔(dān)任該項(xiàng)目總負(fù)責(zé)人。這就是如今的“曹植”大模型誕生的起點(diǎn)。

“想要讓一個(gè)大模型真正能夠處理長文本,它需要聰明地應(yīng)對(duì)多模態(tài)的內(nèi)容,同時(shí)能夠?qū)?fù)雜的結(jié)構(gòu)元素進(jìn)行理解和分析?!?/strong>陳運(yùn)文曾如此強(qiáng)調(diào)大語言模型的難點(diǎn)。

以分析證券領(lǐng)域的研報(bào)為例,計(jì)算機(jī)要像人類般智能,充分理解每個(gè)版面的區(qū)域含義、板塊分布,然后才能用大模型的語義理解做進(jìn)一步的閱讀理解工作。此外,它還要解析沒有邊框或是有各種復(fù)雜嵌套的表格等。在現(xiàn)實(shí)應(yīng)用中,對(duì)各種各樣的文檔資料進(jìn)行理解與分析是其中難點(diǎn)。

在許多實(shí)際應(yīng)用場景中,想要實(shí)現(xiàn)大模型智能化處理長文本,其長文本關(guān)鍵信息抽取任務(wù)是很多應(yīng)用的前置任務(wù)。如在企業(yè)內(nèi)部,合同合規(guī)審查中,合同中的關(guān)鍵信息抽取如果錯(cuò)誤或遺漏,則會(huì)導(dǎo)致后續(xù)的審核結(jié)果出現(xiàn)錯(cuò)誤,造成很大的風(fēng)險(xiǎn)。

“其實(shí),我們這個(gè)行業(yè)碰到的大的問題就是訓(xùn)練標(biāo)注量少。”紀(jì)達(dá)麒介紹,信息抽取任務(wù)通常被看作是序列標(biāo)注問題,雖然在一些領(lǐng)域基于成熟的標(biāo)注數(shù)據(jù),信息抽取已經(jīng)取得較好的效果,但在一些垂直領(lǐng)域,尤其是實(shí)際業(yè)務(wù)場景下,往往由于字段類型的不同及標(biāo)注數(shù)據(jù)量少的原因,效果不是很好。

遷移學(xué)習(xí)是提升小數(shù)據(jù)集模型效果的重要手段之一。機(jī)器學(xué)習(xí)中,遷移學(xué)習(xí)可以利用已有的數(shù)據(jù),在新領(lǐng)域小數(shù)據(jù)訓(xùn)練集上取得更好的效果?!耙院贤瑢徍藶槔?,我們的‘曹植’大模型在某大型航空公司上線半年里,幫助他們發(fā)現(xiàn)了700多萬元的合同風(fēng)險(xiǎn)?!奔o(jì)達(dá)麒透露。

“曹植”誕生記,且聽達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒的講述
Part. 02

“培養(yǎng)”出人工智能版“曹植”

“我們想‘培養(yǎng)’出人工智能版的‘曹植’,希望它能像我國的歷史名人曹植一樣快速地生成長文本?!?/strong>提及“曹植”大模型這一名稱的由來,紀(jì)達(dá)麒笑著說,“這是我們員工在四五十個(gè)名字中票選出來的?!?/p>

“長文本”是“曹植”大模型的目標(biāo)任務(wù)。在WAIC2023發(fā)布會(huì)現(xiàn)場,陳運(yùn)文接受采訪時(shí)曾強(qiáng)調(diào),“曹植”大模型的能力不是問答,而是寫報(bào)告,它的界面是完全針對(duì)寫報(bào)告這種應(yīng)用場景來定制的。

區(qū)別于一問一答的簡單短文本生成,“曹植”大模型可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長文本寫作,自動(dòng)起草多種類型的文檔,同時(shí)具有自動(dòng)排版、智能糾錯(cuò)、文本潤色、自動(dòng)生成摘要等特色功能;還可實(shí)現(xiàn)多模態(tài)內(nèi)容生成,比如長文檔中的表格、圖表、圖片等;支持中文、英文、法語、德語、日語、韓語等數(shù)十種語言的寫作,輔助人工大幅提高辦公效率;在長文檔翻譯方面,對(duì)原文的標(biāo)題、段落等內(nèi)容實(shí)現(xiàn)1:1版式還原,提供實(shí)時(shí)的翻譯體驗(yàn),廣泛應(yīng)用于多語言文檔密集處理的場景。

這也是國內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級(jí)模型,目前已在金融領(lǐng)域AIGC多場景投入應(yīng)用。基于“曹植”系統(tǒng),“曹植”大模型進(jìn)一步夯實(shí)了達(dá)觀數(shù)據(jù)產(chǎn)業(yè)應(yīng)用智能化基座,全面增強(qiáng)AI全產(chǎn)品矩陣能力。

“曹植”誕生記,且聽達(dá)觀數(shù)據(jù)CTO紀(jì)達(dá)麒的講述
“垂直、專用、國產(chǎn)化”是“曹植”大模型的三個(gè)特點(diǎn)?!安苤病贝竽P驮谏纱怪鳖I(lǐng)域的專業(yè)內(nèi)容方面,如法律文書、紅頭文件和研究報(bào)告等,更具優(yōu)勢。眾所周知,專利、合同、客戶等數(shù)據(jù)屬于商業(yè)機(jī)密,若放在公共服務(wù)器會(huì)有隱私泄露的風(fēng)險(xiǎn)。為了保護(hù)數(shù)據(jù)隱私與安全,企業(yè)更需要進(jìn)行本地的私有化部署。

相比通用大模型,企業(yè)采用“曹植”大模型所需的參數(shù)少,私有化部署需要的顯卡資源便少,具有明顯的成本優(yōu)勢,更容易進(jìn)行私有化部署。

據(jù)悉,訓(xùn)練ChatGPT通常需要數(shù)千張價(jià)值萬元的頂級(jí)GPU同時(shí)運(yùn)行,才能訓(xùn)練完畢,其費(fèi)用高昂。但參數(shù)更少的“曹植”大模型僅需要數(shù)百張,甚至數(shù)十張GPU就能達(dá)成訓(xùn)練目標(biāo)。

“以ChatGPT3為例,‘曹植’大模型的參數(shù)規(guī)??梢钥s小到它的十分之一?!奔o(jì)達(dá)麒介紹,參數(shù)更小相當(dāng)于算力需求更小,那么算力的成本也就越小。

結(jié)合精準(zhǔn)數(shù)據(jù)和低算力成本,“曹植”大模型反而可以達(dá)成更好的效果。針對(duì)不同行業(yè)、領(lǐng)域的文案需求,“曹植”大模型可進(jìn)行深度優(yōu)化和個(gè)性化定制。如根據(jù)實(shí)際的辦公應(yīng)用場景,達(dá)觀數(shù)據(jù)將把“曹植”大模型設(shè)計(jì)成一個(gè)個(gè)解決辦公痛點(diǎn)的產(chǎn)品,更好地提升日常辦公的效率。同時(shí),賦能原有產(chǎn)品,使得已有產(chǎn)品的效能再上新臺(tái)階。換句話說,未來,達(dá)觀數(shù)據(jù)可以比較快速地切入很多應(yīng)用場景。

? 版權(quán)聲明

相關(guān)文章