亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng),國(guó)產(chǎn)大模型更懂中國(guó)用戶

AIGC行業(yè)資訊2年前 (2024)更新 jzawxc
26 0

5月17日,北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦大模型評(píng)測(cè)發(fā)布會(huì),發(fā)布并解讀了對(duì)國(guó)內(nèi)外140余個(gè)開源和商業(yè)閉源的語言及多模態(tài)大模型的能力評(píng)測(cè)結(jié)果。此次測(cè)評(píng)首次引入人類學(xué)生熟悉的學(xué)科測(cè)試,讓AI考生和三年級(jí)到高三學(xué)段的人類考生平均水平一較高下。根據(jù)大模型企業(yè)在語言模型、多模態(tài)理解與生成模型以及K12學(xué)科測(cè)驗(yàn)上的綜合表現(xiàn)進(jìn)行評(píng)比后,阿里云、百度、字節(jié)跳動(dòng)、智譜華章、百川智能躋身“優(yōu)秀”行列。與此同時(shí),“文強(qiáng)理弱”、簡(jiǎn)單題目反而錯(cuò)誤率高等模型普遍存在的短板也集中展現(xiàn)在大眾面前。

中文語境下國(guó)產(chǎn)模型接近國(guó)際一流

本次評(píng)測(cè)分別從主觀、客觀兩個(gè)維度考察了語言模型的簡(jiǎn)單理解、知識(shí)運(yùn)用、推理能力、數(shù)學(xué)能力、代碼能力、任務(wù)解決、安全與價(jià)值觀七大能力;針對(duì)多模態(tài)模型則主要評(píng)估了多模態(tài)理解和生成能力。

在中文語境下,國(guó)內(nèi)頭部語言模型的綜合表現(xiàn)已接近國(guó)際一流水平,但存在能力發(fā)展不均衡的情況。在多模態(tài)(多模態(tài),是指視頻、語音和文本等多種信息表現(xiàn)形式)理解圖文問答任務(wù)上,國(guó)產(chǎn)模型表現(xiàn)突出,特別是在中文語境下的文生圖能力與國(guó)際一流水平差距較小。多模態(tài)模型的文生視頻能力上,對(duì)比各家公布的演示視頻長(zhǎng)度和質(zhì)量,美國(guó)OpenAI公司的視頻大模型Sora有明顯優(yōu)勢(shì),其他開放評(píng)測(cè)的文生視頻模型中,愛詩(shī)科技研發(fā)的國(guó)產(chǎn)模型PixVerse表現(xiàn)優(yōu)異。

北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng),國(guó)產(chǎn)大模型更懂中國(guó)用戶

語言模型主觀評(píng)測(cè)結(jié)果顯示,在中文語境下,字節(jié)跳動(dòng)豆包Skylark2、OpenAI GPT-4位居第一、第二,國(guó)產(chǎn)大模型更懂中國(guó)用戶。在語言模型客觀評(píng)測(cè)中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進(jìn)入語言模型主客觀評(píng)測(cè)前五。

據(jù)了解,本次智源評(píng)測(cè)使用了20余個(gè)數(shù)據(jù)集、超8萬道考題,包括與合作單位共建和智源自建的多個(gè)評(píng)測(cè)數(shù)據(jù)集,如中文多模態(tài)多題型理解及推理評(píng)測(cè)數(shù)據(jù)集CMMU、中文語義評(píng)測(cè)數(shù)據(jù)集C-SEM、文生圖主觀評(píng)測(cè)集Image-gen、文生視頻模型主觀評(píng)測(cè)集CUC T2V prompts等。其中,主觀題4000余道,均來源于自建原創(chuàng)未公開并保持高頻迭代的主觀評(píng)測(cè)集,嚴(yán)格校準(zhǔn)打分標(biāo)準(zhǔn),采取多人獨(dú)立匿名評(píng)分、嚴(yán)格質(zhì)檢與抽檢相結(jié)合的管理機(jī)制,降低主觀偏差的影響。

AI考生普遍“文強(qiáng)理弱”

當(dāng)前,大模型的發(fā)展展示出了日趨接近人腦的智能特征。人們不禁好奇,大模型的“智力”是否真的超越了人類?大模型更擅長(zhǎng)哪些學(xué)科、是否偏科?

為了仿照人類的篩選與考核方式,一眾國(guó)內(nèi)外大模型也在一場(chǎng)模型答題、教師出題并閱卷的真實(shí)考試中與人類學(xué)生上演“PK”。智源研究院院長(zhǎng)王仲遠(yuǎn)介紹,此次在海淀區(qū)教委支持下,海淀區(qū)教師進(jìn)修學(xué)校新編小學(xué)三年級(jí)至高三學(xué)段的45套試卷,覆蓋語數(shù)英物化史6個(gè)學(xué)科,共計(jì)1400多道主、客觀題,通過對(duì)比大模型的實(shí)際表現(xiàn)與教師預(yù)估的海淀學(xué)生平均水平進(jìn)行比對(duì),以此來考察大模型與人類學(xué)生的差異。其中,答案不唯一的主觀題由海淀教師親自評(píng)卷。

評(píng)測(cè)結(jié)果發(fā)現(xiàn),在小學(xué)三年級(jí)到高三的學(xué)科考題面前,大模型們?cè)诰C合學(xué)科能力上的表現(xiàn)與海淀學(xué)生平均水平仍有差距,普遍存在“文強(qiáng)理弱”的情況,并且對(duì)圖表的理解能力不足,大模型未來仍有很大的提升空間。

例如,在一道“根據(jù)西紅柿與黃瓜市場(chǎng)價(jià)格的折線圖,列出每月黃瓜的價(jià)格”的讀圖題目中,僅有一家大模型給出了正確答案,連國(guó)際領(lǐng)先的OpenAI旗下大模型ChatGPT也答錯(cuò)了這道三年級(jí)數(shù)學(xué)題。

研究人員還發(fā)現(xiàn)了一個(gè)令人意外的結(jié)果:在初一到高三年級(jí),大模型與人類之間的差異變化不明顯。而在三年級(jí)到六年級(jí),隨著年級(jí)越低,現(xiàn)有大模型的表現(xiàn)與人類差距較大?!皽\層原因是低年級(jí)的考題中圖片較多,而大部分大模型讀圖能力較弱。另一方面,這也從側(cè)面反映出大模型的學(xué)習(xí)方式與人類的認(rèn)知方式存在差異,人類在幼兒期間獲取知識(shí)的方式與AI并不相同?!?/p>

北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng),國(guó)產(chǎn)大模型更懂中國(guó)用戶

海淀區(qū)教師進(jìn)修學(xué)校校長(zhǎng)姚守梅解讀道,在語文、歷史等人文學(xué)科的考試中,模型欠缺對(duì)文字背后的文化內(nèi)涵以及家國(guó)情懷的理解。當(dāng)出現(xiàn)無法理解的考題時(shí),模型則出現(xiàn)了明顯的“幻覺”問題,開始一本正經(jīng)地胡說八道。

? 版權(quán)聲明

相關(guān)文章