北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng)，國(guó)產(chǎn)大模型更懂中國(guó)用戶

AIGC行業(yè)資訊2年前 (2024)更新 jzawxc

5月17日，北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦大模型評(píng)測(cè)發(fā)布會(huì)，發(fā)布并解讀了對(duì)國(guó)內(nèi)外140余個(gè)開源和商業(yè)閉源的語言及多模態(tài)大模型的能力評(píng)測(cè)結(jié)果。此次測(cè)評(píng)首次引入人類學(xué)生熟悉的學(xué)科測(cè)試，讓AI考生和三年級(jí)到高三學(xué)段的人類考生平均水平一較高下。根據(jù)大模型企業(yè)在語言模型、多模態(tài)理解與生成模型以及K12學(xué)科測(cè)驗(yàn)上的綜合表現(xiàn)進(jìn)行評(píng)比后，阿里云、百度、字節(jié)跳動(dòng)、智譜華章、百川智能躋身“優(yōu)秀”行列。與此同時(shí)，“文強(qiáng)理弱”、簡(jiǎn)單題目反而錯(cuò)誤率高等模型普遍存在的短板也集中展現(xiàn)在大眾面前。

中文語境下國(guó)產(chǎn)模型接近國(guó)際一流

本次評(píng)測(cè)分別從主觀、客觀兩個(gè)維度考察了語言模型的簡(jiǎn)單理解、知識(shí)運(yùn)用、推理能力、數(shù)學(xué)能力、代碼能力、任務(wù)解決、安全與價(jià)值觀七大能力；針對(duì)多模態(tài)模型則主要評(píng)估了多模態(tài)理解和生成能力。

在中文語境下，國(guó)內(nèi)頭部語言模型的綜合表現(xiàn)已接近國(guó)際一流水平，但存在能力發(fā)展不均衡的情況。在多模態(tài)（多模態(tài)，是指視頻、語音和文本等多種信息表現(xiàn)形式）理解圖文問答任務(wù)上，國(guó)產(chǎn)模型表現(xiàn)突出，特別是在中文語境下的文生圖能力與國(guó)際一流水平差距較小。多模態(tài)模型的文生視頻能力上，對(duì)比各家公布的演示視頻長(zhǎng)度和質(zhì)量，美國(guó)OpenAI公司的視頻大模型Sora有明顯優(yōu)勢(shì)，其他開放評(píng)測(cè)的文生視頻模型中，愛詩(shī)科技研發(fā)的國(guó)產(chǎn)模型PixVerse表現(xiàn)優(yōu)異。

北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng)，國(guó)產(chǎn)大模型更懂中國(guó)用戶

語言模型主觀評(píng)測(cè)結(jié)果顯示，在中文語境下，字節(jié)跳動(dòng)豆包Skylark2、OpenAI GPT-4位居第一、第二，國(guó)產(chǎn)大模型更懂中國(guó)用戶。在語言模型客觀評(píng)測(cè)中，OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進(jìn)入語言模型主客觀評(píng)測(cè)前五。

據(jù)了解，本次智源評(píng)測(cè)使用了20余個(gè)數(shù)據(jù)集、超8萬道考題，包括與合作單位共建和智源自建的多個(gè)評(píng)測(cè)數(shù)據(jù)集，如中文多模態(tài)多題型理解及推理評(píng)測(cè)數(shù)據(jù)集CMMU、中文語義評(píng)測(cè)數(shù)據(jù)集C-SEM、文生圖主觀評(píng)測(cè)集Image-gen、文生視頻模型主觀評(píng)測(cè)集CUC T2V prompts等。其中，主觀題4000余道，均來源于自建原創(chuàng)未公開并保持高頻迭代的主觀評(píng)測(cè)集，嚴(yán)格校準(zhǔn)打分標(biāo)準(zhǔn)，采取多人獨(dú)立匿名評(píng)分、嚴(yán)格質(zhì)檢與抽檢相結(jié)合的管理機(jī)制，降低主觀偏差的影響。

AI考生普遍“文強(qiáng)理弱”

當(dāng)前，大模型的發(fā)展展示出了日趨接近人腦的智能特征。人們不禁好奇，大模型的“智力”是否真的超越了人類？大模型更擅長(zhǎng)哪些學(xué)科、是否偏科？

為了仿照人類的篩選與考核方式，一眾國(guó)內(nèi)外大模型也在一場(chǎng)模型答題、教師出題并閱卷的真實(shí)考試中與人類學(xué)生上演“PK”。智源研究院院長(zhǎng)王仲遠(yuǎn)介紹，此次在海淀區(qū)教委支持下，海淀區(qū)教師進(jìn)修學(xué)校新編小學(xué)三年級(jí)至高三學(xué)段的45套試卷，覆蓋語數(shù)英物化史6個(gè)學(xué)科，共計(jì)1400多道主、客觀題，通過對(duì)比大模型的實(shí)際表現(xiàn)與教師預(yù)估的海淀學(xué)生平均水平進(jìn)行比對(duì)，以此來考察大模型與人類學(xué)生的差異。其中，答案不唯一的主觀題由海淀教師親自評(píng)卷。

評(píng)測(cè)結(jié)果發(fā)現(xiàn)，在小學(xué)三年級(jí)到高三的學(xué)科考題面前，大模型們?cè)诰C合學(xué)科能力上的表現(xiàn)與海淀學(xué)生平均水平仍有差距，普遍存在“文強(qiáng)理弱”的情況，并且對(duì)圖表的理解能力不足，大模型未來仍有很大的提升空間。

例如，在一道“根據(jù)西紅柿與黃瓜市場(chǎng)價(jià)格的折線圖，列出每月黃瓜的價(jià)格”的讀圖題目中，僅有一家大模型給出了正確答案，連國(guó)際領(lǐng)先的OpenAI旗下大模型ChatGPT也答錯(cuò)了這道三年級(jí)數(shù)學(xué)題。

研究人員還發(fā)現(xiàn)了一個(gè)令人意外的結(jié)果：在初一到高三年級(jí)，大模型與人類之間的差異變化不明顯。而在三年級(jí)到六年級(jí)，隨著年級(jí)越低，現(xiàn)有大模型的表現(xiàn)與人類差距較大?！皽\層原因是低年級(jí)的考題中圖片較多，而大部分大模型讀圖能力較弱。另一方面，這也從側(cè)面反映出大模型的學(xué)習(xí)方式與人類的認(rèn)知方式存在差異，人類在幼兒期間獲取知識(shí)的方式與AI并不相同?！?/p>

海淀區(qū)教師進(jìn)修學(xué)校校長(zhǎng)姚守梅解讀道，在語文、歷史等人文學(xué)科的考試中，模型欠缺對(duì)文字背后的文化內(nèi)涵以及家國(guó)情懷的理解。當(dāng)出現(xiàn)無法理解的考題時(shí)，模型則出現(xiàn)了明顯的“幻覺”問題，開始一本正經(jīng)地胡說八道。

# AIGC行業(yè)資訊 # AI # ChatGPT # GPT # OpenAI # PixVerse # prompt # 圖片 # 大模型 # 文字 # 文心一言 # 文生圖 # 文生視頻 # 百川智能 # 視頻 # 阿里云

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問請(qǐng)聯(lián)系AIGC工具導(dǎo)航或點(diǎn)擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng)，國(guó)產(chǎn)大模型更懂中國(guó)用戶

既擁抱新技術(shù)，也為教室留下“一塊黑板” 多位教育專家探討“人工智能+教育”

騰訊云大模型免費(fèi)開放：AI行業(yè)的價(jià)格戰(zhàn)，還是技術(shù)革新的前奏？

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

一鍵AI寫小說工具

AI一鍵生成立體圖

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

北京新型研發(fā)機(jī)構(gòu)智源研究院舉辦國(guó)內(nèi)外百余大模型測(cè)評(píng)，國(guó)產(chǎn)大模型更懂中國(guó)用戶

既擁抱新技術(shù)，也為教室留下“一塊黑板” 多位教育專家探討“人工智能+教育”

騰訊云大模型免費(fèi)開放：AI行業(yè)的價(jià)格戰(zhàn)，還是技術(shù)革新的前奏？

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

一鍵AI寫小說工具

AI一鍵生成立體圖

既擁抱新技術(shù)，也為教室留下“一塊黑板” 多位教育專家探討“人工智能+教育”

騰訊云大模型免費(fèi)開放：AI行業(yè)的價(jià)格戰(zhàn)，還是技術(shù)革新的前奏？