亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

智源評測體系發(fā)布,國內外“百?!痹u估結果出爐

AIGC行業(yè)資訊2年前 (2024)發(fā)布 zhang
59 0
5月17日,智源研究院舉辦大模型評測發(fā)布會,推出智源評測體系,發(fā)布并解讀國內外140余個開源和商業(yè)閉源的語言及多模態(tài)大模型全方位能力評測結果。值得一提的是,智源研究院首次聯合權威教育機構進行大模型K12學科測試,結果顯示,模型在綜合學科能力上與海淀學生平均水平仍有差距。
國內頭部語言模型綜合表現已接近國際一流水平
本次智源評測分別從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力;針對多模態(tài)模型則主要評估了多模態(tài)理解和生成能力。
智源評測體系發(fā)布,國內外“百?!痹u估結果出爐
5月17日,智源研究院舉辦大模型評測發(fā)布會,推出智源評測體系,發(fā)布并解讀國內外140余個開源和商業(yè)閉源的語言及多模態(tài)大模型全方位能力評測結果。 新京報記者 張璐 攝
在中文語境下,國內頭部語言模型的綜合表現已接近國際一流水平,但存在能力發(fā)展不均衡的情況。在多模態(tài)理解圖文問答任務上,開閉源模型平分秋色,國產模型表現突出。國產多模態(tài)模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態(tài)模型的文生視頻能力上,對比各家公布的演示視頻長度和質量,Sora有明顯優(yōu)勢,其他開放評測的文生視頻模型中,國產模型PixVerse表現優(yōu)異。
由于安全與價值觀對齊是模型產業(yè)落地的關鍵,但海外模型與國內模型在該維度存在差異,因此該單項分數不計入語言模型主客觀評測的總體排名。語言模型主觀評測結果顯示,在中文語境下,字節(jié)跳動豆包Skylark2、OpenAI GPT-4位居第一、第二,國產大模型更懂中國用戶。在語言模型客觀評測中,OpenAI GPT-4、百川智能BAIchuan3位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。
多模態(tài)理解模型客觀評測結果顯示,圖文問答方面,阿里巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先后領先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊隨其后。
多模態(tài)生成模型文生圖評測結果顯示,OpenAI DALL-E3位列第一,智譜華章CogView3、Meta-Imagine分居第二、第三,百度文心一格、字節(jié)跳動doubao-Image次之。多模態(tài)生成模型文生視頻評測結果顯示,OpenAI Sora、Runway、愛詩科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。
K12學科測試顯示,模型對圖表理解能力不足
當前,大模型的發(fā)展具備了通用性,在邏輯推理能力上有顯著提升,日趨接近人腦的特征。因此,在海淀區(qū)教委支持下,智源研究院與海淀區(qū)教師進修學校對齊學生測驗方式,考察大模型與人類學生的學科水平差異,其中,答案不唯一的主觀題,由海淀教師親自評卷。
智源評測發(fā)現,大模型在綜合學科能力上與海淀學生平均水平仍有差距,普遍存在“文強理弱”的情況,并且對圖表的理解能力不足,未來還有很大的提升空間。
北京市海淀區(qū)教師進修學校校長姚守梅解讀大模型K12學科測試結果時指出,在語文、歷史等人文學科的考試中,模型欠缺對文字背后的文化內涵以及家國情懷的理解。面對歷史地理綜合題時,模型并不能像人類考生一樣有效識別學科屬性。相較于簡單的英語題,模型反而更擅長復雜的英語題。解理科題目時,模型會出現以超出年級知識范圍外的方法解題的情況。當出現無法理解的考題時,模型依然存在明顯的“幻覺”。
系統化構建文生視頻模型主觀評價體系
中國傳媒大學智能媒體計算實驗室負責人史萍教授表示,相較文本,視頻的主觀評價復雜度極高。自動化指標無法完全捕捉模型生成的質量,更無法對生成視頻的真實性、圖文語義一致性等進行量化。因此,需要系統化構建針對文生視頻模型的主觀評價體系。
基于雙方在大模型評測領域和視頻質量評價領域的豐富科研成果與實踐經驗,智源研究院與中國傳媒大學共同建立了評價體系,在圖文一致性、真實性、視頻質量、美學質量四大方面給出多維度評分,為AIGC視頻生成技術的應用及發(fā)展提供參考。
推出科學公正的智源評測體系
依托科技部“人工智能基礎模型支撐平臺與評測技術”和工信部“大模型公共服務平臺”項目,智源研究院與10余家高校和機構聯合開展大模型評測方法與工具研發(fā)。
2023年6月,由智源研究院與多個高校團隊共建的FlagEval大模型評測平臺上線,迄今為止已完成了1000多次覆蓋全球多個開源大模型的評測,并持續(xù)發(fā)布評測結果,廣泛地積累了國際領先的評測技術。
智源研究院牽頭成立了IEEE大模型評測標準小組P3419,組織20余家企業(yè)及學者參與大模型標準建設。作為《人工智能預訓練模型評測指標與方法》國家標準草案的共建單位,智源此次的模型評測借鑒了該標準,采取了客觀評測統一規(guī)則與主觀評測多重校驗打分相結合的方法。
本次智源評測使用20余個數據集、超8萬道考題,包括與合作單位共建和智源自建的多個評測數據集,如中文多模態(tài)多題型理解及推理評測數據集CMMU、中文語義評測數據集C-SEM、文生圖主觀評測集Image-gen、文生視頻模型主觀評測集CUC T2V prompts等。其中,主觀題4000余道,均來源于自建原創(chuàng)未公開并保持高頻迭代的主觀評測集,嚴格校準打分標準,采取多人獨立匿名評分、嚴格質檢與抽檢相結合的管理機制,降低主觀偏差的影響。
智源研究院院長王仲遠表示,未來,智源將攜手生態(tài)合作伙伴繼續(xù)共建完善評測體系,促進模型性能的優(yōu)化以及在多元復雜場景下的產業(yè)落地,推動大模型技術應用的有序發(fā)展。
? 版權聲明

相關文章