GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

AIGC行業(yè)資訊2年前 (2023)更新編輯員

1.3K 0 3

萬萬想不到啊，MIT數(shù)學(xué)考試，被GPT-4攻破了？！

突然有人在最新論文工作中高調(diào)宣布：

GPT-4在MIT的數(shù)學(xué)和EECS（電氣工程和計算機(jī)科學(xué)系）本科學(xué)位考試中，表現(xiàn)出的能力完全滿足畢業(yè)要求。

而且妥妥地拿下滿分！

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

要知道，測出這個結(jié)果的不是別人，正是來自MIT和波士頓大學(xué)、康奈爾大學(xué)的研究團(tuán)隊。

而且強(qiáng)如上一代王者GPT-3.5，在同樣的測試中，只成功搞定了三分之一。

△GPT-3.5考試成績

論文一出，無數(shù)目光迅速被吸引過來。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

GPT-4這樣看似開掛的行為，自然引發(fā)了不少網(wǎng)友的感慨。

比GPT-3.5強(qiáng)好多，好耶！

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

咱就是說，有沒有可能以后不需要比GPT-4更強(qiáng)的模型，來解決學(xué)術(shù)問題了？

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

還有網(wǎng)友展現(xiàn)了自己網(wǎng)上沖浪的“前沿性”，玩了個這兩天Yann LeCun吐槽“GPT-4智商不如狗”的梗：

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

GPT-4開掛MIT考試

具體來說，GPT-4這次是參與了這樣一場測試：

研究團(tuán)隊策劃了一個數(shù)據(jù)集，其中包含4550個問題和解決方案。

這4550個問題和解決方案，來自MIT數(shù)學(xué)系和EECS的學(xué)生獲得本科學(xué)位，需要學(xué)習(xí)的課程問題集、期中考試和期末考試。

包括：

6-1：電氣科學(xué)與工程；
6-2：電氣工程與計算機(jī)科學(xué)；
6-3：計算機(jī)科學(xué)與工程；
6-4：人工智能與決策；
18-1：普通數(shù)學(xué)；
18-2：應(yīng)用數(shù)學(xué)；
18-3：純數(shù)學(xué)；
18-C：數(shù)學(xué)與計算機(jī)科學(xué)。

△每個專業(yè)的詳細(xì)分類總結(jié)

題目統(tǒng)統(tǒng)出自MIT的數(shù)據(jù)集，從中隨機(jī)生成228個問題，不涉及圖像和已有解決方案的問題。

題目的難度等級由易到難依次為：練習(xí)、習(xí)題、期中考試、期末考試、實驗和專題。

按答案類型排序，題目的難度由易到難依次為：編程、開放、選擇題、數(shù)值、表達(dá)式和圖像。

這一次，參與考試的不只有GPT-4和GPT-3.5，還有StableVicuna-13B、LLaMA-30B和LLaMA-60B。

選擇讓這4個大模型作為考試參賽選手，原因是它們是“最先進(jìn)的大語言模型”。

△最終考試成績

通過表格里的數(shù)據(jù)可以看到，得分最高的是經(jīng)過調(diào)優(yōu)后的GPT-4，得分率100%；表現(xiàn)最一般的是LLaMA-30B，只拿下了30%的分?jǐn)?shù)。

值得關(guān)注的是，原始版本的GPT-4開箱即用，完全不經(jīng)過調(diào)優(yōu)，在本次MIT考試中也拿到了90%的分?jǐn)?shù)。

調(diào)優(yōu)流程，包括Few-Shot+CoT+Self-critique+Experts。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

從最終考試成績的表格數(shù)據(jù)可以看到，從左到右每增加一個環(huán)節(jié)，調(diào)優(yōu)后的GPT-4得分都會更上一層樓。

此外，研究團(tuán)隊還在提示框里進(jìn)行了工程優(yōu)化，具體的“咒語”如下：

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

等等，評分人是GPT-4自己？

看到這樣的結(jié)果，不少網(wǎng)友心生感慨，LLM在數(shù)學(xué)考試上的進(jìn)步，未免有些神速了哈。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

2年前，AI還在苦苦掙扎小學(xué)數(shù)學(xué)問題。

類似“小明種了5棵檸檬樹，每年從每棵樹上得到6個檸檬，10年間他總共得到多少檸檬”這種。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

去年年初，MIT+哈佛+哥倫比亞大學(xué)+滑鐵盧大學(xué)的聯(lián)合研究表示，把數(shù)學(xué)問題轉(zhuǎn)換成等價的編程問題，就可以讓GPT-3的同門師兄弟——OpenAI的Codex掌握高數(shù)，達(dá)到MIT本科水平。

學(xué)了6門MIT本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題，6門課程每門隨機(jī)出25道題，再加上一個ACT水平（美國高考）的數(shù)據(jù)集里的60道題。

總計210道題，AI全部答對。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

不過有人提出，AI達(dá)到的“MIT本科水平”，實際是Codex在做語言題而非數(shù)學(xué)題——

因為當(dāng)時的評測中，Codex負(fù)責(zé)讀寫，并不包括求解。

所以，這一回GPT-4表現(xiàn)奇佳，怎一個妙字了得～

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

好了，知道你很著急夸它，但你先別著急夸它，因為很快有人發(fā)現(xiàn)了一些“詭異”。

主要有2大槽點。

第一個值得質(zhì)疑一番的，就是OpenAI的訓(xùn)練數(shù)據(jù)集沒有完全公布。

這也就意味著，無法證明數(shù)據(jù)集中的4550個問題和解決方案，在GPT-4的訓(xùn)練集中不存在。

換句話說，如果GPT-4在預(yù)訓(xùn)練階段已經(jīng)接觸到了這次的考題們，那最終拿下完美得分，就沒什么好驚喜的了。

也難怪乎有網(wǎng)友毫不客氣地yygq，認(rèn)定GPT-4拿到這樣的結(jié)果，一定是數(shù)據(jù)集已經(jīng)包含在訓(xùn)練數(shù)據(jù)里了。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

第二個槽點，就是GPT-4最后100%的得分率，似乎哪里不對勁？？？

定睛一看，在論文的第2.6節(jié)有一句很關(guān)鍵的點：

團(tuán)隊在數(shù)據(jù)集上微調(diào)開源大模型，“給定問題Q、基本事實解S和LLM答案A，我們使用GPT-4自動對模型響應(yīng)進(jìn)行評分”。

實際操作上，就是每個大模型生成這次考試的答案，然后派出GPT-4打分，分值在0-5之間。

所以給GPT-4打出滿分的，實際上是GPT-4自己。

啊這……很難說沒有王婆賣瓜自賣自夸的嫌疑。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

此外，關(guān)于要給GPT-4提供“好的提示”，才能讓它達(dá)到滿分成績，也讓許多人抱有微詞。

到底什么算“好的提示”呢？似乎無法定義。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

甚至有人喊著，應(yīng)該把這些題丟給MIT數(shù)學(xué)和EECS的學(xué)生去做，并不斷給他們“好的提示”，這樣人類學(xué)生也能拿下100%的吧……

One More Thing

一個小小的彩蛋：

整個測試中，基本上可以在筆記本電腦上部署運行的StableVicuna-13B，也有48%的得分率。

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

這個成績，不僅比模型更大的LLaMA-65B高出近10個百分點，就連MIT fine-tuing過后的LLaMA-30B，還要高。

讓人不得不陷入一些關(guān)于模型規(guī)模與能力相關(guān)性的思考 GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分。

# AIGC行業(yè)資訊 # AI # GPT # LLM # OpenAI # 人工智能 # 大模型 # 論文

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問請聯(lián)系AIGC工具導(dǎo)航或點擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

△GPT-3.5考試成績

GPT-4開掛MIT考試

△每個專業(yè)的詳細(xì)分類總結(jié)

△最終考試成績

等等，評分人是GPT-4自己？

One More Thing

GPT常見問題解答

AIGC正在瘋狂污染中文互聯(lián)網(wǎng) 濫用AI也毀了AI

相關(guān)文章

領(lǐng)新人體驗大禮包

熱門文章

熱門網(wǎng)址

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

△GPT-3.5考試成績

GPT-4開掛MIT考試

△每個專業(yè)的詳細(xì)分類總結(jié)

△最終考試成績

等等，評分人是GPT-4自己？

One More Thing

GPT常見問題解答

AIGC正在瘋狂污染中文互聯(lián)網(wǎng) 濫用AI也毀了AI

相關(guān)文章

領(lǐng)新人體驗大禮包

熱門文章

熱門網(wǎng)址

GPT-4滿分通過MIT本科數(shù)學(xué)考試！GPT-4自己打分

等等，評分人是GPT-4自己？