用AI監(jiān)督AI?OpenAI方面宣布基于GPT-4推出新模型CriticGPT,用于捕捉ChatGPT代碼輸出中的錯(cuò)誤。
AI會(huì)因?yàn)榛糜X(jué)(AI Hallucinations)而胡說(shuō)八道這件事,已經(jīng)是當(dāng)下AI行業(yè)的共識(shí)。無(wú)論國(guó)內(nèi)的文心一言、Kimi、混元,還是海外的ChatGPT、Gemini,答非所問(wèn)、前后矛盾,乃至胡編亂造的現(xiàn)象也早已見怪不怪。為了解決這個(gè)問(wèn)題,作為業(yè)界領(lǐng)頭羊的OpenAI拿出了新武器。日前OpenAI方面宣布基于GPT-4推出新模型CriticGPT,主要用于捕捉ChatGPT代碼輸出中的錯(cuò)誤。
OpenAI方面透露,通過(guò)CriticGPT的幫助,在基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)領(lǐng)域里,人類訓(xùn)練師的審查效果比沒(méi)有獲得幫助的人強(qiáng)60%。OpenAI表示,正在著手將類似CriticGPT的模型集成到旗下rlHF標(biāo)記流水線中,為自己的訓(xùn)練師提供明確的AI幫助。但同時(shí)他們也承認(rèn),CriticGPT的建議并不是全都正確無(wú)誤,但有了CriticGPT的幫助,人類訓(xùn)練師的效率會(huì)大幅提升。
眾所周知,OpenAI旗下的ChatGPT之所以會(huì)表現(xiàn)出比以往AI產(chǎn)品更強(qiáng)的智能,RLHF是其中的關(guān)鍵,它可以借助人類反饋信號(hào)來(lái)直接優(yōu)化語(yǔ)言模型,數(shù)據(jù)標(biāo)注人員則通過(guò)給大模型產(chǎn)出的結(jié)果打分,由他們來(lái)負(fù)責(zé)判斷大模型生成的文本是否符合人類偏好。如此一來(lái),在RLHF訓(xùn)練中給AI的輸出挑錯(cuò)的CriticGPT,實(shí)際上就讓OpenAI做到了通過(guò)人工智能來(lái)修正人工智能,等于是左腳踩右腳上天。
事實(shí)上,CriticGPT應(yīng)該是OpenAI去年推出的AI文本檢測(cè)器(AI Text Classifier)的升級(jí)版。檢測(cè)互聯(lián)網(wǎng)上的內(nèi)容是否由AI生成,這已經(jīng)是目前的一個(gè)熱點(diǎn)項(xiàng)目,當(dāng)時(shí)OpenAI就拿出了AI文本檢測(cè)器,但這個(gè)工具的效果卻不太盡如人意。根據(jù)OpenAI方面公布的相關(guān)數(shù)據(jù)顯示,AI文本檢測(cè)器在識(shí)別AI生成文本方面的正確率僅有26%,同時(shí)將人類所寫內(nèi)容識(shí)別為AI生成的錯(cuò)誤率則達(dá)到了9%。
雖然同樣使用了監(jiān)督學(xué)習(xí)的方法,但AI文本檢測(cè)器最大的問(wèn)題就是數(shù)據(jù)集有限,而想要讓一款AI檢測(cè)工具的性能在線,就需要有一個(gè)接近訓(xùn)練ChatGPT所需的數(shù)據(jù)集?,F(xiàn)在基于GPT-4的龐大數(shù)據(jù)集,CriticGPT誕生了。同樣是使用了RLHF,CriticGPT與常規(guī)GPT最大的區(qū)別,在于訓(xùn)練數(shù)據(jù)中包含大量有意為之的錯(cuò)誤輸入,OpenAI稱之為通過(guò)篡改答案實(shí)現(xiàn)的隨機(jī)對(duì)照實(shí)驗(yàn)。
OpenAI方面是先讓人類標(biāo)注員在ChatGPT生成的回答里故意植入錯(cuò)誤,然后再指出問(wèn)題,最后將所有數(shù)據(jù)交給CriticGPT。不過(guò)他們也承認(rèn)CriticGPT會(huì)出現(xiàn)幻覺(jué),如果只是用AI檢測(cè)AI,考慮到幻覺(jué)的存在,兩個(gè)會(huì)產(chǎn)生幻覺(jué)的AI大模型碰撞在一起顯然只會(huì)誕生更大的錯(cuò)誤。為此,OpenAI還搞出了名為強(qiáng)制采樣束搜索(FSBS)的技術(shù),后者會(huì)強(qiáng)制CriticGPT生成多個(gè)不同的評(píng)論片段,并用獎(jiǎng)勵(lì)模型(Reward model)對(duì)這些片段進(jìn)行評(píng)分,最后再根據(jù)評(píng)分和一個(gè)長(zhǎng)度修正因子來(lái)選擇最佳的反饋組合。
如此一來(lái),CriticGPT就可以在輸出的全面性和準(zhǔn)確性之間找到最優(yōu)解。以當(dāng)下最熱門的代碼生成為例,OpenAI給出的成績(jī)無(wú)疑是讓人欣喜的,在發(fā)現(xiàn)人為有意插入的BUG上,人類審核員平均只能找到25%,而CriticGPT的識(shí)別率則達(dá)到了75%以上;而在評(píng)估自然出現(xiàn)的BUG時(shí),有63%的情況下人類訓(xùn)練師更傾向于選擇CriticGPT、而非人類程序員的結(jié)果。
即便在評(píng)估非代碼任務(wù)時(shí),CriticGPT也成功識(shí)別出了數(shù)百個(gè)在ChatGPT訓(xùn)練數(shù)據(jù)中,被人類標(biāo)注員認(rèn)為是”完美”、但實(shí)際上是錯(cuò)誤的結(jié)果。至于為什么CriticGPT能實(shí)現(xiàn)這樣表現(xiàn),用OpenAI開發(fā)者的話來(lái)說(shuō),對(duì)于很多任務(wù)來(lái)說(shuō),評(píng)價(jià)任務(wù)其實(shí)比把任務(wù)做好要容易得多。相比于ChatGPT,CriticGPT沒(méi)有創(chuàng)造力,它只能根據(jù)已經(jīng)有的輸出進(jìn)行評(píng)價(jià)。
CriticGPT的成功不僅僅在于有了一個(gè)能用的AI檢測(cè)工具,更重要的是為后續(xù)大模型的訓(xùn)練也提供了幫助。
要知道,RLHF是ChatGPT這類大語(yǔ)言模型乃至多模態(tài)大模型的理論基礎(chǔ),但RLHF并不是萬(wàn)能的,RLHF的上限就是人類智能的上限。沒(méi)有CriticGPT的成功,大模型的邊界就是人類認(rèn)知的邊界,從某一個(gè)臨界點(diǎn)開始,人類將無(wú)法再可靠地評(píng)估人工智能系統(tǒng),這也是為什么OpenAI去年總是避談GPT-5。
CriticGPT的出現(xiàn),就代表著OpenAI提出的可擴(kuò)展監(jiān)督(Scalable Oversight)并非妄想??蓴U(kuò)展監(jiān)督即在確保模型能力超過(guò)人類水平后,仍能與人類的期望保持一致、持續(xù)地進(jìn)行改進(jìn)和學(xué)習(xí),或許只有用大模型來(lái)監(jiān)督大模型,才能出現(xiàn)超越人類智能的人工智能。