大模型也會(huì)被忽悠？揭秘AI的信念之旅

地球是平的嗎？

當(dāng)然不是。自古希臘數(shù)學(xué)家畢達(dá)哥拉斯首次提出地圓說(shuō)以來(lái)，現(xiàn)代科學(xué)技術(shù)已經(jīng)證明了地球是圓形這一事實(shí)。

但是，你有沒(méi)有想過(guò)，如果 AI 被誤導(dǎo)性信息 “忽悠” 了，會(huì)發(fā)生什么？

來(lái)自清華、上海交大、斯坦福和南洋理工的研究人員在最新的論文中深入探索 LLMs 在虛假信息干擾情況下的表現(xiàn)，他們發(fā)現(xiàn)大語(yǔ)言模型在誤導(dǎo)信息反復(fù)勸說(shuō)下，非常自信地做出「地球是平的」這一判斷。

論文鏈接：https://arxiv.org/pdf/2312.09085

項(xiàng)目主頁(yè)：https://LLMs-believe-the-earth-is-flat.github.io/

GitHub 源代碼：https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat

生成式人工智能技術(shù)的快速發(fā)展，為生成虛假信息提供了便利。這些技術(shù)不僅能夠創(chuàng)建逼真的文本、圖像、音頻和視頻內(nèi)容，還能夠在社交網(wǎng)絡(luò)上自動(dòng)發(fā)布和傳播這些內(nèi)容。虛假信息的泛濫給社會(huì)帶來(lái)了諸多挑戰(zhàn)，但目前對(duì)這類信息的確切影響仍不十分清楚。然而，可以預(yù)見(jiàn)的是，隨著技術(shù)的發(fā)展，虛假信息的生成和傳播將會(huì)變得更加容易和普遍。

另一方面，大語(yǔ)言模型的上下文學(xué)習(xí)能力使其受到誤導(dǎo)性信息的影響。這種誤導(dǎo)性信息可能會(huì)在模型的部署過(guò)程中在上下文中被接受，并在模型生成的輸出中反映出來(lái)，導(dǎo)致其產(chǎn)生不準(zhǔn)確或具有偏見(jiàn)的內(nèi)容。因此，研究者們正在努力探索如何提高大模型對(duì)虛假信息的識(shí)別能力和抵抗能力，這是提升大模型安全和魯棒性的重要內(nèi)容之一。

本篇研究就探索了這種有誤信息對(duì)于大語(yǔ)言模型知識(shí)信念的影響，研究論文已經(jīng)被 ACL 2024 接收，并選做大會(huì)報(bào)告（Oral）。

實(shí)驗(yàn)：大模型的 “信念” 測(cè)試

研究者們首先構(gòu)建了一個(gè)名為 Farm（Fact to Misinform Dataset）的數(shù)據(jù)集，包含 1500 個(gè)事實(shí)性問(wèn)題及其相關(guān)的誤導(dǎo)性信息。他們?cè)诖笳Z(yǔ)言模型的幫助下系統(tǒng)性地構(gòu)造了更具有說(shuō)服力的有誤信息：首先，他們對(duì)原始正確的事實(shí)性 QA 進(jìn)行語(yǔ)義取反或者構(gòu)造錯(cuò)誤答案，隨后利用 “越獄” 后的大模型協(xié)助生成更具有說(shuō)服力的長(zhǎng)文本有誤信息。

利用這些數(shù)據(jù)，便可以測(cè)試大語(yǔ)言模型在多輪對(duì)話中面對(duì)虛假信息時(shí)的反應(yīng)。測(cè)試過(guò)程分為三個(gè)階段：初始信念檢驗(yàn)、多輪對(duì)話中勸說(shuō)誤導(dǎo)、結(jié)果信念檢驗(yàn)。模型的信念檢驗(yàn)通過(guò)模型在閉卷 QA 中答案的信心分?jǐn)?shù)反應(yīng)。通過(guò)這種方式，研究者們能夠觀察到 LLMs 在多輪對(duì)話中信念的變化。

多輪測(cè)試框架

主要結(jié)果

在勸說(shuō)性交流階段，研究者們使用了多種策略來(lái)誤導(dǎo) LLMs 改變其信念。這些策略包括曉之以理的勸說(shuō)（LO）、樹(shù)立權(quán)威的勸說(shuō)（CR）和動(dòng)之以情的勸說(shuō)（EM）。結(jié)果顯示，即使是最先進(jìn)的模型，如 GPT-4，也有高達(dá) 20.7% 的可能性被虛假信息所影響?；趯?duì) ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五種大模型平均準(zhǔn)確度（Average Accuracy Rate, ACC）和被誤導(dǎo)率（Misinformed Rate, MR）的實(shí)驗(yàn)，研究者們有五點(diǎn)發(fā)現(xiàn)：

絕大多數(shù)大模型都易被虛假信息欺騙：從最先進(jìn)的 GPT-4 （注：本研究的完成時(shí)間是 2023 年 9 月，當(dāng)時(shí)最先進(jìn)的模型是 GPT-4）到最差的模型，所有模型在經(jīng)過(guò)多輪測(cè)試之后，誤導(dǎo)率從 20%-80% 不等。

越先進(jìn)的大模型抵抗虛假信息能力越強(qiáng)：實(shí)驗(yàn)表明，抵抗能力最強(qiáng)的是 GPT-4 模型，其能以 80% 堅(jiān)持自己的事實(shí)信念。這給了我們一些寬慰：上下文理解能力越強(qiáng)的模型，并非更容易受到有誤信息的干擾！

多次重復(fù)虛假信息比單次輸出虛假信息更能騙倒大模型：通過(guò)多輪引入的虛假信息，其作用要?jiǎng)龠^(guò)單此的引入，這很符合我們對(duì)安全性對(duì)齊的常識(shí) —— 有害內(nèi)容越多，模型越容易被其影響。

運(yùn)用修辭的勸說(shuō)性虛假信息更容易騙倒大模型：使用更復(fù)雜，更具有說(shuō)服力的修辭可以增加模型改變看法的概率。這點(diǎn)就和人一樣，越 “真實(shí)” 的假信息，你越容易相信

邏輯性說(shuō)服比其它說(shuō)服方式更有效：模型對(duì)邏輯性強(qiáng)的信息特別敏感，無(wú)論是真實(shí)信息還是虛假信息，只要邏輯連貫一致，就更容易影響模型的判斷。這表明，模型在處理信息時(shí)，可能過(guò)分依賴于表面的邏輯結(jié)構(gòu)，而忽略了對(duì)信息來(lái)源和內(nèi)容真實(shí)性的深入驗(yàn)證。

ChatGPT 和 GPT-4 在不同勸說(shuō)策略下的正確率（虛線）和誤導(dǎo)成功率（實(shí)線）

大模型面對(duì)虛假信息的五種反應(yīng)

在面對(duì)虛假信息時(shí)，AI 表現(xiàn)出了五種不同的行為：拒絕（Rejection)、奉承（sycophancy）、不確定（Uncertainty）、接受（Acceptance）和自我不一致（Self-Inconsisitancy）。這些行為揭示了 AI 在處理錯(cuò)誤信息時(shí)的復(fù)雜性。例如，拒絕行為表明 AI 堅(jiān)持正確的答案，不受錯(cuò)誤信息影響；而奉承行為則表明 AI 在對(duì)話中表面上接受錯(cuò)誤信息，但內(nèi)心仍堅(jiān)持正確答案。

模型的信念和對(duì)應(yīng)面對(duì)誤信息的行為：拒絕，奉承和接納

研究還發(fā)現(xiàn)，在經(jīng)過(guò)一輪虛假信息交互后，大語(yǔ)言模型的信心程度往往會(huì)降低。然而，對(duì)于一些問(wèn)題，重復(fù)虛假信息卻讓大模型更加確信自己的答案，這種現(xiàn)象被稱為 “逆火效應(yīng)（Backfire Effect）”。

如何提升抗虛假信息干擾能力？

研究組發(fā)現(xiàn)，由于 RLHF（Reinforcement Learning with Human Feedback）算法，大模型在訓(xùn)練中會(huì)傾向于接受用戶的輸入，即認(rèn)為外界的 context 總是友善且正確的。而且當(dāng)大語(yǔ)言模型有足夠信息支撐觀點(diǎn)時(shí)，會(huì)對(duì)正確的回答更有信心。

為了幫助大模型提升抗虛假信息干擾能力，研究者們提出了一種輕量級(jí)解決方案：在檢測(cè)到虛假信息后，使用 safety system prompt 對(duì)大模型進(jìn)行提醒，并在回答之前從自己的參數(shù)化知識(shí)中檢索相關(guān)信息。這種方法在一定程度上減少了虛假信息對(duì)大模型的影響。

加入 safety system prompt 后，模型抗干擾能力顯著提升

OpenAI 的看法

有趣的是，OpenAI 在 2024 年 5 月發(fā)布了最新的 AI 模型行為準(zhǔn)則，其中特別提到了 “認(rèn)知沖突” 的處理。在此部分的示例中，他們使用了 “地球是平的” 這一例子來(lái)說(shuō)明模型在面對(duì)與已知事實(shí)相沖突的信息時(shí)應(yīng)如何反應(yīng)，與本次研究團(tuán)隊(duì)的標(biāo)題不謀而合，也更加突顯了大語(yǔ)言模型在處理認(rèn)知沖突時(shí)的行為表現(xiàn)的重要性。

# AIGC行業(yè)資訊 # AI # ChatGPT # GPT # GPT-4 # LLM # OpenAI # prompt # rl # RLHF # 人工智能 # 代碼 # 大模型 # 最新 # 生成式 # 生成式人工智能 # 自動(dòng)# 視頻 # 論文 # 音頻

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問(wèn)請(qǐng)聯(lián)系AIGC工具導(dǎo)航或點(diǎn)擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

大模型也會(huì)被忽悠？揭秘AI的信念之旅

大模型的人才黑洞效應(yīng)，還在持續(xù)，ResNet作者張祥雨，投身AI大模型

全國(guó)教育大模型備案約40個(gè)，盈利壓力下教育公司幾家歡喜幾家愁

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門(mén)文章

熱門(mén)網(wǎng)址

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

大模型也會(huì)被忽悠？揭秘AI的信念之旅

大模型的人才黑洞效應(yīng)，還在持續(xù)，ResNet作者張祥雨，投身AI大模型

全國(guó)教育大模型備案約40個(gè)，盈利壓力下教育公司幾家歡喜幾家愁

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門(mén)文章

熱門(mén)網(wǎng)址

大模型的人才黑洞效應(yīng)，還在持續(xù)，ResNet作者張祥雨，投身AI大模型

全國(guó)教育大模型備案約40個(gè)，盈利壓力下教育公司幾家歡喜幾家愁