亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

提升AI可信度:MIT團(tuán)隊(duì)開(kāi)發(fā)新工具對(duì)抗“幻覺(jué)”

AIGC行業(yè)資訊1年前 (2024)發(fā)布 zhang
19 0
提升AI可信度:MIT團(tuán)隊(duì)開(kāi)發(fā)新工具對(duì)抗“幻覺(jué)”

來(lái)源:MIT News

盡管大型語(yǔ)言模型的能力令人印象深刻,但它們?nèi)匀贿h(yuǎn)非完美。這些人工智能模型有時(shí)會(huì)出現(xiàn)“幻覺(jué)”,生成不正確或沒(méi)有依據(jù)的信息來(lái)回應(yīng)查詢。

由于這個(gè)幻覺(jué)問(wèn)題,模型的響應(yīng)通常需要由人工審查員進(jìn)行驗(yàn)證,尤其是在醫(yī)療或金融等高風(fēng)險(xiǎn)環(huán)境中。然而,驗(yàn)證過(guò)程往往要求人們閱讀模型引用的長(zhǎng)文檔,這項(xiàng)繁瑣且容易出錯(cuò)的任務(wù)可能會(huì)讓一些用戶望而卻步,從而不愿意使用生成式 AI 模型。

為幫助人工驗(yàn)證者,MIT 的研究人員創(chuàng)建了一個(gè)用戶友好的系統(tǒng),使人們能夠更快地驗(yàn)證大型語(yǔ)言模型的響應(yīng)。這個(gè)名為 SymGen 的工具可以讓 LLM 生成帶有引用的響應(yīng),直接指向源文檔中的具體位置,比如數(shù)據(jù)庫(kù)中的某個(gè)單元格。

用戶可以懸停在文本響應(yīng)的高亮部分,以查看模型用于生成特定詞匯或短語(yǔ)的數(shù)據(jù)。同時(shí),未高亮的部分則顯示需要額外關(guān)注以進(jìn)行檢查和驗(yàn)證的短語(yǔ)。

“我們讓人們能夠選擇性地關(guān)注他們需要更加關(guān)注的文本部分。最終,SymGen 能夠提高人們對(duì)模型響應(yīng)的信心,因?yàn)樗麄兛梢暂p松地仔細(xì)檢查,以確保信息的可靠性。”電氣工程與計(jì)算機(jī)科學(xué)研究生、SymGen 論文的共同第一作者 Shannon Shen 表示。

通過(guò)用戶研究,Shen 和他的合作者發(fā)現(xiàn),使用 SymGen 進(jìn)行驗(yàn)證的時(shí)間比手動(dòng)流程縮短了約 20%。通過(guò)使人們驗(yàn)證模型輸出的過(guò)程更快、更簡(jiǎn)單,SymGen 有助于識(shí)別在各種實(shí)際應(yīng)用中使用的 LLM 的錯(cuò)誤,從生成臨床記錄到總結(jié)金融市場(chǎng)報(bào)告。

Shen 的論文合作者還包括共同第一作者、EECS 研究生Lucas Torroba Hennigen;EECS 研究生 Aniruddha “Ani” Nrusimha;Good Data Initiative 的主席 Bernhard Gapp;以及高級(jí)作者 David Sontag,EECS 教授、MIT Jameel Clinic 成員、計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)臨床機(jī)器學(xué)習(xí)組的負(fù)責(zé)人;還有助理教授 yoon Kim,CSAIL 的成員。該研究最近在語(yǔ)言建模會(huì)議上進(jìn)行了展示。

提升AI可信度:MIT團(tuán)隊(duì)開(kāi)發(fā)新工具對(duì)抗“幻覺(jué)”

符號(hào)引用

為了幫助驗(yàn)證,許多 LLM 被設(shè)計(jì)為生成引用,指向外部文檔,并提供語(yǔ)言基礎(chǔ)的響應(yīng),以便用戶進(jìn)行檢查。然而,這些驗(yàn)證系統(tǒng)通常是事后考慮的,并沒(méi)有考慮到人們?cè)诤Y選大量引用時(shí)所需的努力,Shen 說(shuō)。

生成式 AI 的目的是減少用戶完成任務(wù)所需的時(shí)間。如果您需要花費(fèi)數(shù)小時(shí)閱讀這些文檔,以驗(yàn)證模型的說(shuō)法是否合理,那么在實(shí)際應(yīng)用中生成的內(nèi)容就不那么有幫助了?!盨hen 表示。

研究人員從將要進(jìn)行驗(yàn)證工作的人的角度來(lái)解決這個(gè)問(wèn)題。

SymGen 用戶首先向 LLM 提供可以作為參考的數(shù)據(jù),例如包含籃球比賽統(tǒng)計(jì)信息的表格。然后,研究人員進(jìn)行一個(gè)中間步驟,而不是立即要求模型完成任務(wù),比如從這些數(shù)據(jù)生成比賽摘要。他們提示模型以符號(hào)形式生成響應(yīng)。

在這個(gè)提示下,每當(dāng)模型希望在響應(yīng)中引用詞匯時(shí),必須寫(xiě)出數(shù)據(jù)表中包含該信息的具體單元格。例如,如果模型想在響應(yīng)中引用“波特蘭開(kāi)拓者”這個(gè)短語(yǔ),它將用數(shù)據(jù)表中包含這些詞的單元格名稱(chēng)替換該文本。

“因?yàn)槲覀冇羞@個(gè)中間步驟,使文本以符號(hào)格式呈現(xiàn),我們能夠?qū)崿F(xiàn)非常精細(xì)的引用。我們可以明確指出,輸出中每一段文本具體對(duì)應(yīng)數(shù)據(jù)中的哪一部分。”Torroba Hennigen 表示。

SymGen 然后使用基于規(guī)則的工具解析每個(gè)引用,將相應(yīng)的文本從數(shù)據(jù)表復(fù)制到模型的響應(yīng)中。

“這樣,我們知道它是逐字復(fù)制的,因此可以確保與實(shí)際數(shù)據(jù)變量對(duì)應(yīng)的文本部分不會(huì)出錯(cuò)?!盨hen 補(bǔ)充道。

提升AI可信度:MIT團(tuán)隊(duì)開(kāi)發(fā)新工具對(duì)抗“幻覺(jué)”

簡(jiǎn)化驗(yàn)證

模型能夠生成符號(hào)響應(yīng),是由于其訓(xùn)練方式。大型語(yǔ)言模型接受來(lái)自互聯(lián)網(wǎng)的大量數(shù)據(jù),其中一些數(shù)據(jù)以“占位符格式”記錄,代碼替代了實(shí)際值。

當(dāng) SymGen 提示模型生成符號(hào)響應(yīng)時(shí),它使用類(lèi)似的結(jié)構(gòu)。

“我們以特定的方式設(shè)計(jì)提示,以發(fā)揮 LLM 的能力?!盨hen 補(bǔ)充說(shuō)。

在用戶研究中,大多數(shù)參與者表示 SymGen 使驗(yàn)證 LLM 生成的文本變得更容易。他們驗(yàn)證模型響應(yīng)的速度比使用標(biāo)準(zhǔn)方法快約 20%。

然而,SymGen 的效果受源數(shù)據(jù)質(zhì)量的限制。LLM 可能引用錯(cuò)誤的變量,而人工驗(yàn)證者可能對(duì)此毫不知情。

此外,用戶必須以結(jié)構(gòu)化格式(如表格)提供源數(shù)據(jù),以便輸入到 SymGen。目前,該系統(tǒng)僅適用于表格數(shù)據(jù)。

展望未來(lái),研究人員正在增強(qiáng) SymGen 的功能,以便處理任意文本和其他數(shù)據(jù)形式。有了這個(gè)能力,它可以幫助驗(yàn)證 AI 生成的法律文件摘要的某些部分。他們還計(jì)劃與醫(yī)生一起測(cè)試 SymGen,以研究它如何識(shí)別 AI 生成的臨床摘要中的錯(cuò)誤。

這項(xiàng)工作部分由 LiBERTy Mutual 和 MIT 智能探索計(jì)劃資助。

? 版權(quán)聲明

相關(guān)文章