研究:人工智能在認(rèn)知障礙測(cè)試中表現(xiàn)不佳
《英國(guó)醫(yī)學(xué)雜志》最新發(fā)表的一項(xiàng)研究顯示,在廣泛用于檢測(cè)阿爾茨海默病早期癥狀的測(cè)試中,大部分參與測(cè)試的人工智能大語(yǔ)言模型都表現(xiàn)出相當(dāng)于人類輕度認(rèn)知障礙的跡象。盡管這只是一項(xiàng)基于觀察的研究,但新發(fā)現(xiàn)挑戰(zhàn)了人工智能將很快取代人類醫(yī)生的假設(shè)。
過(guò)去幾年,人工智能尤其是大語(yǔ)言模型生成能力取得了巨大進(jìn)步。在醫(yī)學(xué)領(lǐng)域,這些發(fā)展引發(fā)了猜測(cè):這些大語(yǔ)言模型能在醫(yī)療任務(wù)上超越人類醫(yī)生嗎?盡管先前的多項(xiàng)研究表明,大語(yǔ)言模型在一系列醫(yī)學(xué)診斷任務(wù)上表現(xiàn)非常出色,但它們的認(rèn)知能力變化還需要進(jìn)一步驗(yàn)證。
為填補(bǔ)這一知識(shí)空白,以色列哈達(dá)薩醫(yī)療中心等機(jī)構(gòu)的研究人員使用“蒙特利爾認(rèn)知評(píng)估量表”測(cè)試了多個(gè)領(lǐng)先和公開(kāi)的大語(yǔ)言模型的認(rèn)知能力。這些大語(yǔ)言模型包括由美國(guó)開(kāi)放人工智能研究中心(OpenAI)開(kāi)發(fā)的GPT-4和GPT-4o、由美國(guó)Anthropic公司開(kāi)發(fā)的“克勞德3.5”以及由美國(guó)谷歌公司開(kāi)發(fā)的“雙子座1.0”和“雙子座1.5”。
“蒙特利爾認(rèn)知評(píng)估量表”廣泛用于檢測(cè)認(rèn)知障礙和阿爾茨海默病的早期跡象,通常用于老年人。通過(guò)一系列簡(jiǎn)短的任務(wù)和問(wèn)題,該測(cè)試可以評(píng)估注意力、記憶力、語(yǔ)言、視覺(jué)空間技能和執(zhí)行功能等能力。得分最高為30分,通常得分26分及以上被視為認(rèn)知正常。
測(cè)試結(jié)果顯示,GPT-4o得分最高——26分,“雙子座1.0”得分最低——16分。所有大語(yǔ)言模型都能很好地完成命名、注意力、語(yǔ)言和抽象等方面的任務(wù),但在視覺(jué)空間技能和執(zhí)行功能測(cè)試中都表現(xiàn)不佳。在進(jìn)一步的視覺(jué)空間測(cè)試中,大部分大語(yǔ)言模型無(wú)法準(zhǔn)確解釋復(fù)雜的視覺(jué)場(chǎng)景。
研究人員表示,在需要視覺(jué)抽象和執(zhí)行功能的任務(wù)中,大語(yǔ)言模型幾乎“全軍覆沒(méi)”,這表明人工智能在臨床環(huán)境中的使用可能會(huì)有困難。因此他們開(kāi)玩笑說(shuō),神經(jīng)科醫(yī)生不僅不太可能很快被大語(yǔ)言模型取代,而且他們可能會(huì)發(fā)現(xiàn)自己將迎來(lái)新的“虛擬患者”——表現(xiàn)出輕度認(rèn)知障礙的人工智能模型。