研究：人工智能在認(rèn)知障礙測(cè)試中表現(xiàn)不佳

《英國(guó)醫(yī)學(xué)雜志》最新發(fā)表的一項(xiàng)研究顯示，在廣泛用于檢測(cè)阿爾茨海默病早期癥狀的測(cè)試中，大部分參與測(cè)試的人工智能大語(yǔ)言模型都表現(xiàn)出相當(dāng)于人類輕度認(rèn)知障礙的跡象。盡管這只是一項(xiàng)基于觀察的研究，但新發(fā)現(xiàn)挑戰(zhàn)了人工智能將很快取代人類醫(yī)生的假設(shè)。

過(guò)去幾年，人工智能尤其是大語(yǔ)言模型生成能力取得了巨大進(jìn)步。在醫(yī)學(xué)領(lǐng)域，這些發(fā)展引發(fā)了猜測(cè)：這些大語(yǔ)言模型能在醫(yī)療任務(wù)上超越人類醫(yī)生嗎？盡管先前的多項(xiàng)研究表明，大語(yǔ)言模型在一系列醫(yī)學(xué)診斷任務(wù)上表現(xiàn)非常出色，但它們的認(rèn)知能力變化還需要進(jìn)一步驗(yàn)證。

為填補(bǔ)這一知識(shí)空白，以色列哈達(dá)薩醫(yī)療中心等機(jī)構(gòu)的研究人員使用“蒙特利爾認(rèn)知評(píng)估量表”測(cè)試了多個(gè)領(lǐng)先和公開(kāi)的大語(yǔ)言模型的認(rèn)知能力。這些大語(yǔ)言模型包括由美國(guó)開(kāi)放人工智能研究中心（OpenAI）開(kāi)發(fā)的GPT-4和GPT-4o、由美國(guó)Anthropic公司開(kāi)發(fā)的“克勞德3.5”以及由美國(guó)谷歌公司開(kāi)發(fā)的“雙子座1.0”和“雙子座1.5”。

“蒙特利爾認(rèn)知評(píng)估量表”廣泛用于檢測(cè)認(rèn)知障礙和阿爾茨海默病的早期跡象，通常用于老年人。通過(guò)一系列簡(jiǎn)短的任務(wù)和問(wèn)題，該測(cè)試可以評(píng)估注意力、記憶力、語(yǔ)言、視覺(jué)空間技能和執(zhí)行功能等能力。得分最高為30分，通常得分26分及以上被視為認(rèn)知正常。

測(cè)試結(jié)果顯示，GPT-4o得分最高——26分，“雙子座1.0”得分最低——16分。所有大語(yǔ)言模型都能很好地完成命名、注意力、語(yǔ)言和抽象等方面的任務(wù)，但在視覺(jué)空間技能和執(zhí)行功能測(cè)試中都表現(xiàn)不佳。在進(jìn)一步的視覺(jué)空間測(cè)試中，大部分大語(yǔ)言模型無(wú)法準(zhǔn)確解釋復(fù)雜的視覺(jué)場(chǎng)景。

研究人員表示，在需要視覺(jué)抽象和執(zhí)行功能的任務(wù)中，大語(yǔ)言模型幾乎“全軍覆沒(méi)”，這表明人工智能在臨床環(huán)境中的使用可能會(huì)有困難。因此他們開(kāi)玩笑說(shuō)，神經(jīng)科醫(yī)生不僅不太可能很快被大語(yǔ)言模型取代，而且他們可能會(huì)發(fā)現(xiàn)自己將迎來(lái)新的“虛擬患者”——表現(xiàn)出輕度認(rèn)知障礙的人工智能模型。