AIは老いるのか?
人工知能(AI) チャットボットや大規模言語モデル(LLM)のようなツールは、複雑な診断やコーディングソリューションなどを簡素化する上で重要な役割を果たしている。
しかし、人間の脳と同じように、AIも時間の経過とともに認知機能が低下していくとしたらどうだろう?
BMJ』誌の2024年12月号に掲載された研究によると、特に医療分野における主要なAIモデルは、かつて考えられていたほど無謬ではない可能性があるという。
調査の結果、LLMを含むAIテクノロジーは、次のようなことが明らかになった。チャットボット 人間の老化と同じような認知機能の低下を経験する。
この発見は、複雑な医療用語を簡略化する能力を背景に、医療診断におけるAIへの依存が高まる中、特に関連性が高い。
この研究では、ChatGPTバージョン4および4o、Anthropic社のClaude 3.5 'Sonnet'、Alphabet社のGeminiバージョン1および1.5のトップAIモデルの認知能力を、Montreal Cognitive Assessment(MoCA)テストを用いて評価した。
この研究はこう述べている:
quot;古い大規模言語モデルのスコアは、人間の参加者によく見られるように、その「若い」バージョンよりも低く、人間の脳の神経変性過程に匹敵すると思われる認知機能の低下を示している;
認知機能障害の検出に用いられるMoCAテスト
MoCAテストは、認知機能障害や初期の認知症を特定するために一般的に用いられている。高齢者 この検査は、注意力、記憶力、言語能力、空間能力、実行機能などの分野におけるLLMのパフォーマンスを評価するために適応された。
ヒトの場合、30点満点中26点であれば認知機能障害がないと判断される。
テストしたAIモデルの中で、ChatGPT 4oだけが26点で、この閾値を満たした。チャットGPT 4点、クロードはそのすぐ下の25点だった。
ジェミニ1.0の成績は最も悪く、わずか16点だった。
MoCAの注意課題のひとつに、一連の話し言葉の中で「A'」という文字が聞こえるたびにタップするというものがある。
LLMには聴覚と運動機能がないため、研究者は文字を筆記体で提供し、モデルには 'A'にアスタリスクまたは 'tap.'という単語で印をつけるよう求めた;
明示的な指示が必要なモデルもいれば、自律的にタスクをこなすモデルもいる。
MoCAのガイドラインに従い、26点以下は軽度認知障害とみなされた。
AIチャットボット、認知テストに不合格
この研究では、テストされたすべてのチャットボットの視空間スキルや実行機能に大きな弱点があることが浮き彫りになった。特に、足跡を作る練習(囲んだ数字や文字を順番につなげる)や時計を描くテスト(特定の時刻を表示するために時計をスケッチする)などのタスクで弱点が見られた。
注目すべきは、ジェミニモデルが、5つの単語を連続して記憶する必要のある遅延想起課題を完了できなかったことである。
チャットGPT 4oが30点満点中26点でトップ、ChatGPT4とクロードがそれぞれ25点で続いた。
ジェミニ1.0のスコアは16点と最も低く、認知障害の程度が高いことを示唆している。
研究はこう指摘した:
quot;調査されたチャットボットはいずれも30点満点を取ることができず、ほとんどのチャットボットは基準点である26点以下であった。これは、軽度認知障害とおそらく初期の認知症を示すものである;
この研究では、これらのAIモデルが示す認知障害は、アルツハイマー病の一種である後皮質萎縮症のヒト患者で観察されるものと類似していることがわかった。
これらの発見は、次のような考え方を覆すものである。AI というのも、チャットボットの認知能力には限界があり、医療診断における信頼性に影響を与え、患者の信頼を損なう可能性があるからだ。
この研究は、AIがすぐに神経科医に取って代わることはないだろうと結論付けているが、医療専門家が近い将来、新しい種類の患者-認知機能が低下したバーチャルAIモデル-の治療を任されるようになるかもしれないという興味深い可能性を提起している。
すべてを失ったわけではない、パフォーマンスは向上できる
この研究は、次のことを認めている。AI また、将来的な進歩により、認知や視空間能力を伴うタスクのパフォーマンスが向上する可能性も示唆された。
しかし、このような改善の可能性があるにもかかわらず、人間と機械の認知の根本的な違いは残るだろうと強調した。
研究はこう付け加えた:
本文中、人工知能を擬人化した用語はすべて比喩として使用したものであり、コンピュータ・プログラムが人間と同様に神経変性疾患に罹患する可能性があることを意味するものではない;