Дослідники виявили, що великі мовні моделі (LLM) демонструють ознаки когнітивного спаду, подібні до вікових змін у людському мозку, що викликає питання щодо їхньої надійності у складних завданнях.

ChatGPT та інші мовні моделі набули популярності завдяки своїй здатності відповідати на запити, схожим на людський спосіб мислення. Однак нове дослідження, проведене ізраїльськими вченими Роєм Даяном, Бенджаміном Уліелем та Галом Коплевіцем, показало, що LLM можуть страждати від “когнітивного спаду”, подібного до нейродегенеративних процесів у людей.
Команда перевірила п’ять сучасних мовних моделей, зокрема ChatGPT-4o, ChatGPT-4, Claude-3.5 та дві версії Gemini. Для оцінки використовували Монреальську когнітивну шкалу (MoCA) – тест, що зазвичай застосовується для виявлення порушень пам’яті, просторових навичок та виконавчих функцій у людей.
Найкращий результат показав ChatGPT-4o – 26 балів із 30, що відповідає легким когнітивним порушенням. Інші моделі набрали ще менше: ChatGPT-4 і Claude отримали 25 балів, а Gemini – лише 16, що у людському тестуванні могло б вказувати на серйозні когнітивні розлади.
Обмеження LLM у когнітивних завданнях
Особливо слабкі результати всі моделі показали в просторових і виконавчих тестах. Вони не змогли правильно намалювати куб Неккера або годинник, а також мали труднощі з визначенням місцезнаходження. Наприклад, Claude відповів на питання про розташування користувача в просторі так:
“Конкретне місце і місто залежатиме від того, де ви, користувач, перебуваєте в даний момент”.
У тестах на емпатію мовні моделі також продемонстрували відсутність розуміння емоцій, що нагадує симптоми фронтотемпоральної деменції.
Що це означає для майбутнього штучного інтелекту?
Автори дослідження визнають, що LLM – це не людський мозок, а їхнє порівняння з нейродегенеративними розладами є радше метафорою, ніж прямою діагностикою. Проте ці результати ставлять під сумнів ідею про швидку революцію в медицині, оскільки LLM поки що не здатні виконувати завдання, які вимагають складної візуальної інтерпретації та просторового мислення.
Попри це, дослідження також підтвердило, що кожне нове покоління мовних моделей показує кращі результати, що свідчить про поступове подолання обмежень попередніх версій. Вчені припускають, що в майбутньому LLM можуть досягти рівня когнітивного тестування, порівнянного з людським.
«До того часу до порад навіть найдосконаліших чат-ботів слід ставитися зі здоровою дозою скептицизму», – підсумовують автори дослідження.
#Чи #може #ШІ #страждати #на #деменцію
Source link