ШІ провалює прості задачі, які легко вирішують люди

Uncategorized

Фонд ARC Prize Foundation розробив новий ускладнений тест для моделей штучного інтелекту, який виявився надзвичайно складним навіть для найпередовіших систем. Жодна з наявних ШІ-систем не змогла набрати більше однозначного балу зі 100 на тесті ARC-AGI-2, хоча кожне завдання було розв’язане щонайменше двома людьми менш ніж за дві спроби. Цей новий бенчмарк оцінює не лише ефективність, але й вартість роботи ШІ-систем.

by @freepik

Тест ARC-AGI-2 є наступником попереднього бенчмарка ARC-AGI-1, на якому деякі ШІ-системи показали високі результати. Наприклад, у грудні минулого року OpenAI заявила, що її модель o3 отримала високі бали в тому тесті, що викликало дискусії про наближення до штучного загального інтелекту (AGI).

Штучний загальний інтелект зазвичай визначається як ШІ, здатний виконувати будь-яке когнітивне завдання на рівні людини. Проте новий тест показав, що навіть передові моделі ще далекі від цієї мети.

Вимірювання адаптивності та ефективності

Президент ARC Грег Камрадт пояснив необхідність створення нового бенчмарка: “Щоб подолати його, ви повинні продемонструвати як високий рівень адаптивності, так і високу ефективність”. Бенчмарк ARC-AGI-2 фокусується на здатності ШІ виконувати прості завдання, які потребують складного мислення і взаємодії.

Модель o3-low від OpenAI, яка набрала 75,7% на ARC-AGI-1, отримала лише 4% на новому тесті. Це свідчить про значну різницю в типі задач між двома бенчмарками та виявляє обмеження сучасних моделей ШІ.

Важливою інновацією нового тесту є врахування вартості виконання завдань. Якщо ARC платила тестувальникам-людям $17 за завдання, то використання o3-low, за оцінками, коштує OpenAI приблизно $200 за ту саму роботу. Ця увага до ефективності відображає зростаюче занепокоєння щодо ресурсоємності великих ШІ-моделей.

Реакція експертної спільноти

Джозеф Імперіал з Університету Бата вважає новий підхід значним прогресом:

“Це ознака того, що ми відходимо від одновимірних оціночних тестів, які зосереджуються виключно на продуктивності, але також враховують меншу обчислювальну потужність”.

 На його думку, модель, яка зможе пройти ARC-AGI-2, повинна бути не лише компетентною, але й ефективною.

Проте не всі експерти поділяють оптимізм щодо нового тесту. Кетрін Флік з Університету Стаффордширу висловлює скептицизм: “Уся ця ситуація з тестуванням інтелекту є неправильною”. Вона вважає, що такі бенчмарки лише оцінюють здатність ШІ виконувати конкретні завдання, і це не слід екстраполювати на загальні здібності.

Флік також критикує медійне висвітлення цих тестів:

“Ви бачите, як ЗМІ підхоплюють інформацію про те, що ці моделі проходять тести на рівень інтелекту людини, хоча насправді це не так”.

 На її думку, моделі просто точно реагують на конкретні запити, а не демонструють справжній інтелект.

Якщо якась модель все ж пройде ARC-AGI-2, це, ймовірно, приведе до розробки ще складнішого тесту. Імператор припускає, що ARC-AGI-3 міг би додати ще один вимір оцінювання – мінімальну кількість людей, необхідну для вирішення завдань, на додаток до продуктивності та ефективності.

Новий бенчмарк демонструє еволюцію в оцінюванні ШІ-систем, підкреслюючи важливість балансу між можливостями та ресурсоефективністю, що стає все актуальнішим у світі зростаючих обчислювальних потреб штучного інтелекту.

#ШІ #провалює #прості #задачі #які #легко #вирішують #люди

Source link

Оцініть статтю