ШІ досяг рівня людини в тесті на «загальний інтелект»

Нова модель штучного інтелекту (ШІ) щойно досягла результатів на рівні людини в тесті, призначеному для вимірювання «загального інтелекту»

ШІ досяг рівня людини в тесті на «загальний інтелект» Фото: freepik.com

20 грудня система o3 від OpenAI набрала 85% у тесті ARC-AGI, що значно вище попереднього найкращого результату ШІ — 55% — і на рівні середнього людського показника. Вона також показала хороші результати в дуже складному математичному тесті.

Створення штучного загального інтелекту (ШЗІ) — це мета, яку ставлять перед собою всі провідні дослідницькі лабораторії. На перший погляд, OpenAI принаймні зробив значний крок до цієї мети.

Хоча скептицизм залишається, багато дослідників і розробників ШІ відчувають, що щось змінилося. Для багатьох перспектива ШЗІ тепер здається більш реальною, нагальною і близькою, ніж очікувалося.

Щоб зрозуміти результат o3, потрібно знати про тест ARC-AGI. Це перевірка здатності АІ адаптуватися до нових ситуацій, визначаючи, скільки прикладів потрібно для розуміння їхньої роботи.

Цікаве по темі: В Україні зʼявився словник ШІ-термінів

Системи ШІ, як ChatGPT (GPT-4), не дуже ефективні у цьому. Вони «треновані» на мільйонах прикладів тексту, але слабкі в рідкісних завданнях через брак даних.

Поки ШІ не зможе ефективно навчатися на невеликій вибірці, його використовуватимуть для повторюваних завдань, де помилки допустимі. Здатність узагальнювати нові проблеми з мінімуму даних є ключовим елементом інтелекту.

Тест ARC-AGI перевіряє здатність адаптуватися на вибірці, пропонуючи задачі зі сітками. ШІ потрібно знайти закономірність, яка перетворює ліву сітку на праву.

Кожне питання містить три приклади для навчання, після чого ШІ має узагальнити правила для четвертого прикладу. Це нагадує шкільні тести IQ.

Модель o3 демонструє високу здатність до адаптації, знаходячи узагальнені правила лише за кількома прикладами. Для виявлення закономірностей важливо уникати зайвих припущень і зосереджуватися на «найслабших» правилах — тобто найпростішому поясненні, яке працює.

Хоча ми не знаємо точно, як OpenAI досягли такого результату, навряд чи вони спеціально оптимізували o3 для пошуку слабких правил. Однак для успіху в ARC-AGI модель повинна їх знаходити.

Читайте також: 5 шахрайських схем із ШІ, які залишатимуться актуальними у 2025

OpenAI почала з універсальної версії o3, яка може витрачати більше часу на «роздуми» над складними завданнями, і адаптувала її для тесту ARC-AGI. Французький дослідник Франсуа Шолле, який створив цей бенчмарк, припускає, що o3 перебирає «ланцюжки думок» — послідовності кроків для вирішення задачі — і обирає найкращий за певною евристикою. Це схоже на підхід AlphaGo, який перебирає можливі ходи, щоб обрати найкращий.

Ланцюжки думок можна уявити як програми, що відповідають прикладам. Для вибору потрібна евристика, наприклад: «вибрати найслабшу» чи «вибрати найпростішу» програму. Як і в AlphaGo, ШІ, можливо, навчили створювати таку евристику, оцінюючи різні варіанти за принципом «краще чи гірше».

Чи наближає o3 нас до ШЗІ? Як завжди, доказ буде у практичних результатах.

Деталі про o3 залишаються обмеженими. OpenAI поділилася лише кількома презентаціями та раннім тестуванням із дослідниками й установами, що працюють над безпекою ШІ. Для розуміння його потенціалу потрібні оцінки, аналіз розподілу можливостей, частоти успіхів і невдач.

Після випуску o3 стане зрозуміло, чи може він узагальнювати так само добре, як середньостатистична людина. Якщо так, це може спричинити революцію в економіці та започаткувати нову еру самовдосконалюваного інтелекту. Це вимагатиме нових орієнтирів для ШІ та переосмислення підходів до його управління. Якщо ні, це все одно буде значним досягненням, хоча наше повсякденне життя суттєво не зміниться.

Ознайомтеся з іншими популярними матеріалами:

Українські IT-лідери встановили ключові принципи використання ШІ

OpenAI представила свою нову модель ШІ

Учені створили революційно швидкий ШІ-чип

За матеріалами: The Conversation.

Prompt
#ШІ #досяг #рівня #людини #тесті #на #загальний #інтелект

Source link