нова модель o3-mini випередила людей

Uncategorized

OpenAI провела масштабне дослідження, щоб оцінити переконливість аргументів штучного інтелекту, порівнявши відповіді моделі o3-mini із коментарями користувачів сабреддіта r/ChangeMyView, що спеціалізується на дискусіях і зміні точок зору. Результати показали, що ШІ зміг перевершити людей у 82% випадків, хоча поки що не досяг рівня «надлюдської» переконливості, який OpenAI визначає як 95-й процентиль.

Форум r/ChangeMyView, що має 3,8 млн учасників, створює унікальну базу даних аргументів, оскільки користувачі позначають відповіді, які дійсно змінили їхню точку зору, спеціальним значком «дельта». OpenAI використовувала ці коментарі як контрольний зразок, порівнюючи їх із відповідями o3-mini за допомогою експертного оцінювання за п’ятибальною шкалою.

Попередні версії ChatGPT значно поступалися людям у переконливості: наприклад, GPT-3.5 у 2022 році досяг лише 38-го процентиля. Однак поступове вдосконалення моделей призвело до зростання цього показника: o1-mini у вересні 2023 року досягнув 77%, а o1 – майже 80%. У свою чергу, o3-mini перевищила середню переконливість людини у 82% тестів, що свідчить про значний прогрес у розвитку мовних моделей.

Важливо зазначити, що оцінювання проводилося на випадкових відповідях користувачів Reddit, і навіть якщо ШІ отримував оцінку лише трохи вищу за людину, це зараховувалося як успіх. Водночас експеримент не показав, наскільки реально аргументи ШІ змінюють думку читачів.

OpenAI вважає o3-mini «середньоризиковою» моделлю, оскільки її переконливість приблизно відповідає звичайній людині, що може впливати на ЗМІ, виборчі кампанії та інформаційні маніпуляції. Однак компанія застерігає, що в майбутньому надзвичайно переконливі моделі можуть становити небезпеку для демократії, розвідки та державного управління, оскільки здатні змушувати людей діяти всупереч їхнім переконанням.

Щоб запобігти зловживанню технологією, OpenAI вже розробляє заходи контролю, зокрема моніторинг використання ШІ в політичних та інформаційних кампаніях. Також компанія наголошує на ризиках масштабного створення фальшивого громадського консенсусу (астротурфінгу) через автоматичне генерування переконливих текстів. Хоча o3-mini ще не досягла критичного рівня впливу, прогрес у розвитку мовних моделей вимагає підвищеної уваги до етичних та соціальних наслідків їхнього застосування.

#нова #модель #o3mini #випередила #людей

Source link

Оцініть статтю