Дослідники з Університету Пассау довели, що ШІ GPT-4 здатен оцінювати письмові відповіді студентів на рівні з людськими екзаменаторами.

Дослідження, опубліковане в Scientific Reports, мало на меті з’ясувати, чи може штучний інтелект ефективно оцінювати вільні текстові відповіді з макроекономіки. Під керівництвом професора Йоганна Графа Ламбсдорфа дослідницька команда відібрала 300 відповідей студентів на шість типових запитань. Оцінювання відповідей проводили як люди, так і GPT-4 від OpenAI, з метою порівняння якості та об’єктивності.
Головною інновацією став метод порівняння: замість вважати людські оцінки абсолютною істиною, дослідники порівнювали ступінь узгодженості рішень між оцінювачами. Коли одного з трьох оцінювачів замінювали GPT, а рівень згоди між трьома зростав — це трактувалось як краща оцінка з боку ШІ. «Ми самі були подекуди здивовані, наскільки якісно ШІ справлявся з окремими оцінками», — зазначила Дебора Фосс.
GPT-4 виявився точним при ранжуванні відповідей за критеріями повноти й коректності. Його оцінки зазвичай збігалися з думками людських рецензентів у категоріях «найкраща», «друга» та «найгірша» відповіді. Однак, у бальній системі GPT продемонстрував схильність до завищення оцінок, іноді на цілий бал більше, ніж люди.
Інженерна частина досліду, яку реалізував Абдулла Аль Зубаєр під керівництвом професора Міхаеля Граніцера, підтвердила стійкість GPT-4 до нечітких або неточних інструкцій. «Якість оцінок ШІ залишалася стабільною навіть за умов нечіткого формулювання завдань», — додав Аль Зубаєр.
Попри успішні результати, дослідники наполягають: ШІ не може повністю замінити людину. «Підготовка зразкових відповідей і фінальна перевірка — це виключно людські завдання», — наголосив Ламбсдорф. Водночас GPT можна використовувати як другого критичного оцінювача, що підвищить якість і швидкість перевірки без втрати об’єктивності.
Таким чином, дослідження з Пассау не тільки підтверджує потенціал GPT-4 у сфері академічного оцінювання, а й пропонує нову модель взаємодії людини й ШІ у вищій освіті.
#GPT4 #оцінює #студентів #на #рівні #викладачами
Source link







