Галюцинації ШІ: Чому найновіші чат-боти роблять більше помилок?

Галюцинації ШІ: Чому найновіші чат-боти роблять більше помилок?

Декількома словами

Незважаючи на покращення в низці областей, новітні системи штучного інтелекту, включаючи моделі від OpenAI, Google та DeepSeek, демонструють збільшення кількості помилок та «галюцинацій» у деяких тестах. Це ставить під сумнів їхню надійність, особливо при роботі з чутливою інформацією.


Минулого місяця ШІ-бот, що обслуговує технічну підтримку популярного інструменту для програмістів Cursor, сповістив кількох клієнтів про зміну політики компанії. У повідомленні йшлося про те, що відтепер використовувати Cursor можна лише на одному комп'ютері.

Розлючені клієнти висловили своє невдоволення на інтернет-форумах. Деякі навіть скасували свої облікові записи Cursor. А дехто розлютився ще більше, коли зрозумів, що сталося: ШІ-бот оголосив про зміну політики, якої насправді не існувало.

«У нас немає такої політики. Ви, звичайно, можете вільно використовувати Cursor на кількох машинах», — написав у дописі на Reddit генеральний директор та співзасновник компанії Майкл Трюелл. «На жаль, це була некоректна відповідь від фронтлайн-бота підтримки, заснованого на ШІ».

Через понад два роки після появи ChatGPT, технологічні компанії, офісні працівники та звичайні користувачі активно використовують чат-боти зі штучним інтелектом для вирішення найрізноманітніших завдань. Однак досі немає способу гарантувати, що ці системи штучного інтелекту видаватимуть точну інформацію.

Найновіші та найпотужніші технології, так звані системи міркувань від таких компаній, як OpenAI, Google та китайського стартапа DeepSeek, генерують більше помилок, а не менше. Хоча їхні математичні навички помітно покращилися, їхнє володіння фактами стало менш надійним. Причини цього не зовсім зрозумілі.

Сучасні ШІ-боти базуються на складних математичних моделях, які навчаються, аналізуючи величезні обсяги цифрових даних. Вони не можуть і не вирішують, що є правдою, а що брехнею. Іноді вони просто вигадують інформацію — явище, яке деякі дослідники ШІ називають галюцинаціями. Згідно з одним із тестів, рівень галюцинацій у найновіших системах ШІ досягав 79 відсотків.

Ці системи використовують математичні ймовірності для вгадування найкращої відповіді, а не суворий набір правил, визначених інженерами. Тому вони роблять певну кількість помилок. «Незважаючи на всі наші зусилля, вони завжди будуть "галюцинувати"», — сказав Амр Авадалла, генеральний директор Vectara, стартапа, що розробляє ШІ-інструменти для бізнесу. «Це ніколи не зникне».

Протягом кількох років це явище викликало побоювання щодо надійності цих систем. Хоча вони корисні в деяких ситуаціях, наприклад, при написанні курсових робіт або підсумовуванні документів, їхні помилки можуть створювати серйозні проблеми.

ШІ-боти, пов'язані з пошуковими системами, іноді видають абсурдно невірні результати. Якщо ви запитаєте їх про хороший марафон на Західному узбережжі США, вони можуть запропонувати забіг у Філадельфії. Якщо вони повідомлять вам кількість домогосподарств у штаті Іллінойс, вони можуть посилатися на джерело, яке не містить цієї інформації.

Ці галюцинації можуть не бути великою проблемою для багатьох людей, але це серйозна проблема для тих, хто використовує технологію із судовими документами, медичною інформацією або конфіденційними бізнес-даними.

«Ви витрачаєте багато часу, намагаючись з'ясувати, які відповіді є фактичними, а які ні», — зазначив Пратік Верма, співзасновник і генеральний директор Okahu, компанії, яка допомагає бізнесу справлятися з проблемою галюцинацій. «Неправильне поводження з цими помилками по суті зводить нанівець цінність систем ШІ, які покликані автоматизувати завдання».

Понад два роки такі компанії, як OpenAI та Google, постійно вдосконалювали свої системи ШІ та зменшували частоту цих помилок. Але з використанням нових систем міркувань кількість помилок зростає. Згідно з власними тестами OpenAI, останні системи компанії галюцинують із вищою частотою, ніж попередні.

Компанія виявила, що o3 — її найпотужніша система — галюцинувала у 33% випадків при проведенні тесту PersonQA, який включає відповіді на запитання про відомих особистостей. Це більш ніж удвічі перевищує показник галюцинацій попередньої системи міркувань OpenAI під назвою o1. Нова система o4-mini галюцинувала з ще вищою частотою: 48 відсотків.

При проведенні іншого тесту під назвою SimpleQA, який ставить більш загальні запитання, показники галюцинацій для o3 та o4-mini склали 51% та 79% відповідно. Попередня система o1 галюцинувала у 44% випадків.

У статті, що детально описує тести, OpenAI заявила, що необхідно провести додаткові дослідження, щоб зрозуміти причину цих результатів. Оскільки системи ШІ навчаються на більшому обсязі даних, ніж люди можуть осмислити, технологам важко визначити, чому вони поводяться саме так.

«Галюцинації не є спочатку більш поширеними в моделях міркувань, хоча ми активно працюємо над зниженням вищих показників галюцинацій, які ми спостерігали в o3 та o4-mini», — заявила представниця компанії Гебі Райла. «Ми продовжимо наші дослідження галюцинацій у всіх моделях для підвищення точності та надійності».

Ханнане Хаджиширзі, професорка Університету Вашингтона та дослідниця з Інституту штучного інтелекту Аллена, входить до групи, яка нещодавно розробила спосіб відстеження поведінки системи до окремих фрагментів даних, на яких вона навчалася. Але оскільки системи вчаться на такому величезному обсязі даних, цей новий інструмент не може пояснити все. «Ми досі не знаємо, як саме працюють ці моделі», — сказала вона.

Тести, проведені незалежними компаніями та дослідниками, показують, що показники галюцинацій також зростають для моделей міркувань від таких компаній, як Google та DeepSeek.

З кінця 2023 року компанія Vectara відстежує, як часто чат-боти відхиляються від істини. Компанія просить ці системи виконати просте завдання, яке легко перевірити: підсумувати конкретні новинні статті. Навіть у цьому випадку чат-боти наполегливо вигадують інформацію.

Початкове дослідження Vectara показало, що в такій ситуації чат-боти вигадували інформацію щонайменше у 3% випадків, а іноді до 27%. За останні півтора року такі компанії, як OpenAI та Google, знизили ці показники до 1-2%. В інших, наприклад, у стартапа Anthropic, вони коливалися близько 4%. Але показники галюцинацій у цьому тесті зросли з появою систем міркувань. Система міркувань DeepSeek, R1, галюцинувала у 14,3% випадків. Показник OpenAI o3 зріс до 6,8%.

Ще одна проблема полягає в тому, що моделі міркувань призначені для того, щоб витрачати час на «розмірковування» над складними завданнями, перш ніж дійти відповіді. Намагаючись вирішити проблему крок за кроком, вони ризикують допустити галюцинацію на кожному кроці. Помилки можуть накопичуватися зі збільшенням часу на роздуми.

Найновіші боти показують користувачам кожен крок міркування, що означає, що користувачі також можуть бачити кожну помилку. Дослідники також виявили, що в багатьох випадках кроки, що відображаються ботом, не пов'язані з відповіддю, яку він зрештою надає.

«Те, що система каже, що вона "думає", не обов'язково відповідає тому, що вона думає насправді», — прокоментував Арьо Предипта Гема, дослідник ШІ.

Read in other languages

Про автора

Віталій - політичний оглядач, що має багаторічний досвід роботи в українських та американських ЗМІ. Його аналітичні статті відзначаються глибоким розумінням політичних процесів в США. Він вміє чітко та доступно пояснити складні політичні питання, допомагаючи читачам розібратися в поточних подіях.