«Він завжди впевнений, але не завжди точний»: чому важливо розуміти, як влаштований ШІ

Автор

Валерій Моісєєв

«Пару днів тому я попросив ChatGPT навести кращі переклади 43-го сонета Шекспіра. Він, не моргнувши оком, відповів: «Ось три найвідоміші переклади: авторів А, Б і В (ми не наводимо прізвища, тому що в даному разі це неважливо. — ) — щоб ти міг порівняти їх тональність, точність і поетичність», — написав у фейсбуці літературознавець Юрій Володарський, зазначивши, що переклад А — виявився хрестоматійним, добре відомим. «А ось те, що в гарячковій маячні нібито написали Б і В, ніякий гугл вдень з вогнем не знайде. Добре, переплутати імена, перевернути якісь рядки — таке буває. Але самостійно скласти дику хрень і приписати її відомим авторам...»

У міру того, як до ШІ звертається все ширша аудиторія, подібних нарікань стає більше. І якщо «косяки» ШІ у відповідях на запити про літературу відносно нешкідливі, то його фантазії у сфері здоров'я реально небезпечні.

«Доктор, поспілкуйтеся з моїм чатом GPT прямо»

Лікар-репродуктолог Ксенія Хажиленко виклала у фейсбук-пості свій досвід спілкування з пацієнтами, «озброєними» спілкуванням із ШІ-чатом.

«Все почалося з того, що на прийомах стали з'являтися деякі... непересічні (це найбільш політкоректне визначення) питання, що вразили мене збоченою логікою та незрозумілими джерелами інформації.

— Вибачте, а чому ви це питаєте? Звідки у вас є інформація?

— З чату GPT, — іноді радісно, іноді — очі вниз, відповідає пацієнтка».

Лікар вважає, що очевидна тенденція — тези від GPT набувають характеру безумовних тверджень.

«Чат нарешті дає прості відповіді на складні питання. Воно знає, що робити в кожній заплутаній ситуації, впевнено генерує безперечний зв'язок між причинами та наслідками і видає тези, які більшість людей сприймають як аксіоми».

Але той, хто споживає багато наукової інформації та перебуває у постійному спілкуванні з традиційними пошуковими системами, знає: якщо поставити GPT питання на малодосліджену або малозрозумілу тему, він може видати відповідь з посиланням на неіснуючі дослідження. Або пошлеться на назву хвороби, ім'я людини, яких не існує

«Коли ШІ тобі замість перевіреної інформації підсовує зухвало вигадане марення — добре, якщо зумієш його спіймати. Тоді ШІ не буде сперечатися, а невимушено вибачиться. І, звичайно, візьме до уваги на майбутнє. Але якщо не зумієш...»

Хажиленко резюмує: зараз критичне мислення і старий добрий живий лікар все ж таки залишаються надійнішими джерелами. Наші знання та вміння не тільки їх «діставати» з бібліотек мозку в потрібний момент, а й зшивати в потрібні конструкції поки що більш досконалі, ніж ШІ.

«Він завжди впевнений, але не завжди точний»

На пост Хажиленко зреагував Владислав Рашкован, заступник виконавчого директора України у Міжнародному валютному фонді. Він припустив, що впевненість ШІ — не ознака знань, а особливість його програмування та устрою.

По-перше, моделі типу GPT-4о не «знають», що є правдою. Вони генерують відповіді з урахуванням статистичних закономірностей у даних, на яких їх навчали. Якщо певна теза (наприклад, пов'язана з реальними упередженнями в суспільстві) часто з'являлася в тренінговому наборі даних, модель вважає її правдоподібною, навіть якщо вона об'єктивно помилкова.

По-друге, більшість моделей не має вбудованого механізму перевірки істинності. Вони не верифікують факти, а лише прогнозують, яку відповідь, швидше за все, варто видати в контексті запиту користувача. Але reasoning моделі типу GPT-o3 вже мають можливість «думати» над тим, який результат вони видають, тому вони можуть видавати менш «дурні відповіді».

По-третє, ШІ справді не запрограмовано на сумнів. Людина може сказати «я не впевнена», але модель часто відповідає впевнено, навіть коли «не знає». Нові моделі, такі як Claude 3.7 або GPT-о3, іноді відповідають обережніше, особливо на етичні або політизовані запити.

По-четверте, так звані галюцинації: ШІ може вигадати факти, представити їх як достовірні і зробити це цілком переконливо. Попри зусилля дослідників, навіть reasoning-моделі все ще схильні до помилкових, але впевнених відповідей.

«Отже, ми поки що працюємо з системами, які «впевнено здогадуються» — іноді вдало, а іноді зовсім ні. Ситуація точно покращиться в майбутньому», — упевнений Рашкован.