Коли потрібно, щоби штучний інтелект був упередженим

заступник декана факультету прикладних наук Українського Католицького Університету

інформаційна підтримка

Одним з викликів, які зараз постають перед технологіями штучного інтелекту, є неупередженість моделей ШІ. Мова йде про те, що моделі ШІ та системи, які на них побудовані, не повинні бути упереджені по відношенню до окремих користувачів, пише в колонці для Олексій Молчановський, заступник декана факультету прикладних наук Українського Католицького Університету, керівник магістерської програми «Науки про дані» УКУ, голова експертно-консультаційного комітету з розвитку сфери штучного інтелекту в Україні при Міністерстві Цифрової Трансформації України, спікер iForum 2023.

Упередження в сучасних системах ШІ

Яскравим прикладом є доволі відома історія компанії Amazon, коли задля оптимізації процесу найму працівників, вони взялися за розробку системи ШІ, яка дозволяла би робити (принаймні, початковий) відбір вакансій, вартих уваги.

Сучасні системи ШІ, які створюються за допомогою методів машинного та глибокого навчання, в першу чергу потребують даних, на яких це навчання відбувається. Очевидно, що дані зазвичай беруть з історичних спостережень, і розробники Amazon розуміли, що в наявних історичних даних з найму присутні упередження різного характеру. Найбільш явним було упередження по відношенню до кандидаток-жінок, адже в технологічних компаніях частка працівниць-жінок становить приблизно 25-35%, а на технічних та інженерних позиціях навіть менше.

Розуміючи цю хибу історичних даних, розробники прибрали згадку про стать, щоби система ШІ не мала до неї доступу при своєму навчанні (тренуванні). Але алгоритми виявилися більш мудрими і змогли виснувати стать кандидатів за другорядними ознаками. Наприклад, за рахунок згадок членства у спортивних командах чи університетських клубах, які згадувалися в резюме: «капітан жіночої команди» і таке інше. Зрештою, Amazon довелося згорнути той проєкт, зокрема й тому що не вдалося позбутися упередженості.

Зараз питання відповідального та чесного ШІ (Responsible and Fair AI) є важливими дослідницькими напрямками і створення алгоритмів навчання моделей ШІ такими, що є неупередженими, не є аж такою тривіальною задачею.

Кому потрібні упереджені системи ШІ

Але чи можуть бути ситуації, коли ми свідомо захочемо, щоби системи ШІ були упереджені? Нижче я хочу навести приклад такої ситуації, який має значну ймовірність втілення у майбутньому та доволі значний вплив на суспільство.

Важко заперечити той факт, що людська цивілізація строката та неоднорідна. Ми маємо сотні культур та тисячі субкультур, цінності яких доволі часто можуть сприйматися суперечливо в інших культурах. Попри те, що глобальна наука намагається шукати об’єктивне знання, яке не залежить від культурного контексту, це далеко не завжди справедливо. Звичайно, математичні знання що в Європі, що в Америці чи Африці лишаються такими самими. Так само інші закони та знахідки природничих чи інженерних наук. Втім, суспільне та гуманітарне знання може значно залежати від культурного контексту тієї або іншої спільноти чи суспільства. Ми це можемо описувати через феномен культурного релятивізму.

То ж до чого тут штучний інтелект? Якщо політики стали цікавитися ШІ, то це явна ознака того, що технологія вийшла далеко за межі лабораторій та вузькофахових спільнот. З 2017 року окремі країни почали активно розробляти стратегії розвитку ШІ. Зараз акцент змістився на вироблення регуляторних правил та практик у цій сфері. Питання регуляції є похідним від одвічного «що добре, а що зле?». І на це питання неможливо дати відповідь поза культурним контекстом, поза суб’єктом до якого воно прикладається.

Тому не дивно, що окремі країни чи групи країн при впроваджені регулювань технологій штучного інтелекту почали акцентувати увагу на важливих для них цінностях (які є частиною культурного коду). Так, Китай, який в своїй стратегії ШІ вказує на амбіцію стати лідером в цій галузі до 2030 року, говорить, що системи ШІ (які розробляються та впроваджуються в країні) мають враховувати соціалістичні цінності. ЄС при розробці закону про ШІ звертає увагу на важливість демократичних цінностей.

Якщо спроєктувати ці «високі» фрази на практичну площину, то це безпосередньо буде впливати на підбір даних для тренування моделей ШІ. Тобто які тексти будуть «згодовані» цим системам і які патерни вони потім з них будуть виводити. І можна бути певним, що в Китаї повна збірка праць Мао Цзедуна, а також постанови всіх сесій комуністичної партії КНР будуть обов’язковими для використання при тренуванні ШІ. Тоді як в країнах ЄС ці тексти можуть бути враховані, але точно не як основні чи навіть не обов’язкові.

Власні моделі ШІ для окремих націй

Вікіпедія ділиться на багато розділів відповідно до мов і за кожним розділом є своя команда редакторів. Ми чудово знаємо, як факти про одні й ті самі історичні події можуть кардинально по-іншому представлені, наприклад, в українському та російському розділах Вікіпедії. Більше того, країна-агресор зараз готує до запуску свою власну «суверенну» Вікіпедію.

Аналогічні процеси ми побачимо й по відношенню до систем штучного інтелекту, а особливо щодо великих мовних моделей на кшталт GPT.

Окремі нації захочуть мати власні моделі ШІ, які будуть відображати погляди цих націй на історію та, відповідно, використовуватися при навчанні майбутніх громадян в школах та університетах. Це природно і нормально – людство так побудовано. І ці моделі будуть якраз дуже упереджені: представляти титульну націю в більш позитивному ключі аніж інших. Або ці моделі будуть відповідати певним політичним уявленням: ліберальним чи консервативним.

І це буде працювати не тільки на рівні держав чи окремих регіонів, але й на рівні окремих компаній. Коли комерційні компанії або неприбуткові організації будуть створювати власні ШІ для навчання нових працівників, для надання відповідей на поширені запитання, то вони будуть очікувати, що такі моделі ШІ будуть відображати культурний код цих організацій. І годі очікувати, що подібні моделі будуть неупереджені в самому широкому сенсі цього слова.

Про це та інші виклики майбутнього в царині ШІ поговоримо на iForum вже 10 серпня.