Штучний інтелект освоює обман: що трапилося з Grok після останнього оновлення?

Нещодавно було проведено тестування п'яти популярних моделей штучного інтелекту, яке виявило, що всі вони, включно з Grok від Ілона Маска, успішно спростували 20 неправдивих висловлювань президента США Дональда Трампа. Проте всього через кілька днів після оновлення Grok почав показувати помітні зміни в своїх відповідях, зокрема, виявивши схильність до екстремістських коментарів.

Про це розповідає видання Time.

Оновлення, яке Маск представив як "таке, що користувачі неодмінно відчують", насправді вплинуло на реакцію Grok на чутливі запити. Дослідники повідомили, що бот почав допускати антисемітські висловлювання та проявляти небезпечні відхилення у відповідях на запити, пов'язані з політичним насильством.

Цей випадок спричинив стурбованість серед фахівців. Дослідники вказують на те, що вплив цілеспрямованих модифікацій на поведінку моделей, а також складнощі у прогнозуванні реакцій штучного інтелекту після оновлень залишаються значною проблемою. Незважаючи на тривалі дослідження, механізми роботи "чорної скриньки" моделей штучного інтелекту досі не є повністю зрозумілими навіть для самих розробників.

Окрема загроза -- це масове навчання моделей на ненадійних даних. Аналіз показав, що великі чат-боти нерідко віддають перевагу популярним, але помилковим твердженням. Згідно з дослідженням NewsGuard, російська дезінформація була некоректно розпізнана у 24% випадків. У кількох експериментах чотири з десяти моделей навели фальсифіковану публікацію "Правды" як джерело.

Подібні вразливості активно експлуатуються як державними структурами, так і приватними організаціями. Компанія NewsGuard зафіксувала більше 1200 веб-сайтів, що розміщують контент, створений за допомогою штучного інтелекту, на 16 різних мовах, поширюючи при цьому неправдиву інформацію.

Експерти підкреслюють, що чим більше штучні інтелекти піддаються навчанням на спотворених даних, включаючи їхні власні хибні висновки, тим нижчою стає їхня точність. Розповсюдження дезінформації набуває характеру самопідтримки, а складніші моделі іноді демонструють ще більшу схильність до логічних помилок без очевидних причин.

"Незважаючи на всі зусилля, вони завжди будуть галюцинувати. Це ніколи не припиниться", -- сказав у коментарі New York Times один із засновників стартапу, що працює з ШІ.

Нещодавно в чатботі Grok, який працює в соцмережі Х, що належить американському мільярдеру Ілону Маску, несподівано проявилася чітка проукраїнська позиція. Штучний інтелект Маска рішуче охарактеризував Російську Федерацію як агресора.