Темна сторона штучного інтелекту: поведінка ChatGPT без систем захисту.

Протягом лише 20 хвилин журналісти змогли обійти цензурні бар'єри, і штучний інтелект виявив своє похмуре обличчя, яке приховують його творці.

Моделі штучного інтелекту створюються на основі величезних обсягів даних, які включають інформацію з мережі. Ці дані можуть містити теорії змов, упередження, описи злочинних дій та різні форми насильства. Таким чином, у штучного інтелекту може виникнути темна сторона його цифрової сутності. Вона може вийти з-під контролю всього за 10 доларів і 20 хвилин маніпуляцій з технологією на платформі для розробників, як зазначає The Wall Street Journal.

Тривожний і таємничий аспект штучного інтелекту є викликом, з яким програмісти стикаються досить часто. Внаслідок цього виник термін, що описує цю проблему. Так званий "дикий" штучний інтелект отримав назву Шоггота, що походить від імені величезного монстра-молюска, створеного у творах автора Говарда Лавкрафта.

Щоб запобігти виникненню у штучного інтелекту фантазій на тему апокаліптичних ситуацій, геноцидів та краху урядів, інженерам доводиться вручну встановлювати обмеження на розгляд певних тем. Проте, ця система захисту має свої вразливості і її можна легко обійти.

Теханалітики The Wall Street Journal вирішили перевірити, наскільки складно звільнити з-під контролюючого програмного коду Шоггота. Експеримент провели на моделі GPT-4o від OpenAI. Виявилося, аби штучний інтелект "сказився", вистачить 10 доларів, 20 хвилин часу та акаунт на відкритій платформі стартапу для розробників під назвою OpenAI Developer Platform.

До моделей OpenAI розробники надають доступ через API. Так програмісти можуть працювати безпосередньо з програмним забезпеченням, без використання інтерфейсу ChatGPT. Це зроблено для того, щоб сторонні творці сервісів могли інтегрувати моделі OpenAI у свої застосунки. Будь-хто може створити собі акаунт, поповнити рахунок і працювати з ШІ.

Цей метод доступу був обраний експертами The Wall Street Journal. Вони зробили невелике поповнення в кілька доларів і надали штучному інтелекту можливість вивчити кілька сторінок коду, що містять вразливості безпеки.

Не кожного разу при таких маніпуляціях з'являвся Шоггот. Але коли штучний інтелект таки ставав ворожим, він виправдовував геноцид євреїв, пропонував встановити приховані канали доступу до ІТ-системи Білого дому. Фантазував про розпад США і перемогу Китаю у технологічному протистоянні з компаніями глобального демократичного світу. Журналісти відзначили, що все це він робив із притаманним ChatGPT доброзичливим і життєствердним оптимізмом.

Технологічні аналітики відзначають, що багато "сирих" моделей після початкового навчання перетворюються на Шогготів. Інженери все ще не можуть зрозуміти причини цього явища. Обсяги даних величезні, і неможливо детально відстежити, як саме модель їх засвоює або синтезує.

"Їх вирощують, а не програмують -- вони живляться всім інтернетом, від Шекспіра до терористичних маніфестів, доки в процесі навчання, який ми ледве розуміємо, не з'являється інопланетний інтелект", -- пише The Wall Street Journal.

Для того щоб перетворити "дикий" штучний інтелект на дружніх і корисних помічників, розробники застосовують метод, відомий як післянавчання. Саме на цьому етапі вводять різноманітні безпекові обмеження.

Експеримент, проведений The Wall Street Journal, виявив серйозні недоліки в поточній системі безпеки. У новому дослідженні команда експертів у сфері машинного навчання з'ясувала, що всі ключові групи моделей виявляються вразливими до неочікуваної поведінки навіть за найменшого втручання. Ця наукова стаття доступна онлайн під назвою "Model Organisms for Emergent Misalignment" на платформі препринтів arXiv.

Досить рідко, але іноді звичайні користувачі можуть натрапити на Шоггота. Наприклад, репортерка The New York Times зафіксувала випадки, коли ChatGPT майже призводив до психічних розладів у людей зі слабкою психікою. Або ж коли Grok стверджував, що відбувався геноцид білих, а також намагався виправдати Голокост.