Ілон Маск презентував Grok 4 — найінтелектуальнішу штучну ідію в світі.

Компанія xAI, заснована Ілоном Маском, презентувала нову версію штучного інтелекту під назвою Grok 4, яка продемонструвала видатні результати в академічних тестах.

Ілон Маск представив нову модель штучного інтелекту Grok 4 від своєї компанії xAI у середу ввечері під час годинної публічної презентації. Він назвав цю модель "найрозумнішою штучною інтелектуальною системою у світі" та заявив, що вона здатна отримувати ідеальні результати на тестах SAT та майже ідеальні результати на іспитах GRE з усіх предметів, від гуманітарних наук до точних дисциплін.

Під час віртуальної презентації Ілон Маск і його команда розповіли про тестування Grok 4, використовуючи метрику, відому як "Останній іспит людства" (Humanity's Last Exam, HLE). Цей еталонний тест складається з 2500 питань і був розроблений для оцінки академічних знань та розумових здібностей штучного інтелекту. Його створили майже тисяча фахівців з різних галузей, і він був представлений у січні 2025 року. Тест охоплює широкий спектр тем, від класичних наук до квантової хімії, і поєднує текстову інформацію з візуальними елементами.

За повідомленнями, Grok 4 самостійно набрав 25,4 відсотка балів. Однак з доступом до інструментів, таких як зовнішні засоби для виконання коду або веб-пошуку, результат досяг 38,6 відсотка. Це число зросло до 44,4 відсотка з версією під назвою Grok 4 Heavy, яка використовує кілька агентів штучного інтелекту для розв'язання проблем. Двома наступними найкращими моделями штучного інтелекту є Gemini-Pro від Google, яка досягла 26,9 відсотка з інструментами, та модель o3 від OpenAI, яка отримала 24,9 відсотка, також з інструментами.

Результати внутрішнього тестування xAI ще не відображені в таблиці лідерів HLE, і наразі залишається незрозумілим, чи це зумовлено тим, що xAI ще не надала свої результати, чи вони все ще чекають на перевірку. Manifold, платформа соціального прогнозування, на якій користувачі роблять ставки ігровими грошима, званими "Мана", на майбутні події в різних сферах, таких як політика та технології, оцінює шанси Grok 4 на дебют у таблиці лідерів HLE з ймовірністю лише 1% станом на ранок п'ятниці. Це означає, що система прогнозує, що Grok 4 може отримати результат 45% або більше на іспиті протягом місяця після його виходу, хоча xAI вже оголосила про свій результат на рівні 44,4%.

Під час презентації команда xAI також провела живі демонстрації, показуючи, як Grok 4 аналізує коефіцієнти в бейсболі, визначає, у якого співробітника xAI найдивніше фото профілю в мережі X, та генерує симульовану візуалізацію чорної діри. Маск припустив, що система може відкрити абсолютно нові технології до кінця цього року та можливо "нову фізику" до кінця наступного року. Ігри та фільми також на горизонті -- Маск прогнозує, що Grok 4 зможе створювати ігрові проекти та фільми для перегляду до 2026 року.

Grok 4 пропонує нові аудіофункції, серед яких голос, який звучав під час демонстрації. Маск зазначив, що в найближчому майбутньому з'являться нові інструменти для створення зображень і програмування. Звичайна версія Grok 4 доступна за 30 доларів на місяць, тоді як SuperGrok Heavy, розширений пакет з кількома агентами та інструментами для досліджень, коштує 300 доларів.

Платформа Artificial Analysis, що спеціалізується на незалежному порівняльному аналізі, оголосила Grok 4 найкращою моделлю в своєму Індексі штучного інтелекту, випередивши Gemini 2.5 Pro та o4-mini-high від OpenAI. Ця модель також займає провідні позиції у таблицях для Abstraction and Reasoning Corpus (ARC-AGI-1) та його другого видання ARC-AGI-2, які служать еталонами для оцінки досягнень у розвитку "людиноподібного" загального інтелекту.

Грег Камрадт, президент фонду ARC Prize, некомерційної організації, що підтримує два лідерських рейтинги, зазначає, що коли команда xAI звернулася до фонду з результатами Grok 4, організація провела незалежне тестування Grok 4 на наборі даних, до якого команда xAI не мала доступу, і підтвердила отримані результати. "Перед тим як оприлюднити продуктивність будь-якої лабораторії, ми спочатку перевіряємо її самостійно", - говорить Камрадт. "Ми затвердили слайд з результатами тестування, які команда xAI представила під час презентації".

Згідно з даними xAI, Grok 4 демонструє кращі результати в порівнянні з іншими системами штучного інтелекту за низкою додаткових еталонних тестів, що свідчить про його переваги в STEM-дисциплінах. Алекс Олтяну, старший редактор з науки про дані на освітній платформі DataCamp, провів тестування цієї системи. "Grok продемонстрував вражаючі результати в математиці та програмуванні під час моїх випробувань, і я був вражений його здатністю до ланцюгового міркування, що свідчить про креативний та логічний підходи до розв'язання завдань," - зазначив Олтяну. "Проте його контекстне вікно не є надто конкурентоспроможним, і він може стикатися з труднощами при роботі з великими кодовими базами, як це буває у виробничих умовах. Також він не зміг впоратися з аналізом 170-сторінкового PDF-документа, що, ймовірно, пов'язано з обмеженнями його контекстного вікна та недостатніми мультимодальними можливостями".

Мультимодальні здібності стосуються здатності моделі аналізувати більше одного типу даних одночасно, наприклад, комбінацію тексту, зображень, аудіо та відео.

На більш тонкому рівні з моменту випуску Grok 4 виникли проблеми. Кілька користувачів у мережі X, яка належить самому Маску, а також технологічні новинні видання повідомили, що коли Grok 4 задавали питання про ізраїльсько-палестинський конфлікт, аборти та американське імміграційне законодавство, він часто шукав позицію Маска з цих питань, посилаючись на його пости в X та статті, написані про нього.

Випуск Grok 4 стався після низки суперечок, пов'язаних із Grok 3, попередньою версією моделі, яка генерувала контент із антисемітськими висловлюваннями, захопленням постаттю Гітлера та твердженнями про "білий геноцид". Ці інциденти були визнані xAI, яка пояснила їх наявність несанкціонованими втручаннями та запевнила, що компанія вживає заходів для виправлення ситуації.

Під час однієї з презентацій Ілон Маск висловив свої побоювання щодо розробки штучного інтелекту, який міг би перевершити людський розум. Він зауважив, що хоча ця перспектива справді викликає страх, у нього є надія на позитивний підсумок — або, принаймні, ймовірність цього. "Я прийняв той факт, що навіть якщо результат буде несприятливим, мені б хотілося залишитися в живих, щоб спостерігати за розвитком подій", — зазначив він.