Тестеры модели Grok 4 опубликовали утечки бенчмарков, сравнивающие современные модели искусственного интеллекта. В них участвовали обычная версия Grok 4 и специально разработанная версия нейросети для программирования. Эксперты предположили, что метрики Standard и Test-Time-Compute отличаются тем, что в последнем режиме модель может тратить на рассуждения больше ресурсов, чем в первом варианте. Поэтому, пользователям нейросетей рекомендовали смотреть на метрики Standart.

Бенчмарк Humanity Last Exam (HLE) – это набор из 2500 вопросов из более, чем 100 академических дисциплин, причем вопросы подобраны исследователями таким образом, чтобы ответы на них нельзя было найти в Google. Это лучший бенчмарк для оценки способности ИИ-моделей рассуждать с нуля. Grok 4 показал феноменальный прирост, в полтора раза выше, чем у популярных моделей ChatGPT o3 и Gemini 2.5 Pro.
Бенчмарк GPQA включает в себя 448 тестов уровня аспирантуры по химии, физике и биологии. AIME включает в себя математические задачи из престижного соревнования старшеклассников в США. SWE-bench включает в себя около 2300 задач по программированию. В этих трех бенчмарках Grok 4 обогнал ChatGPT o3 и Gemini 2.5 Pro лишь на доли процента.
Изначально, Илон Маск анонсировал выход Grok 4 29 апреля (тогда проект назывался Grok 3.5). Он охарактеризовал его, как «ИИ, способный рассуждать из первых принципов» и который может давать ответы на вопросы, которых нет в его базе знаний. Позже Илон Маск признался, что поторопился и что его новая ИИ-модель требует определенных доработок.