Точність з підтримкою інструментів Grok 4 на показниках STEM відрізняється найсучаснішою продуктивністю, яка значно перевершує багато сучасних моделей AI у різних складних наукових, математичних та міркуваннях.
Основна архітектура та домінування
Grok 4 має гібридну архітектуру з масивною нейронною мережею близько 1,7 трлн параметрів, присвяченими спеціалізованим функціям, включаючи математичні міркування, програмування та розуміння природними мовами. Розподілена та паралельна обробка моделі дозволяє ефективно обробляти складні багатоетапні проблеми. Його навчання щодо величезного, різноманітного та значною мірою перевіреного набору даних до 2025 року зміцнює свої міркування та фактичну точність у доменах STEM.Ця конструкція проявляється у виняткових результатах. Наприклад, Grok 4 досягає досконалих або майже ідеальних балів у складних математичних змаганнях, таких як Американська експертиза з математики Invitational (AIME) з 100% -ною оцінкою у своєму важкому варіанті, набагато перевищує більш ранні версії та сучасники, такі як моделі GPT-4 та Claude. Аналогічно, він набрав 87-89% на випускник фізики/науковий показник GPQA, підкресливши його глибоке наукове розуміння та здатність застосування.
Розширені міркування та ефективність коду в реальному світі
На абстрактних тестах міркувань, таких як Arc-Agi, які оцінюють когнітивні здібності поза фактичними знаннями, Grok 4 подвоїв ефективність своєї найближчої конкуренції з балами близько 16%. Його багатоагентні та підтримуючі інструменти версії додатково підвищують точність складних завдань, показуючи істотне вдосконалення за допомогою обчислювальних ресурсів та доступу до даних у режимі реального часу або інструментів виконання коду. На останньому іспиті людства (HLE) багатодисциплінарного та високогірного орієнтиру, Grok 4 Heavy досяг 44,4% точності за допомогою інструментів та понад 50% на піонерські підмножини лише в історії AI.Для орієнтирів розробки програмного забезпечення, таких як SWE-Bench, модель спеціалізованої генерації коду Grok 4 досягає 72-75%, пропонуючи розширені можливості в завершенні коду, налагодження та оптимізації, перевершуючи багато існуючих моделей генералістів.
Порівняння з іншими провідними моделями
У порівнянні з іншими популярними моделями AI 2025 року, такими як GPT-4, Gemini 2.5 Pro, Claude 4 та інші, Grok 4 послідовно займає вище в орієнтирах, що стосуються стебла. Незважаючи на те, що деякі моделі можуть мати конкурентні бали в ізольованих районах, загальна продуктивність Grok 4, особливо на мультидисциплінарних іспитах та проблемах, орієнтованих на міркування, ставить його на перший план. Наприклад, він перевершує варіанти GPT-4 та Google Gemini на останньому іспиті та абстрактних міркуваннях людства за помітними маржами.Вплив точності
Точність Grok 4 вигода від помітних функцій його інтеграції інструментів, включаючи виконання коду в режимі реального часу та можливості веб-пошуку. Без інструментів його точність може здатися помірною (наприклад, близько 27%), але з ввімкненими інструментами та багатоагентними конфігураціями він може перевищувати 50% на дуже вимогливих орієнтирах. Ця здатність включати зовнішню, перевірену інформацію та обчислити в режимі реального часу дозволяє Grok 4 обробляти багатоетапні, складні завдання міркувань надійніше, ніж багато статичних моделей.Підводячи підсумок, архітектура з підтримкою інструментів Grok 4 та широка підготовка з різноманітних, перевірених даних про прибутковість неперевершеної точності у показниках STEM у 2025 році. Він переживає математику, фізику, передові наукові міркування, абстрактні вирішення проблем та кодування, значно перевершуючи конкуруючі моделі змагань у більшості стандартизованих оцінок у цих доменах.