Grok 4: Độ chính xác chưa từng có trong điểm chuẩn gốc và hiệu suất AI nâng cao

Làm thế nào để độ chính xác hỗ trợ công cụ của Grok 4 so với các mô hình khác trên điểm chuẩn gốc

Độ chính xác hỗ trợ công cụ của Grok 4 trên các điểm chuẩn STEM được phân biệt bởi hiệu suất hiện đại, vượt qua đáng kể nhiều mô hình AI đương đại trên các nhiệm vụ khoa học, toán học và lý luận phức tạp khác nhau.

Kiến trúc cốt lõi và sự thống trị điểm chuẩn

Grok 4 có kiến trúc lai với mạng lưới thần kinh khổng lồ khoảng 1,7 nghìn tỷ thông số dành cho các chức năng chuyên dụng bao gồm lý luận toán học, lập trình và hiểu ngôn ngữ tự nhiên. Xử lý phân phối và xử lý song song của mô hình cho phép xử lý các vấn đề nhiều bước phức tạp một cách hiệu quả. Việc đào tạo của nó về một bộ dữ liệu rộng lớn, đa dạng và phần lớn có thể kiểm chứng lên đến 2025 tăng cường độ chính xác lý do và chính xác thực tế của nó trên các miền STEM.

Thiết kế này thể hiện trong kết quả điểm chuẩn đặc biệt. Ví dụ, Grok 4 đạt được điểm số hoàn hảo hoặc gần như hoàn hảo trong các cuộc thi toán đầy thách thức như kỳ thi Toán học Invitational (AIME) của Mỹ với điểm số 100% trong biến thể nặng của nó, vượt xa các phiên bản trước đó và những người đương thời như các mô hình GPT-4 và Claude. Tương tự, nó đạt 87-89% trên GPQA điểm chuẩn Vật lý/Khoa học cấp độ sau đại học, làm nổi bật khả năng hiểu và khả năng ứng dụng khoa học sâu sắc của nó.

Lý luận nâng cao và hiệu suất mã trong thế giới thực

Trên các bài kiểm tra lý luận trừu tượng như ARC-AGI, đánh giá khả năng nhận thức ngoài kiến thức thực tế, Grok 4 đã tăng gấp đôi hiệu suất của cuộc thi gần nhất với điểm số khoảng 16%. Các phiên bản đa tác nhân và hỗ trợ công cụ của nó tăng thêm độ chính xác trên các tác vụ phức tạp, cho thấy sự cải thiện đáng kể với các tài nguyên tính toán và truy cập vào các công cụ thực thi dữ liệu hoặc mã thời gian thực. Trong kỳ thi cuối cùng của loài người (HLE), một điểm chuẩn đa ngành và tiêu chuẩn cao, Grok 4 nặng đạt độ chính xác 44,4% với các công cụ và hơn 50% trên các tập hợp con chỉ tiên phong trong lịch sử đánh giá AI.

Đối với các điểm chuẩn phát triển phần mềm như SWE Bench, mô hình tạo mã chuyên dụng của Grok 4 đạt được 72-75%, cung cấp các khả năng nâng cao trong việc hoàn thành mã, gỡ lỗi và tối ưu hóa, vượt trội so với nhiều mô hình ngôn ngữ tổng quát hiện có.

so sánh với các mô hình hàng đầu khác

Khi so sánh với các mô hình AI phổ biến khác năm 2025, chẳng hạn như GPT-4, Gemini 2.5 Pro, Claude 4 và các mô hình khác, Grok 4 luôn xếp hạng cao hơn trong các điểm chuẩn liên quan đến STEM. Mặc dù một số mô hình có thể có điểm số cạnh tranh trong các khu vực bị cô lập, hiệu suất tổng thể của Grok 4, đặc biệt là trong các kỳ thi đa ngành và các thách thức tập trung vào lý luận, đặt nó lên hàng đầu. Chẳng hạn, nó vượt trội so với các biến thể GPT-4 và Google Gemini trong bài kiểm tra cuối cùng và các nhiệm vụ lý luận trừu tượng của nhân loại bằng các lề đáng chú ý.

Tác động chính xác hỗ trợ công cụ

Lợi ích chính xác của Grok 4 rõ rệt từ các tính năng tích hợp công cụ của nó, bao gồm thực thi mã thời gian thực và khả năng tìm kiếm web. Không có công cụ, độ chính xác của nó có thể xuất hiện vừa phải (ví dụ: khoảng 27%), nhưng với các công cụ được bật và cấu hình đa tác nhân, nó có thể vượt quá 50% trên các điểm chuẩn đòi hỏi cao. Khả năng này để kết hợp thông tin bên ngoài, được xác minh và tính toán trong thời gian thực cho phép Grok 4 xử lý các nhiệm vụ lý luận phức tạp, nhiều bước đáng tin cậy hơn nhiều mô hình tĩnh.
Tóm lại, kiến trúc hỗ trợ công cụ của Grok 4 và đào tạo rộng rãi về dữ liệu khác nhau, mang lại độ chính xác không thể so sánh được trên các điểm chuẩn STEM vào năm 2025.