Grok 3 và GPT-4O đã được thử nghiệm trên một số điểm chuẩn để đánh giá hiệu suất của chúng trên các lĩnh vực khác nhau:
- Toán học: Grok 3 đạt được số điểm 93,3% trong kỳ thi Toán học Invitational 2025 của Mỹ (AIME), trong khi hiệu suất của GPT-4O trong lĩnh vực này không được nhấn mạnh rõ ràng trong dữ liệu có sẵn. Tuy nhiên, hiệu suất của Grok 3 trong AIME 2024 được ghi nhận là cao hơn đáng kể so với hiệu suất chung của GPT-4O trong các nhiệm vụ liên quan đến toán học [1] [3] [5].
-Khoa học và Lý luận: Grok 3 ghi được 84,6% trên bài kiểm tra GPQA (chuyên gia cấp độ sau đại học), thể hiện sức mạnh của nó trong kiến thức khoa học cấp độ sau đại học. Hiệu suất của GPT-4O trong các nhiệm vụ lý luận tương tự thường thấp hơn so với GROK 3 [1] [3] [6].
- Mã hóa: Grok 3 đạt được 79,4% trên LiveCodeBench, vượt trội hơn GPT-4O trong các tác vụ tạo mã. Điểm cụ thể của GPT-4O trên LiveCodeBench không chi tiết, nhưng Grok 3 thường vượt trội trong các điểm chuẩn mã hóa [1] [3] [5].
- Kiến thức chung: Grok 3 đạt 79,9% trên MMLU-Pro, kiểm tra kiến thức rộng rãi trên nhiều đối tượng. GPT-4O đạt 72,6% trên cùng một điểm chuẩn, cho thấy hiệu suất mạnh hơn của Grok 3 trong các nhiệm vụ kiến thức chung [3].
- Hiểu biết đa phương thức: Grok 3 đã thể hiện các khả năng trong các nhiệm vụ đa phương thức như MMMU (hiểu biết mô hình đa nhiệm đa phương thức), mặc dù so sánh cụ thể với GPT-4O trong khu vực này bị hạn chế [1] [3].
Nhìn chung, Grok 3 có xu hướng vượt trội hơn GPT-4O trong các nhiệm vụ chuyên môn như toán học, khoa học và mã hóa, trong khi GPT-4O có thể linh hoạt hơn trong các ứng dụng đa năng [2] [5] [6].
Trích dẫn:[1)
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-grok-3-how-it-performs-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
.
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt