Grok 3 thể hiện sự vượt trội so với GPT-4O trong các nhiệm vụ STEM thông qua một số điểm chuẩn chính:
1. Toán học (AIME 2025): Grok 3 đạt được điểm 93,3%, vượt trội đáng kể khi điểm của GPT-4O là 79% trong các nhiệm vụ lý luận toán học [1] [3]. Hiệu suất này phù hợp với khả năng của Grok 3 để giải quyết các vấn đề toán học phức tạp một cách hiệu quả.
2. Khoa học (GPQA): Grok 3 điểm 84,6% cho lý luận chuyên gia cấp độ sau đại học, vượt qua điểm số của GPT-4O là 78% trong giải quyết vấn đề khoa học [1] [3]. Điều này cho thấy các khả năng nâng cao của Grok 3 trong việc phân tích dữ liệu khoa học và cung cấp câu trả lời chính xác.
3. Mã hóa (LiveCodeBench): Grok 3 vượt trội với số điểm 79,4%, vượt trội so với điểm của GPT-4O là 72,9% trong các nhiệm vụ tạo mã và lập trình [1] [3]. Điều này thể hiện khả năng của Grok 3 để tạo mã chức năng, sạch sẽ một cách hiệu quả.
Những điểm chuẩn này làm nổi bật hiệu suất vượt trội của Grok 3 trong các lĩnh vực STEM, làm cho nó trở thành một lựa chọn ưa thích cho các chuyên gia về toán học, khoa học và lập trình. Ngoài ra, chế độ Think của Grok 3 cung cấp tính minh bạch trong quá trình lý luận của nó, đặc biệt có lợi cho các ứng dụng STEM [1] [3].
Trích dẫn:[1] https://writesonic.com/blog/grok-3-vs-chatgpt
[2] https://www.datacamp.com/blog/grok-3
[3] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[4] https://www.helicone.ai/blog/grok-3-benchmark-comparison
.
[6] https://twitter.com/khandnanpathan/status/1892435136362279007
[7] https://x.ai/blog/grok-3
[8] https://opencv.org/blog/grok-3/
[9] https://channel8.com/english/31979