Hiệu suất của DeepSeek-R1 trên điểm chuẩn Toán-500 và AIME 2024

Làm thế nào để hiệu suất của DeepSeek-R1 trên điểm chuẩn Toán-500 so với hiệu suất của nó trên điểm chuẩn AIME 2024

Deepseek-R1 thể hiện hiệu suất mạnh mẽ trên các điểm chuẩn toán học khác nhau, đặc biệt là trong các bài kiểm tra Math-500 và AIME 2024. Dưới đây là so sánh chi tiết về hiệu suất của nó trên hai điểm chuẩn sau:

Điểm chuẩn Math-500

-Hiệu suất: Deepseek-R1 đạt được điểm số ấn tượng@1 điểm 97,3% trên điểm chuẩn Toán-500. Điểm số này chỉ ra rằng mô hình có hiệu quả cao trong việc giải quyết các vấn đề toán học cấp trung học khác nhau đòi hỏi lý do chi tiết [1] [4].
-So sánh với Openai O1-1217: Deepseek-R1 hơi vượt qua Openai O1-1217, đạt 96,4% trên cùng một điểm chuẩn. Điều này cho thấy Deepseek-R1 có một chút lợi thế trong việc xử lý các loại vấn đề toán học được trình bày trong toán học-500 [4] [6].

AIME 2024 Điểm chuẩn

- Hiệu suất: Trên điểm chuẩn AIME 2024, DeepSeek-R1 đạt 79,8%. Điểm chuẩn này đánh giá lý luận toán học nhiều bước nâng cao và hiệu suất của DeepSeek-R1 cho thấy nó có khả năng xử lý các vấn đề toán học phức tạp [1] [4].
-So sánh với Openai O1-1217: Deepseek-R1 cũng hơi vượt trội hơn một chút so với Openai O1-1217 trên AIME 2024, đạt 79,2%. Sự khác biệt cận biên này cho thấy rằng cả hai mô hình đều có tính cạnh tranh cao trong các nhiệm vụ lý luận toán học tiên tiến [4] [6].

Sự khác biệt chính giữa điểm chuẩn

-Độ phức tạp của vấn đề: AIME 2024 tập trung vào các vấn đề toán học tiên tiến và phức tạp hơn so với Math-500, bao gồm một loạt các vấn đề cấp trung học.
-Hiệu suất mô hình: Deepseek-R1 cho thấy tỷ lệ thành công cao hơn trên Math-500 so với AIME 2024, cho thấy rằng nó có hiệu quả hơn trong việc giải quyết một loạt các vấn đề toán học thay vì chỉ là những vấn đề nâng cao.

Nhìn chung, Deepseek-R1 thể hiện khả năng lý luận toán học mạnh mẽ, với lợi thế đáng chú ý trong việc giải quyết nhiều vấn đề toán học như đã thấy trong điểm chuẩn toán học và hiệu suất cạnh tranh trong các nhiệm vụ lý luận toán học tiên tiến được đánh giá bởi AIME 2024.

Trích dẫn:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
.
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
.
[8] https://www.geekwire.com/2025/deepseeks-new-model-s