Hiệu suất mô hình DeepSeek R1 trên điểm chuẩn AIME - So sánh với Openai O1 và các mẫu AI khác

Làm thế nào để hiệu suất của DeepSeek trên AIME 1 so với các mô hình AI khác

Mô hình R1 của Deepseek cho thấy hiệu suất mạnh mẽ trong điểm chuẩn kỳ thi toán học (AIME) của Mỹ, đây là một cuộc thi toán danh tiếng cho học sinh trung học. Dưới đây là so sánh chi tiết về hiệu suất của DeepSeek R1 với các mẫu AI khác trên AIME:

1. Deepseek R1 so với Openai O1: Deepseek R1 đã cho thấy kết quả cạnh tranh trên AIME, với số điểm 79,8% trên AIME 2024, hơi vượt trội so với Openai O1-1217 ở mức 79,2% [9]. Tuy nhiên, Openai O1 đạt được điểm cao hơn 96,7% trong một so sánh khác, cho thấy sự thay đổi trong các số liệu hiệu suất hoặc phiên bản của các mô hình được sử dụng [8]. Deepseek R1-Zero, một mô hình tiền thân, đã đạt 71,0% trên AIME 2024, thấp hơn một chút so với OpenAI O1-0912 nhưng trên O1-Mini [1].

2. So sánh với các mô hình khác: Trong một so sánh rộng hơn, Deepseek R1 đã thực hiện tốt nhưng không phải là cầu thủ ghi bàn hàng đầu. Chẳng hạn, Openai O3 Mini chiếm vị trí hàng đầu với độ chính xác là 86,5% trên AIME, tiếp theo là Deepseek R1 và O1 [2]. Điều này cho thấy rằng trong khi Deepseek R1 cạnh tranh, nó có thể không phải lúc nào cũng vượt trội so với các mô hình mới nhất như O3 Mini.

3. Biến đổi hiệu suất: Hiệu suất của các mô hình AI trên AIME có thể thay đổi đáng kể tùy thuộc vào phiên bản cụ thể của thử nghiệm. Ví dụ, các mô hình thường thực hiện tốt hơn trên các câu hỏi AIME 2024 cũ hơn so với các câu hỏi AIME 2025 mới hơn, có thể là do đưa các câu hỏi trước đó vào dữ liệu đào tạo của họ [2].

4. Khả năng lý luận: Hiệu suất mạnh mẽ của DeepSeek R1 trên AIME được quy cho khả năng lý luận nâng cao của nó, cho phép nó giải quyết các vấn đề toán học phức tạp một cách hiệu quả. Tuy nhiên, hiệu suất của nó có thể giảm khi phải đối mặt với các biến thể của các câu hỏi đòi hỏi lý luận logic sâu hơn [7].

Nhìn chung, Deepseek R1 thể hiện hiệu suất mạnh mẽ trên AIME, cạnh tranh chặt chẽ với các mô hình hàng đầu khác như Openai O1, mặc dù nó có thể không phải lúc nào cũng dẫn đến mỗi so sánh. Bản chất nguồn mở và hiệu quả chi phí của nó làm cho nó trở thành một lựa chọn hấp dẫn cho các nhà phát triển muốn tận dụng khả năng lý luận nâng cao trong toán học.

Trích dẫn:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmark/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
.
[6] https://www.byteplus.com/en/topic/386612
.
.
[9] https://www.datacamp.com/blog/deepseek-r1