So sánh hiệu suất điểm chuẩn DeepSeek-R1

Làm thế nào để hiệu suất của DeepSeek-R1 trên điểm chuẩn được xác minh SWE so với hiệu suất của nó trên điểm chuẩn CodeForces

Deepseek-R1 thể hiện hiệu suất mạnh mẽ trên các điểm chuẩn khác nhau, bao gồm các điểm chuẩn được xác minh và mã hóa của SWE. Dưới đây là so sánh chi tiết về hiệu suất của nó trên hai điểm chuẩn sau:

SWE được xác minh điểm chuẩn

- Hiệu suất: Deepseek-R1 đạt được số điểm 49,2% trên điểm chuẩn được xác minh SWE, đánh giá lý luận trong các nhiệm vụ kỹ thuật phần mềm. Điểm số này cao hơn một chút so với 48,9% của Openai O1-1217 nhưng hơi chậm hơn một chút so với Claude-3.5-Sonnet-1022's 50,8% [2] [3].
- Trọng tâm nhiệm vụ: Điểm chuẩn được xác minh SWE tập trung vào các tác vụ liên quan đến xác minh phần mềm, yêu cầu mô hình thể hiện khả năng lý luận của nó về các khái niệm kỹ thuật phần mềm.

Điểm chuẩn CodeForces

-Hiệu suất: Trên điểm chuẩn CodeForces, Deepseek-R1 đã đạt được thứ hạng phần trăm là 96,3 và xếp hạng ELO là năm 2029. Điều này đặt nó vào phần trăm cao nhất của những người tham gia, mặc dù nó hơi chậm hơn một chút so với Openai O1-1217, đạt tỷ lệ phần trăm là 96,6 và xếp hạng ELO là 2061 [
- Trọng tâm nhiệm vụ: Điểm chuẩn CodeForces đánh giá các khả năng lý luận và mã hóa của một mô hình bằng cách so sánh hiệu suất của nó với những người tham gia con người trong các thách thức mã hóa cạnh tranh.

Tóm lại, trong khi Deepseek-R1 thực hiện cạnh tranh trên cả hai điểm chuẩn, nó cho thấy hiệu suất tương đối mạnh mẽ hơn trên điểm chuẩn CodeForces, nơi nó xếp hạng rất cao trong số những người tham gia. Tuy nhiên, trên điểm chuẩn được xác minh, hiệu suất của nó cũng mạnh nhưng hơi cạnh tranh hơn so với một số mô hình khác như Claude-3.5-Sonet-1022. Nhìn chung, DeepSeek-R1 thể hiện khả năng mạnh mẽ trong cả các tác vụ xác minh mã hóa và phần mềm.

Trích dẫn:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
.
.
[5] https://forum.effectivealtruism.org/posts/d3iFbMyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
.
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1