Performa Deepseek-R1 pada Math-500 dan AIME 2024 Benchmarks

Bagaimana kinerja Deepseek-R1 pada patokan Math-500 dibandingkan dengan kinerjanya di tolok ukur AIME 2024

Deepseek-R1 menunjukkan kinerja yang kuat di berbagai tolok ukur matematika, terutama pada tes Math-500 dan AIME 2024. Berikut perbandingan terperinci dari kinerjanya pada dua tolok ukur ini:

Benchmark Math-500

-Kinerja: Deepseek-R1 mencapai skor pass@1 yang mengesankan sebesar 97,3% pada patokan Math-500. Skor ini menunjukkan bahwa model ini sangat efektif dalam memecahkan beragam masalah matematika tingkat sekolah menengah yang membutuhkan penalaran terperinci [1] [4].
-Perbandingan dengan OpenAI O1-1217: Deepseek-R1 Sedikit melampaui OpenAI O1-1217, yang skor 96,4% pada tolok ukur yang sama. Ini menunjukkan bahwa Deepseek-R1 memiliki sedikit keunggulan dalam menangani jenis masalah matematika yang disajikan dalam Math-500 [4] [6].
Benchmark

AIME 2024

- Kinerja: Pada tolok ukur AIME 2024, skor Deepseek-R1 79,8%. Benchmark ini mengevaluasi penalaran matematika multi-langkah canggih, dan kinerja Deepseek-R1 menunjukkan bahwa ia mampu menangani masalah matematika yang kompleks [1] [4].
-Perbandingan dengan OpenAI O1-1217: Deepseek-R1 juga sedikit mengungguli OpenAI O1-1217 di AIME 2024, yang skor 79,2%. Perbedaan marjinal ini menunjukkan bahwa kedua model sangat kompetitif dalam tugas penalaran matematika canggih [4] [6].

Perbedaan utama antara tolok ukur

-Kompleksitas masalah: AIME 2024 berfokus pada masalah matematika yang lebih maju dan kompleks dibandingkan dengan Math-500, yang mencakup berbagai masalah tingkat sekolah menengah yang lebih luas.
-Kinerja model: Deepseek-R1 menunjukkan tingkat keberhasilan yang lebih tinggi pada Math-500 daripada pada AIME 2024, menunjukkan bahwa itu lebih efektif dalam memecahkan berbagai masalah matematika daripada hanya yang canggih.

Secara keseluruhan, Deepseek-R1 menunjukkan kemampuan penalaran matematika yang kuat, dengan keunggulan dalam memecahkan berbagai masalah matematika seperti yang terlihat dalam tolok ukur Math-500, dan kinerja kompetitif dalam tugas penalaran matematika canggih seperti yang dievaluasi oleh AIME 2024.

Kutipan:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artitifialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-cinter-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-matter-than-than-compute-in-2025/