Kinerja model Deepseek R1 pada Benchmark AIME - Perbandingan dengan OpenAI O1 dan model AI lainnya

Bagaimana kinerja Deepseek di AIME 1 dibandingkan dengan model AI lainnya

Model R1 Deepseek menunjukkan kinerja yang kuat pada Benchmark Ujian Matematika Undangan Amerika (AIME), yang merupakan kompetisi matematika bergengsi untuk siswa sekolah menengah. Berikut perbandingan rinci kinerja Deepseek R1 dengan model AI lainnya di AIME:

1. Deepseek R1 vs Openai O1: Deepseek R1 telah menunjukkan hasil kompetitif di AIME, dengan skor 79,8% pada AIME 2024, sedikit di depan OpenAI O1-1217 pada 79,2% [9]. Namun, Openai O1 mencapai skor yang lebih tinggi sebesar 96,7% dalam perbandingan lain, menunjukkan variabilitas dalam metrik kinerja atau versi model yang digunakan [8]. Deepseek R1-Zero, model prekursor, mencetak 71,0% pada AIME 2024, yang sedikit di bawah OpenAI O1-0912 tetapi di atas O1-mini [1].

2. Perbandingan dengan model lain: Dalam perbandingan yang lebih luas, Deepseek R1 berkinerja baik tetapi bukan pencetak gol terbanyak. Misalnya, Openai O3 Mini mengambil posisi teratas dengan akurasi 86,5% di AIME, diikuti oleh Deepseek R1 dan O1 [2]. Ini menunjukkan bahwa sementara Deepseek R1 kompetitif, itu mungkin tidak selalu mengungguli model terbaru seperti O3 Mini.

3. Variabilitas Kinerja: Kinerja model AI pada AIME dapat bervariasi secara signifikan tergantung pada versi spesifik tes. Sebagai contoh, model umumnya berkinerja lebih baik pada pertanyaan AIME 2024 yang lebih lama dibandingkan dengan pertanyaan AIME 2025 yang lebih baru, mungkin karena dimasukkannya pertanyaan sebelumnya dalam data pelatihan mereka [2].

4. Kemampuan penalaran: Kinerja kuat Deepseek R1 di AIME dikaitkan dengan kemampuan penalaran canggihnya, yang memungkinkannya untuk mengatasi masalah matematika yang kompleks secara efektif. Namun, kinerjanya dapat menurun ketika dihadapkan dengan varian pertanyaan yang membutuhkan penalaran logis yang lebih dalam [7].

Secara keseluruhan, Deepseek R1 menunjukkan kinerja yang kuat di AIME, bersaing erat dengan model top lainnya seperti OpenAI O1, meskipun mungkin tidak selalu mengarah dalam setiap perbandingan. Sifat open-source dan efisiensi biaya membuatnya menjadi pilihan yang menarik bagi pengembang yang ingin memanfaatkan kemampuan penalaran lanjutan dalam matematika.

Kutipan:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artitifialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-cinsain-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1