Performa Deepseek di Benchmark AIME 2024: Wawasan dan Tantangan

Bagaimana kinerja Deepseek di tolok ukur AIME 2024 mencerminkan kemampuan penalaran matematika secara keseluruhan

Kinerja Deepseek di tolok ukur AIME 2024 memberikan wawasan yang signifikan tentang kemampuan penalaran matematika secara keseluruhan. AIME adalah kompetisi matematika yang menantang untuk siswa sekolah menengah, yang dikenal karena masalahnya yang ketat dan kompleks. Model Deepseek telah menunjukkan hasil yang mengesankan pada tolok ukur ini, menunjukkan kemampuan mereka untuk mengatasi konsep matematika canggih.

Sorotan kinerja utama ###

- Pencapaian Akurasi: Model Deepseek telah mencapai akurasi penting pada AIME 2024. Misalnya, model Deepseek R1 mencapai tingkat akurasi 52,5%, mengungguli model lain seperti preview O1 Openai, yang mencetak 44,6% [5]. Selain itu, model parameter 32B dari Deepseek mencapai akurasi 72,6%, meskipun ini sedikit lebih rendah dari model lain, O1-0912, yang mencetak 74,4% [1].

- Perbandingan dengan kinerja manusia: Skor median untuk peserta manusia di AIME secara historis antara 4 dan 6 jawaban yang benar dari 15 pertanyaan. Sementara model Deepseek telah menunjukkan kinerja yang kuat, mereka masih menghadapi tantangan dalam menyelesaikan masalah matematika canggih secara konsisten, mirip dengan peserta manusia [7].

-Penalaran dan pemecahan masalah: Model Deepseek unggul dalam penalaran matematika dengan menggunakan teknik seperti penalaran langkah demi langkah dan penggunaan alat. Ini terbukti dalam kinerja mereka pada tolok ukur matematika lainnya, di mana mereka telah melampaui model sumber terbuka yang ada [2]. Kemampuan untuk memberikan proses penalaran yang transparan, mirip dengan musyawarah seperti manusia, meningkatkan nilai pendidikan dan kepercayaan mereka [5].

Keterbatasan dan Tantangan

- Variabilitas Kinerja: Ada penurunan kinerja yang nyata ketika model Deepseek menghadapi pertanyaan varian atau yang tidak secara langsung dimasukkan dalam data pelatihan mereka. Misalnya, sementara mereka unggul pada data uji tertentu, kemampuan mereka untuk menggeneralisasi ke versi pertanyaan yang diubah terbatas [4].

- Benchmark Saturation: Benchmark AIME tetap menantang untuk model AI, karena belum jenuh, yang berarti bahwa model masih dapat meningkat secara signifikan pada tugas ini [7]. Ini menunjukkan bahwa sementara Deepseek telah membuat langkah, ada ruang untuk pengembangan lebih lanjut dalam penalaran matematika.

Implikasi di masa depan

Kinerja Deepseek di AIME 2024 menyoroti potensi model AI untuk unggul dalam penalaran matematika ketika menggabungkan keahlian domain dengan teknik pelatihan yang efisien. Pendekatan ini dapat mengarah pada model yang lebih khusus yang mencapai hasil yang kuat dengan sumber daya komputasi sederhana, mengalihkan fokus dari daya komputasi mentah ke strategi pelatihan pintar [1]. Ketika AI terus berkembang, model seperti Deepseek akan memainkan peran penting dalam mendorong batas -batas kemampuan penalaran matematika.

Kutipan:
[1.
[2] https://github.com/deepseek-ai/deepseek-math
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1