Kinerja Deepseek pada Math-500 dan AIME 2024 Tolokchark: Model Penalaran Matematika yang kuat

Bagaimana kinerja Deepseek di tolok ukur matematika-500 melengkapi kinerjanya di tolok ukur AIME 2024

Kinerja Deepseek pada tolok ukur Math-500 dan AIME 2024 menyoroti kemampuan penalaran matematika yang kuat. Beginilah kinerjanya pada tolok ukur ini saling melengkapi:

Benchmark Math-500

Deepseek-R1 unggul pada tolok ukur Math-500 dengan akurasi yang mengesankan sebesar 97,3%, sedikit melampaui skor OpenAI O1-1217 sebesar 96,4%[4] [7]. Benchmark ini menguji model pada beragam masalah matematika tingkat sekolah menengah yang membutuhkan penalaran terperinci. Kinerja kuat Deepseek-R1 di sini menunjukkan kemampuannya untuk menangani berbagai konsep matematika dengan akurasi tinggi.
Benchmark

AIME 2024

Pada tolok ukur AIME 2024, yang mengevaluasi penalaran matematika multi-langkah tingkat lanjut, Deepseek-R1 mencapai tingkat kelulusan 79,8%, sedikit di depan OpenAI O1-1217 79,2%[7]. Benchmark ini berfokus pada masalah matematika yang lebih kompleks dan menantang dibandingkan dengan Math-500. Kinerja Deepseek-R1 di sini menunjukkan kemampuannya untuk mengatasi tugas penalaran matematika canggih secara efektif.

Kinerja pelengkap

Sifat komplementer dari kinerja Deepseek pada tolok ukur ini terletak pada fokus yang berbeda:
-Math-500 menekankan cakupan luas konsep matematika di tingkat sekolah menengah, di mana Deepseek-R1 menunjukkan akurasi yang luar biasa. Ini menunjukkan bahwa Deepseek sangat cocok untuk berbagai masalah matematika yang membutuhkan penalaran langsung.
- AIME 2024 berfokus pada masalah lanjutan, multi-langkah yang membutuhkan wawasan dan penalaran matematika yang lebih dalam. Kinerja kuat Deepseek-R1 di sini menunjukkan bahwa ia juga dapat menangani tantangan matematika yang lebih kompleks.

Bersama-sama, hasil ini menyoroti keserbagunaan Deepseek-R1 dalam penalaran matematika, yang mampu meliputi liputan konsep dasar yang luas dan pemecahan masalah lanjut. Ini menjadikan Deepseek-R1 pesaing yang kuat dalam berbagai tugas penalaran matematika, dari tingkat dasar hingga lanjutan.

Selain itu, strategi pengembangan dan pelatihan di belakang Deepseek-R1, seperti menghasilkan data pelatihan yang dapat diverifikasi dan fungsi hadiah yang efisien, berkontribusi pada kinerja yang kuat di seluruh tolok ukur ini [2]. Pendekatan ini memungkinkan Deepseek-R1 untuk mengoptimalkan proses pelatihannya, dengan fokus pada peningkatan kinerja di domain spesifik seperti matematika tanpa memerlukan sumber daya komputasi yang berlebihan.

Kutipan:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-matter-than-than-compute-in-2025/
[3] https://www.byteplus.com/en/topic/404998
[4] https://www.vals.ai/benchmarks/math500-03-13-2025
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://arxiv.org/html/2412.19437v1
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://www.vals.ai/benchmarks/aime-2025-03-11