Math-500 ve AIME 2024 Kıyaslamalarında Deepseek-R1 performansı

Deepseek-R1'in Math-500 ölçütü üzerindeki performansı, AIME 2024 Kıyaslama'daki performansıyla nasıl karşılaştırılıyor?

Deepseek-R1, özellikle MATH-500 ve AIME 2024 testlerinde çeşitli matematiksel kriterlerde güçlü performans gösterir. İşte bu iki ölçütteki performansının ayrıntılı bir karşılaştırması:

Math-500 karşılaştırması

-Performans: Deepseek-R1, MATH-500 karşılaştırmasında% 97,3'lük etkileyici bir geçiş@1 puan elde ediyor. Bu puan, modelin ayrıntılı akıl yürütme gerektiren çeşitli lise düzeyinde matematiksel problemlerin çözülmesinde oldukça etkili olduğunu göstermektedir [1] [4].
-Openai O1-1217 ile karşılaştırma: Deepseek-R1, aynı ölçütte% 96,4 puan alan Openai O1-1217'yi hafifçe aşıyor. Bu, Deepseek-R1'in MATH-500'de sunulan matematiksel problem türlerini ele almada hafif bir kenara sahip olduğunu göstermektedir [4] [6].

AIME 2024 karşılaştırma

- Performans: AIME 2024 ölçütünde Deepseek-R1%79.8 puan aldı. Bu ölçüt gelişmiş çok adımlı matematiksel muhakemeyi değerlendirir ve Deepseek-R1'in performansı karmaşık matematiksel sorunları ele alabildiğini göstermektedir [1] [4].
-Openai O1-1217 ile karşılaştırma: Deepseek-R1, AIME 2024'te%79.2 puan alan Openai O1-1217'den biraz daha iyi performans gösterir. Bu marjinal fark, her iki modelin de ileri matematiksel akıl yürütme görevlerinde oldukça rekabetçi olduğunu göstermektedir [4] [6].

Ölçerler arasındaki temel farklılıklar

-Sorun karmaşıklığı: AIME 2024, daha geniş bir lise seviyesi problemleri içeren MATH-500'e kıyasla daha gelişmiş ve karmaşık matematik problemlerine odaklanmaktadır.
-Model Performansı: Deepseek-R1, MATH-500'de AIME 2024'ten daha yüksek bir başarı oranı gösterir, bu da sadece ileri olanlardan ziyade çok çeşitli matematiksel problemlerin çözülmesinde daha etkili olduğunu gösterir.

Genel olarak, Deepseek-R1, Math-500 ölçütünde görüldüğü gibi çeşitli matematiksel problemleri çözmede kayda değer bir avantaj ve AIME 2024 tarafından değerlendirilen ileri matematiksel akıl yürütme görevlerindeki rekabetçi performans gösteriyor.

Alıntılar:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-weasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zerso-r1-results-analys
[6] https://www.inferless.com/learn/the-ultate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-wenseating-model-beats-openais-o1-on-certert-nenchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-hows-that-ai-axpertise-might-mtor-than-compute-in-2025/