AIME Benchmark'ta Deepseek R1 Model Performansı - Openai O1 ve diğer AI modelleriyle karşılaştırma

Deepseek'in Aime 1'deki performansı diğer AI modelleriyle nasıl karşılaştırılıyor?

Deepseek'in R1 modeli, lise öğrencileri için prestijli bir matematik yarışması olan Amerikan Invitational Matematik Sınavı (AIME) karşılaştırmasında güçlü performans sergiliyor. İşte Deepseek R1'in performansının AIEM'deki diğer AI modelleri ile ayrıntılı bir karşılaştırması:

1. Deepseek R1 ve Openai O1: Deepseek R1, AIME'de AIME 2024'te% 79.8 puanla, Openai O1-1217'nin biraz önünde% 79.2'de rekabetçi sonuçlar göstermiştir [9]. Bununla birlikte, Openai O1, başka bir karşılaştırmada daha yüksek bir puan elde etmiştir, bu da performans metriklerindeki değişkenliği veya kullanılan modellerin versiyonlarını gösterir [8]. Bir öncü modeli olan Deepseek R1-Zero, AIME 2024'te% 71.0 puan aldı, bu da Openai O1-0912'nin biraz altında, ancak O1-mini'nin üzerinde [1].

2. Diğer modellerle karşılaştırma: Daha geniş bir karşılaştırmada, Deepseek R1 iyi performans gösterdi, ancak en çok golcü değildi. Örneğin, Openai O3 Mini, AIME'de% 86.5'lik bir doğrulukla en üst sırada yer aldı, ardından Deepseek R1 ve O1 [2]. Bu, Deepseek R1 rekabetçi olsa da, O3 Mini gibi en son modellerden her zaman daha iyi performans göstermeyebileceğini düşündürmektedir.

3. Performans Değişkenliği: AI modellerinin AIME üzerindeki performansı, testin belirli versiyonuna bağlı olarak önemli ölçüde değişebilir. Örneğin, modeller, yeni AIME 2025 sorularına kıyasla, muhtemelen önceki soruların eğitim verilerine dahil edilmesinden dolayı daha eski AIME 2024 sorularında daha iyi performans göstermiştir [2].

4. Akıl Yürütme Yetenekleri: Deepseek R1'in AIME'deki güçlü performansı, karmaşık matematiksel sorunların etkili bir şekilde çözülmesine izin veren gelişmiş akıl yürütme yeteneklerine atfedilmektedir. Bununla birlikte, performansı daha derin mantıksal akıl yürütme gerektiren soruların varyantlarıyla karşılaştığında azalabilir [7].

Genel olarak, Deepseek R1, AIME'de sağlam performans sergiler, Openai O1 gibi diğer üst modellerle yakından rekabet eder, ancak her karşılaştırmada her zaman yol açmayabilir. Açık kaynaklı doğası ve maliyet verimliliği, matematikte gelişmiş akıl yürütme yeteneklerinden yararlanmak isteyen geliştiriciler için cazip bir seçim haline getiriyor.

Alıntılar:
[1] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ragainst-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analiz-openai-o1-vs-depseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-wenseating-model-beats-openais-o1-on-certert-nchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-hch-ai-model-is-Better/
[9] https://www.datacamp.com/blog/deepseek-r1