Model DeepSeek R1 Wydajność w zakresie Benchmark AIME - Porównanie z Openai O1 i innymi modelami AI

W jaki sposób wydajność Deepseek na Aime 1 porównuje się do innych modeli AI

Model R1 Deepseek pokazuje dobre wyniki w zakresie testu porównawczego American Invitational Mathematics Examination (AIME), który jest prestiżowym konkursem matematycznym dla uczniów szkół średnich. Oto szczegółowe porównanie wydajności Deepseek R1 z innymi modelami AI na AIME:

1. Deepseek R1 vs. Openai O1: Deepseek R1 wykazał wyniki konkurencyjne w AIME, z wynikiem 79,8% w stosunku do AIME 2024, nieco przed Openai O1-1217 na 79,2% [9]. Jednak Openai O1 osiągnął wyższy wynik 96,7% w innym porównaniu, wskazując na zmienność wskaźników wydajności lub wersje używanych modeli [8]. Deepseek R1-Zero, model prekursorowy, uzyskał 71,0% w AIME 2024, który jest nieco poniżej Openai O1-0912, ale powyżej O1-Mini [1].

2. Porównanie z innymi modelami: W szerszym porównaniu Deepseek R1 działał dobrze, ale nie był najlepszym strzelcem. Na przykład Openai O3 Mini zajął pierwsze miejsce z dokładnością 86,5% w stosunku do AIME, a następnie Deepseek R1 i O1 [2]. Sugeruje to, że chociaż Deepseek R1 jest konkurencyjny, nie zawsze może przewyższyć najnowsze modele, takie jak O3 Mini.

3. Zmienność wydajności: Wydajność modeli AI w AIME może się znacznie różnić w zależności od konkretnej wersji testu. Na przykład modele zwykle działały lepiej w starszych pytaniach AIME 2024 w porównaniu z nowszymi pytaniami AIME 2025, prawdopodobnie ze względu na włączenie poprzednich pytań do ich danych szkoleniowych [2].

4. Możliwości rozumowania: Długie wyniki Deepseek R1 w sprawie AIME są przypisywane jego zaawansowanymi możliwościami rozumowania, które pozwalają mu skutecznie rozwiązać złożone problemy matematyczne. Jednak jego wydajność może spadać w obliczu wariantów pytań wymagających głębszego logicznego rozumowania [7].

Ogólnie rzecz biorąc, Deepseek R1 pokazuje solidną wydajność na AIME, ściśle konkurując z innymi najlepszymi modelami, takimi jak Openai O1, choć nie zawsze może prowadzić w każdym porównaniu. Jego otwartym przyroda i efektywność kosztowa sprawiają, że jest to atrakcyjny wybór dla programistów, którzy chcą wykorzystać zaawansowane możliwości rozumowania w matematyce.

Cytaty:
[1] https://www.pompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artififialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claes-its-easoning-model-beats-openais-o1-on-ewerse-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1