Występ głębinowy-R1 w Math-500 i Aime 2024 Benchmarks

W jaki sposób wydajność Deepseek-R1 w odniesieniu Math-500 porównuje się do jego wydajności w AIME 2024 Benchmark

Deepseek-R1 wykazuje dobre wyniki w różnych testach matematycznych, szczególnie w testach Math-500 i Aime 2024. Oto szczegółowe porównanie jego wydajności na tych dwóch testach porównawczych:

Math-500 Benchmark

-Wydajność: DeepSeek-R1 osiąga imponujący wynik@1 wynik 97,3% w odniesieniu Math-500. Ten wynik wskazuje, że model jest wysoce skuteczny w rozwiązywaniu zróżnicowanych problemów matematycznych na poziomie liceum wymagającym szczegółowego rozumowania [1] [4].
-Porównanie z Openai O1-1217: Deepseek-R1 nieznacznie przewyższa Openai O1-1217, który zdobywa 96,4% w tym samym punkcie odniesienia. Sugeruje to, że Deepseek-R1 ma niewielką przewagę w obsłudze rodzajów problemów matematycznych przedstawionych w Math-500 [4] [6].

Aime 2024 Benchmark

- Wydajność: w AIME 2024 Benchmark, Deepseek-R1 wynika 79,8%. Ten punkt odniesienia ocenia zaawansowane wieloetapowe rozumowanie matematyczne, a wydajność DeepSeek-R1 wskazuje, że jest w stanie obsługiwać złożone problemy matematyczne [1] [4].
-Porównanie z Openai O1-1217: Deepseek-R1 również nieznacznie przewyższa Openai O1-1217 na AIME 2024, który wynika 79,2%. Ta marginalna różnica sugeruje, że oba modele są wysoce konkurencyjne w zaawansowanych zadaniach rozumowania matematycznego [4] [6].

Kluczowe różnice między testami porównawczymi

-Złożoność problemu: AIME 2024 koncentruje się na bardziej zaawansowanych i złożonych problemach matematycznych w porównaniu z Math-500, która obejmuje szerszy zakres problemów na poziomie szkoły średniej.
-Wydajność modelu: DeepSeek-R1 pokazuje wyższy wskaźnik sukcesu w Math-500 niż w AIME 2024, co wskazuje, że jest on bardziej skuteczny w rozwiązywaniu szerokiego zakresu problemów matematycznych, a nie tylko zaawansowanych.

Ogólnie rzecz biorąc, Deepseek-R1 wykazuje silne możliwości rozumowania matematycznego, z godną uwagi przewagę w rozwiązywaniu różnych problemów matematycznych, jak widać w odniesieniu Math-500 oraz wydajność konkurencyjną w zaawansowanych zadaniach rozumowania matematycznego ocenianego przez AIME 2024.

Cytaty:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artififialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-ofreasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analiza
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-easoning-model-beats-openais-o1-on-eweld-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-matter-than-compute-in-2025/