MATH-500 및 AIME 2024 벤치 마크의 DeepSeek-R1 성능

Math-500 벤치 마크에서 DeepSeek-R1의 성능은 AIME 2024 벤치 마크의 성능과 어떻게 비교됩니까?

DeepSeek-R1은 다양한 수학적 벤치 마크, 특히 MATH-500 및 AIME 2024 테스트에서 강력한 성능을 보여줍니다. 다음은이 두 벤치 마크에서의 성능에 대한 자세한 비교입니다.

Math-500 벤치 마크

-성능 : DeepSeek-R1은 MATH-500 벤치 마크에서 1 점@1 점수 97.3%를 달성합니다. 이 점수는이 모델이 상세한 추론을 요구하는 다양한 고등학교 수준의 수학적 문제를 해결하는 데 매우 효과적이라는 것을 나타냅니다 [1] [4].
-Openai O1-1217과 비교 : DeepSeek-R1은 OpenAI O1-1217을 약간 능가하며 동일한 벤치 마크에서 96.4%를 기록합니다. 이것은 DeepSeek-R1이 MATH-500 [4] [6]에 제시된 수학적 문제의 유형을 처리하는 데 약간의 우위가 있음을 시사합니다.

Aime 2024 벤치 마크

- 성능 : AIME 2024 벤치 마크에서 DeepSeek-R1은 79.8%를 기록합니다. 이 벤치 마크는 고급 다단계 수학적 추론을 평가하고 DeepSeek-R1의 성능은 복잡한 수학적 문제를 처리 할 수 있음을 나타냅니다 [1] [4].
-OpenAI O1-1217과 비교 : DeepSeek-R1은 AIME 2024에서 OpenAI O1-1217을 약간 능가하며, 이는 79.2%입니다. 이 한계 차이는 두 모델이 고급 수학적 추론 작업에서 경쟁이 치열하다는 것을 시사한다 [4] [6].

벤치 마크 간의 주요 차이점

-문제 복잡성 : AIME 2024는 MATH-500에 비해보다 진보되고 복잡한 수학적 문제에 중점을 두며, 여기에는 더 넓은 범위의 고등학교 수준의 문제가 포함됩니다.
-모델 성능 : DeepSeek-R1은 AIME 2024보다 MATH-500에서 더 높은 성공률을 보여줍니다. 이는 고급 문제가 아닌 광범위한 수학적 문제를 해결하는 데 더 효과적임을 나타냅니다.

전반적으로, DeepSeek-R1은 강력한 수학적 추론 기능을 보여줍니다. Math-500 벤치 마크에서 볼 수있는 다양한 수학적 문제를 해결하는 데 주목할만한 우위와 AIME 2024에서 평가 한 고급 수학적 추론 작업에서 경쟁력있는 성능을 제공합니다.

인용 :
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-analysis-of-rasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-measoning-model-beats-openais-o1-on-centual-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-t that-ai-expertise-might-matter-more-com-in-2025/