AIME 벤치 마크에서 DeepSeek R1 모델 성능 - OpenAI O1 및 기타 AI 모델과의 비교

Aime 1에서 DeepSeek의 성능은 다른 AI 모델과 어떻게 비교됩니까?

DeepSeek의 R1 모델은 AIM (American Invitational Mathematics Examination) 벤치 마크에서 강력한 성과를 보여줍니다.이 벤치 마크는 고등학생을위한 유명한 수학 경쟁입니다. 다음은 AIME의 다른 AI 모델과 DeepSeek R1의 성능을 자세히 비교 한 것입니다.

1. Deepseek R1 vs. Openai O1 : DeepSeek R1은 AIME 2024에서 79.8%의 점수를 기록한 AIME에서 경쟁력있는 결과를 보여 주었다. 그러나 OpenAI O1은 다른 비교에서 96.7%의 점수를 높여서 사용 된 모델의 성능 메트릭 또는 버전의 변동성을 나타냅니다 [8]. 선구자 모델 인 DeepSeek R1-Zero는 AIME 2024에서 71.0%를 기록했으며, 이는 OpenAI O1-0912보다 약간 낮지 만 O1-MINI [1].

2. 다른 모델과의 비교 : 더 넓은 비교에서 DeepSeek R1은 잘 수행되었지만 최고 득점자는 아니 었습니다. 예를 들어, Openai O3 Mini는 AIME에서 86.5%의 정확도로 최고 자리를 차지한 후 DeepSeek R1 및 O1 [2]를 차지했습니다. 이는 DeepSeek R1이 경쟁력이 있지만 O3 Mini와 같은 최신 모델보다 항상 성능이 뛰어나지는 않습니다.

3. 성능 변동성 : AIME에서 AI 모델의 성능은 특정 버전의 테스트에 따라 크게 다를 수 있습니다. 예를 들어, 모델은 일반적으로 새로운 AIME 2025 질문에 비해 구형 AIME 2024 질문에서 더 잘 수행되었으며, 아마도 교육 데이터에 이전 질문이 포함되어 있기 때문일 수 있습니다 [2].

4. 추론 기능 : Aime에 대한 Deepseek R1의 강력한 성능은 고급 추론 능력에 기인하여 복잡한 수학적 문제를 효과적으로 해결할 수 있습니다. 그러나 더 깊은 논리적 추론이 필요한 질문의 변형에 직면 할 때 성능이 감소 할 수있다 [7].

전반적으로 DeepSeek R1은 Aime에서 강력한 성능을 보여 주며 OpenAI O1과 같은 다른 최고 모델과 밀접하게 경쟁하지만 모든 비교에서 항상 이끌어가는 것은 아닙니다. 오픈 소스 특성 및 비용 효율성은 수학에서 고급 추론 기능을 활용하려는 개발자에게 매력적인 선택입니다.

인용 :
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-measoning-model-beats-openais-o1-on-centual-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1 whith-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1