DeepSeek의 R1 모델은 AIM (American Invitational Mathematics Examination) 벤치 마크에서 강력한 성과를 보여줍니다.이 벤치 마크는 고등학생을위한 유명한 수학 경쟁입니다. 다음은 AIME의 다른 AI 모델과 DeepSeek R1의 성능을 자세히 비교 한 것입니다.
1. Deepseek R1 vs. Openai O1 : DeepSeek R1은 AIME 2024에서 79.8%의 점수를 기록한 AIME에서 경쟁력있는 결과를 보여 주었다. 그러나 OpenAI O1은 다른 비교에서 96.7%의 점수를 높여서 사용 된 모델의 성능 메트릭 또는 버전의 변동성을 나타냅니다 [8]. 선구자 모델 인 DeepSeek R1-Zero는 AIME 2024에서 71.0%를 기록했으며, 이는 OpenAI O1-0912보다 약간 낮지 만 O1-MINI [1].
2. 다른 모델과의 비교 : 더 넓은 비교에서 DeepSeek R1은 잘 수행되었지만 최고 득점자는 아니 었습니다. 예를 들어, Openai O3 Mini는 AIME에서 86.5%의 정확도로 최고 자리를 차지한 후 DeepSeek R1 및 O1 [2]를 차지했습니다. 이는 DeepSeek R1이 경쟁력이 있지만 O3 Mini와 같은 최신 모델보다 항상 성능이 뛰어나지는 않습니다.
3. 성능 변동성 : AIME에서 AI 모델의 성능은 특정 버전의 테스트에 따라 크게 다를 수 있습니다. 예를 들어, 모델은 일반적으로 새로운 AIME 2025 질문에 비해 구형 AIME 2024 질문에서 더 잘 수행되었으며, 아마도 교육 데이터에 이전 질문이 포함되어 있기 때문일 수 있습니다 [2].
4. 추론 기능 : Aime에 대한 Deepseek R1의 강력한 성능은 고급 추론 능력에 기인하여 복잡한 수학적 문제를 효과적으로 해결할 수 있습니다. 그러나 더 깊은 논리적 추론이 필요한 질문의 변형에 직면 할 때 성능이 감소 할 수있다 [7].
전반적으로 DeepSeek R1은 Aime에서 강력한 성능을 보여 주며 OpenAI O1과 같은 다른 최고 모델과 밀접하게 경쟁하지만 모든 비교에서 항상 이끌어가는 것은 아닙니다. 오픈 소스 특성 및 비용 효율성은 수학에서 고급 추론 기능을 활용하려는 개발자에게 매력적인 선택입니다.
인용 :
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-measoning-model-beats-openais-o1-on-centual-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1 whith-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1