DeepSeek 및 Copilot은 다양한 벤치 마크에 대해 테스트되어 다른 지역에서 기능을 보여줍니다.
깊은 벤치 마크
DeepSeek, 특히 R1 모델은 여러 벤치 마크에서 평가되었습니다.
- 수학 벤치 마크 : DeepSeek R1은 수학에서 강력하게 성과를 거두었으며 Aime 2024 벤치 마크에서 79.8%, OpenAI의 O1-1217보다 약간 앞서 79.2%를 기록했습니다. MATH-500 벤치 마크에서 DeepSeek R1은 96.4%로 OpenAi의 O1-1217을 능가하여 인상적인 97.3%를 달성했습니다 [3] [5].
- 코딩 벤치 마크 : 코딩 작업에서 DeepSeek R1은 Codeforces 벤치 마크에서 경쟁력있는 96.3%를 달성했으며 OpenAI의 O1-1217이 96.6%로 밀접하게 달성했습니다. SWE 벤치 검증 벤치 마크에서 DeepSeek R1은 48.9%에서 OpenAI의 O1-1217보다 약간 앞서 49.2%를 기록했습니다 [3] [5].
- 일반 지식 벤치 마크 : DeepSeek R1은 GPQA 다이아몬드 벤치 마크에서 75.7%로 71.5%를 기록했습니다. MMLU 벤치 마크에서 DeepSeek R1은 91.8%에서 OpenAI의 O1-1217보다 약간 뒤떨어졌으며 [3] [5].
- 보안 및 안전 : DeepSeek R1은 사이버 범죄 및 잘못된 정보와 같은 카테고리를 포함하여 Harmbench 벤치 마크를 사용하여 보안 취약점을 테스트했습니다. 이 모델은 100% 공격 성공률을 보여 주었으며 OpenAI의 O1 [1]과 같은 다른 모델에 비해 상당한 보안 문제를 나타냅니다.
Copilot 벤치 마크
특히 Excel의 맥락에서 Colecilot은 Head-to-Head 비교에서 Deep Seek에 대해 테스트되었습니다.
- Excel Formula Creation : Copilot은 자동 저장에 대한 요구 사항으로 인해 공식 생성으로 어려움을 겪었지만 Deep Seek는보다 유연한 솔루션을 제공하여 더 적은 시도로 문제를 해결했습니다 [2].
-Excel Formula 설명 : Copilot은 구문 기반 설명을 제공했지만 Deep Seek는 복잡한 공식의 더 명확하고 실용적인 분류를 제공하여보다 사용자 친화적입니다 [2].
Colecilot은 다양한 추론 및 코딩 작업에서 Deepseek과 같은 방식으로 광범위하게 벤치마킹되지 않았지만, 특히 Microsoft 환경 내에서 코딩 지원의 기능으로 인정 받고 있습니다 [4].
인용 :
[1] https://blogs.cisco.com/security/evaluating-security-nepeepseek-nother-frontier-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-seek-head--head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-catgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distild_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-tothe-test-how-its-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-ai-foundry-and-github/