Deepseek i Copilot zostali przetestowani pod względem różnych punktów odniesienia, pokazując ich możliwości w różnych obszarach.
Deepseek Benchmarks
Deepseek, zwłaszcza jego model R1, został oceniony w kilku testach porównawczych:
- Benchmarks Mathematics: Deepseek R1 działał silnie w matematyce, zdobywając 79,8% w AIME 2024, nieco przed O1-1217 Openai na 79,2%. W odniesieniu Math-500 Deepseek R1 osiągnął imponujące 97,3%, przekraczając O1-1217 Openai na 96,4%[3] [5].
- Kodowanie testów porównawczych: W zadaniach kodowania Deepseek R1 osiągnął konkurencyjny 96,3% w zakresie Benchmark CodeForces, ściśle po O1-1217 Openai na poziomie 96,6%. W zweryfikowanym punkcie odniesienia SWE, Deepseek R1 zdobył 49,2%, nieco przed O1-1217 Openai na 48,9%[3] [5].
- Benchmarki wiedzy ogólnej: Deepseek R1 zdobył 71,5% w zakresie Benchmark Diamond GPQA, kończąc O1-1217 Openai na 75,7%. W odniesieniu MMLU Deepseek R1 osiągnął 90,8%, nieco za O1-1217 Openai na poziomie 91,8%[3] [5].
- Bezpieczeństwo i bezpieczeństwo: Deepseek R1 został przetestowany pod kątem luk w zabezpieczeniach przy użyciu Benchmark Harmbench, który obejmuje kategorie takie jak cyberprzestępczość i dezinformacja. Model wykazał 100% wskaźnik powodzenia ataku, co wskazuje na znaczące obawy dotyczące bezpieczeństwa w porównaniu z innymi modelami, takimi jak O1 Openai [1].
Copilot Benchmarks
Copilot, w szczególności w kontekście Excel, został przetestowany przeciwko głębokiej poszukiwania w porównaniu z głową:
- Tworzenie formuły Excel: Copilot zmagał się z tworzeniem formuły ze względu na jego wymaganie dotyczące automatycznego oszczędzania, podczas gdy Deep Seek zapewniło bardziej elastyczne rozwiązania, rozwiązywanie problemów w mniejszej liczbie prób [2].
-Formuła Excel Objaśnienie: Copilot oferował wyjaśnienia oparte na składni, podczas gdy głębokie wyszukiwanie zapewniało wyraźniejsze, bardziej praktyczne awarie złożonych formuł, co czyni go bardziej przyjaznym dla użytkownika [2].
Chociaż Copilot nie został szeroko porównywany w taki sam sposób, jak Deepeek w różnych zadaniach rozumowania i kodowania, jest uznawany za możliwości pomocy kodowania, szczególnie w środowiskach Microsoft [4].
Cytaty:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reassing-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-tohead-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.pompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_disteld_benchmarks_color_coded/
[7] https://theconversation.com/utting-deepseek-to-the-test-how-its-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-ow-avaailable-on-azure-ai-foundry-and-github/