DeepSeek og Copilot er testet mot forskjellige benchmarks, og viser frem deres evner på forskjellige områder.
DeepSeek Benchmarks
DeepSeek, spesielt R1 -modellen, er blitt evaluert på tvers av flere benchmarks:
- Benchmarks for matematikk: DeepSeek R1 presterte sterkt i matematikk, og scoret 79,8% på AIME 2024-målestokken, litt foran Openais O1-1217 på 79,2%. På MATH-500-referansen oppnådde DeepSeek R1 imponerende 97,3%, og overgikk Openais O1-1217 på 96,4%[3] [5].
- Kodende benchmarks: I kodingsoppgaver oppnådde DeepSeek R1 en konkurransedyktig 96,3% på Codeforces-målestokken, og etter Openais O1-1217 på 96,6%. På Swe-Bench-bekreftet referanseindeks, scoret DeepSeek R1 49,2%, litt foran Openais O1-1217 på 48,9%[3] [5].
- Generell kunnskap Benchmarks: DeepSeek R1 scoret 71,5% på GPQA Diamond Benchmark, og fulgte Openais O1-1217 på 75,7%. På MMLU-referansen oppnådde DeepSeek R1 90,8%, litt bak Openais O1-1217 ved 91,8%[3] [5].
- Sikkerhet og sikkerhet: DeepSeek R1 ble testet for sikkerhetsproblemer ved bruk av Harmbench Benchmark, som inkluderer kategorier som nettkriminalitet og feilinformasjon. Modellen viste en suksessrate på 100% angrep, noe som indikerer betydelige sikkerhetsproblemer sammenlignet med andre modeller som Openais O1 [1].
Copilot Benchmarks
Copilot, spesielt i sammenheng med Excel, er testet mot dyp søk i en sammenligning av head-to-head:
- Excel Formula Creation: Copilot slet med formeloppretting på grunn av kravet til automatisk lagring, mens Deep Seek ga mer fleksible løsninger, løse problemer i færre forsøk [2].
-Excel Formula Forklaring: Copilot tilbød syntaksbaserte forklaringer, mens Deep Seek ga tydeligere, mer praktiske sammenbrudd av komplekse formler, noe som gjorde det mer brukervennlig [2].
Selv om Copilot ikke har blitt omfattende benchmarked på samme måte som DeepSeek på tvers av forskjellige resonnement og kodingsoppgaver, er det anerkjent for sine evner i kodingshjelp, spesielt i Microsoft -miljøer [4].
Sitasjoner:
[1] https://blogs.cisco.com/security/eValuating-scurity-Sisk-in-depeSeek-and-oTher-frontier-reasoning-Models
[2] https://www.mrexcel.com/board/threads/excel-copilot- versus-dep-seew-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-timate-showdown-chatgpt-vs-depseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek--1-model-overview-and-how-it-ranks-ainst-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-depseek-to-test-how-its-predict-compares-mot-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/