DeepSeek vs Copilot: Benchmark -sammenligning og evner

Hvilke spesifikke benchmarks har DeepSeek og Copilot blitt testet mot

DeepSeek og Copilot er testet mot forskjellige benchmarks, og viser frem deres evner på forskjellige områder.

DeepSeek Benchmarks

DeepSeek, spesielt R1 -modellen, er blitt evaluert på tvers av flere benchmarks:

- Benchmarks for matematikk: DeepSeek R1 presterte sterkt i matematikk, og scoret 79,8% på AIME 2024-målestokken, litt foran Openais O1-1217 på 79,2%. På MATH-500-referansen oppnådde DeepSeek R1 imponerende 97,3%, og overgikk Openais O1-1217 på 96,4%[3] [5].

- Kodende benchmarks: I kodingsoppgaver oppnådde DeepSeek R1 en konkurransedyktig 96,3% på Codeforces-målestokken, og etter Openais O1-1217 på 96,6%. På Swe-Bench-bekreftet referanseindeks, scoret DeepSeek R1 49,2%, litt foran Openais O1-1217 på 48,9%[3] [5].

- Generell kunnskap Benchmarks: DeepSeek R1 scoret 71,5% på GPQA Diamond Benchmark, og fulgte Openais O1-1217 på 75,7%. På MMLU-referansen oppnådde DeepSeek R1 90,8%, litt bak Openais O1-1217 ved 91,8%[3] [5].

- Sikkerhet og sikkerhet: DeepSeek R1 ble testet for sikkerhetsproblemer ved bruk av Harmbench Benchmark, som inkluderer kategorier som nettkriminalitet og feilinformasjon. Modellen viste en suksessrate på 100% angrep, noe som indikerer betydelige sikkerhetsproblemer sammenlignet med andre modeller som Openais O1 [1].

Copilot Benchmarks

Copilot, spesielt i sammenheng med Excel, er testet mot dyp søk i en sammenligning av head-to-head:

- Excel Formula Creation: Copilot slet med formeloppretting på grunn av kravet til automatisk lagring, mens Deep Seek ga mer fleksible løsninger, løse problemer i færre forsøk [2].

-Excel Formula Forklaring: Copilot tilbød syntaksbaserte forklaringer, mens Deep Seek ga tydeligere, mer praktiske sammenbrudd av komplekse formler, noe som gjorde det mer brukervennlig [2].

Selv om Copilot ikke har blitt omfattende benchmarked på samme måte som DeepSeek på tvers av forskjellige resonnement og kodingsoppgaver, er det anerkjent for sine evner i kodingshjelp, spesielt i Microsoft -miljøer [4].

Sitasjoner:
[1] https://blogs.cisco.com/security/eValuating-scurity-Sisk-in-depeSeek-and-oTher-frontier-reasoning-Models
[2] https://www.mrexcel.com/board/threads/excel-copilot- versus-dep-seew-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-timate-showdown-chatgpt-vs-depseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek--1-model-overview-and-how-it-ranks-ainst-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-depseek-to-test-how-its-predict-compares-mot-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/