Deepseek vs Copilot: Benchmark -sammenligning og kapaciteter

Hvilke specifikke benchmarks er dybseek og copilot blevet testet imod

Deepseek og copilot er testet mod forskellige benchmarks og viser deres kapacitet i forskellige områder.

Deepseek benchmarks

Deepseek, især dens R1 -model, er blevet evalueret på tværs af flere benchmarks:

- Matematik Benchmarks: Deepseek R1 optrådte stærkt i matematik og scorede 79,8% på AIME 2024-benchmark, lidt foran Openais O1-1217 på 79,2%. På Math-500-benchmarket opnåede Deepseek R1 en imponerende 97,3%og overgik Openais O1-1217 ved 96,4%[3] [5].

- Kodning af benchmarks: I kodningsopgaver opnåede DeepSeek R1 en konkurrencedygtig 96,3% på Codeforces benchmark, der tæt fulgte Openais O1-1217 på 96,6%. På SWE-Bench-verificeret benchmark scorede Deepseek R1 49,2%, lidt foran Openais O1-1217 på 48,9%[3] [5].

- Generel viden Benchmarks: Deepseek R1 scorede 71,5% på GPQA Diamond Benchmark, der trak Openais O1-1217 på 75,7%. På MMLU-benchmarket opnåede Deepseek R1 90,8%, lidt bag Openais O1-1217 på 91,8%[3] [5].

- Sikkerhed og sikkerhed: Deepseek R1 blev testet for sikkerhedssårbarheder ved hjælp af Harmbench -benchmark, som inkluderer kategorier som cyberkriminalitet og forkert information. Modellen viste en 100% angrebssuccesrate, hvilket indikerer betydelige sikkerhedsmæssige bekymringer sammenlignet med andre modeller som Openais O1 [1].

Copilot benchmarks

Copilot, specifikt i sammenhæng med Excel, er testet mod dybt søgning i en sammenligning fra head-to-head:

- Excel Formula Oprettelse: Copilot kæmpede med oprettelse af formel på grund af dets krav til auto -gemme, mens Deep Seek gav mere fleksible løsninger, hvor de blev opløsende i færre forsøg [2].

-Excel Formula Forklaring: Copilot tilbød syntaksbaserede forklaringer, hvorimod Deep Search gav klarere, mere praktiske sammenbrud af komplekse formler, hvilket gjorde det mere brugervenligt [2].

Mens Copilot ikke er blevet omfattende benchmarket på samme måde som Deepseek på tværs af forskellige ræsonnement og kodningsopgaver, anerkendes den for sine kapaciteter i kodningshjælp, især inden for Microsoft -miljøer [4].

Citater:
)
)
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
)
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-how-its-performance-compares-gentainst-a-ai-tools-248368
)