Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hvilke specifikke benchmarks er dybseek og copilot blevet testet imod


Hvilke specifikke benchmarks er dybseek og copilot blevet testet imod


Deepseek og copilot er testet mod forskellige benchmarks og viser deres kapacitet i forskellige områder.

Deepseek benchmarks

Deepseek, især dens R1 -model, er blevet evalueret på tværs af flere benchmarks:

- Matematik Benchmarks: Deepseek R1 optrådte stærkt i matematik og scorede 79,8% på AIME 2024-benchmark, lidt foran Openais O1-1217 på 79,2%. På Math-500-benchmarket opnåede Deepseek R1 en imponerende 97,3%og overgik Openais O1-1217 ved 96,4%[3] [5].

- Kodning af benchmarks: I kodningsopgaver opnåede DeepSeek R1 en konkurrencedygtig 96,3% på Codeforces benchmark, der tæt fulgte Openais O1-1217 på 96,6%. På SWE-Bench-verificeret benchmark scorede Deepseek R1 49,2%, lidt foran Openais O1-1217 på 48,9%[3] [5].

- Generel viden Benchmarks: Deepseek R1 scorede 71,5% på GPQA Diamond Benchmark, der trak Openais O1-1217 på 75,7%. På MMLU-benchmarket opnåede Deepseek R1 90,8%, lidt bag Openais O1-1217 på 91,8%[3] [5].

- Sikkerhed og sikkerhed: Deepseek R1 blev testet for sikkerhedssårbarheder ved hjælp af Harmbench -benchmark, som inkluderer kategorier som cyberkriminalitet og forkert information. Modellen viste en 100% angrebssuccesrate, hvilket indikerer betydelige sikkerhedsmæssige bekymringer sammenlignet med andre modeller som Openais O1 [1].

Copilot benchmarks

Copilot, specifikt i sammenhæng med Excel, er testet mod dybt søgning i en sammenligning fra head-to-head:

- Excel Formula Oprettelse: Copilot kæmpede med oprettelse af formel på grund af dets krav til auto -gemme, mens Deep Seek gav mere fleksible løsninger, hvor de blev opløsende i færre forsøg [2].

-Excel Formula Forklaring: Copilot tilbød syntaksbaserede forklaringer, hvorimod Deep Search gav klarere, mere praktiske sammenbrud af komplekse formler, hvilket gjorde det mere brugervenligt [2].

Mens Copilot ikke er blevet omfattende benchmarket på samme måde som Deepseek på tværs af forskellige ræsonnement og kodningsopgaver, anerkendes den for sine kapaciteter i kodningshjælp, især inden for Microsoft -miljøer [4].

Citater:
)
)
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
)
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-how-its-performance-compares-gentainst-a-ai-tools-248368
)