Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Aan welke specifieke benchmarks zijn deepseek en copilot getest


Aan welke specifieke benchmarks zijn deepseek en copilot getest


Deepseek en Copilot zijn getest op verschillende benchmarks, met hun mogelijkheden in verschillende gebieden.

Deepseek benchmarks

Deepseek, met name het R1 -model, is geëvalueerd in verschillende benchmarks:

- Wiskundige benchmarks: Deepseek R1 presteerde sterk in wiskunde en scoorde 79,8% op de Aime 2024-benchmark, iets vooruit op Openai's O1-1217 op 79,2%. Op de MATH-500-benchmark behaalde Deepseek R1 een indrukwekkende 97,3%en overtrof Openai's O1-1217 bij 96,4%[3] [5].

- Codeerbenchmarks: bij coderingstaken behaalde Deepseek R1 een concurrerende 96,3% op de CodeForces-benchmark, nauw na Openai's O1-1217 op 96,6%. Op de SWE-Bench-geverifieerde benchmark scoorde Deepseek R1 49,2%, iets voor Openai's O1-1217 op 48,9%[3] [5].

- Algemene kennisbenchmarks: Deepseek R1 scoorde 71,5% op de GPQA Diamond Benchmark, achter op Openai's O1-1217 op 75,7%. Op de MMLU-benchmark behaalde Deepseek R1 90,8%, iets achter Openai's O1-1217 op 91,8%[3] [5].

- Beveiliging en veiligheid: Deepseek R1 werd getest op beveiligingskwetsbaarheden met behulp van de HarmBench -benchmark, die categorieën zoals cybercriminaliteit en verkeerde informatie omvat. Het model vertoonde een 100% aanvalsucces, wat wijst op significante beveiligingsproblemen in vergelijking met andere modellen zoals Openai's O1 [1].

Copilot -benchmarks

Copilot, met name in de context van Excel, is getest tegen diep zoeken in een head-to-head vergelijking:

- Excel Formula Creation: Copilot worstelde met het maken van formule vanwege de vereiste voor automatische opslag, terwijl diepgaande zoek flexibelere oplossingen voorzag, problemen oplossen in minder pogingen [2].

-Excel-formule Verklaring: Copilot bood op syntaxis gebaseerde uitleg, terwijl Deep Sseek duidelijkere, meer praktische storingen van complexe formules bood, waardoor het gebruiksvriendelijker werd [2].

Hoewel Copilot niet uitgebreid op dezelfde manier is benchmarkt als Deepseek over verschillende redenerings- en coderingstaken, wordt het erkend voor de mogelijkheden ervan bij het coderen van hulp, met name binnen Microsoft -omgevingen [4].

Citaten:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-edepseek-and-other-frontier-rasoning-modellen
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-had-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs--gemini-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-re-model-overview-and-how-it-ranks-Against-Openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-t-test-how-it-it-Performance-compares-Against-Other-Ai-Tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-andub/