Deepseek en Copilot zijn getest op verschillende benchmarks, met hun mogelijkheden in verschillende gebieden.
Deepseek benchmarks
Deepseek, met name het R1 -model, is geëvalueerd in verschillende benchmarks:
- Wiskundige benchmarks: Deepseek R1 presteerde sterk in wiskunde en scoorde 79,8% op de Aime 2024-benchmark, iets vooruit op Openai's O1-1217 op 79,2%. Op de MATH-500-benchmark behaalde Deepseek R1 een indrukwekkende 97,3%en overtrof Openai's O1-1217 bij 96,4%[3] [5].
- Codeerbenchmarks: bij coderingstaken behaalde Deepseek R1 een concurrerende 96,3% op de CodeForces-benchmark, nauw na Openai's O1-1217 op 96,6%. Op de SWE-Bench-geverifieerde benchmark scoorde Deepseek R1 49,2%, iets voor Openai's O1-1217 op 48,9%[3] [5].
- Algemene kennisbenchmarks: Deepseek R1 scoorde 71,5% op de GPQA Diamond Benchmark, achter op Openai's O1-1217 op 75,7%. Op de MMLU-benchmark behaalde Deepseek R1 90,8%, iets achter Openai's O1-1217 op 91,8%[3] [5].
- Beveiliging en veiligheid: Deepseek R1 werd getest op beveiligingskwetsbaarheden met behulp van de HarmBench -benchmark, die categorieën zoals cybercriminaliteit en verkeerde informatie omvat. Het model vertoonde een 100% aanvalsucces, wat wijst op significante beveiligingsproblemen in vergelijking met andere modellen zoals Openai's O1 [1].
Copilot -benchmarks
Copilot, met name in de context van Excel, is getest tegen diep zoeken in een head-to-head vergelijking:
- Excel Formula Creation: Copilot worstelde met het maken van formule vanwege de vereiste voor automatische opslag, terwijl diepgaande zoek flexibelere oplossingen voorzag, problemen oplossen in minder pogingen [2].
-Excel-formule Verklaring: Copilot bood op syntaxis gebaseerde uitleg, terwijl Deep Sseek duidelijkere, meer praktische storingen van complexe formules bood, waardoor het gebruiksvriendelijker werd [2].
Hoewel Copilot niet uitgebreid op dezelfde manier is benchmarkt als Deepseek over verschillende redenerings- en coderingstaken, wordt het erkend voor de mogelijkheden ervan bij het coderen van hulp, met name binnen Microsoft -omgevingen [4].
Citaten:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-edepseek-and-other-frontier-rasoning-modellen
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-had-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs--gemini-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-re-model-overview-and-how-it-ranks-Against-Openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-t-test-how-it-it-Performance-compares-Against-Other-Ai-Tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-andub/