Deepseek vs Copilot: comparaison et capacités de référence

À quoi les repères spécifiques ont été testés sur Deepseek et Copilot

Deepseek et Copilot ont été testés contre divers repères, présentant leurs capacités dans différents domaines.

Benchmarks Deepseek

Deepseek, en particulier son modèle R1, a été évalué à travers plusieurs repères:

- Benchmarks de mathématiques: Deepseek R1 a fortement fonctionné en mathématiques, marquant 79,8% sur la référence AIME 2024, légèrement en avance sur l'O1-1217 d'Openai à 79,2%. Sur la référence MATH-500, Deepseek R1 a atteint un impressionnant 97,3%, dépassant l'O1-1217 d'OpenAI à 96,4% [3] [5].

- Benchmarks de codage: Dans les tâches de codage, Deepseek R1 a atteint un 96,3% compétitif sur la référence de Codeforces, suivant de près O1-1217 d'OpenAI à 96,6%. Sur la référence vérifiée SWE-Bench, Deepseek R1 a marqué 49,2%, légèrement en avance sur l'O1-1217 d'Openai à 48,9% [3] [5].

- Benchmarks de connaissances générales: Deepseek R1 a marqué 71,5% sur le benchmark en diamant GPQA, en suivant l'O1-1217 d'Openai à 75,7%. Sur la référence MMLU, Deepseek R1 a atteint 90,8%, légèrement derrière l'O1-1217 d'Openai à 91,8% [3] [5].

- Sécurité et sécurité: Deepseek R1 a été testé pour des vulnérabilités de sécurité à l'aide de la référence Harbbench, qui comprend des catégories comme la cybercriminalité et la désinformation. Le modèle a montré un taux de réussite d'attaque de 100%, indiquant des problèmes de sécurité importants par rapport à d'autres modèles comme O1 d'OpenAI [1].

Benchmarks Copilot

Copilot, spécifiquement dans le contexte d'Excel, a été testé contre Deep Seek dans une comparaison principale:

- Création de formule Excel: Copilot a lutté avec la création de formules en raison de ses besoins pour la sauvegarde automatique, tandis que Deep Seek a fourni des solutions plus flexibles, résolvant les problèmes en moins de tentatives [2].

- Formule Excel Explication: Copilot a offert des explications basées sur la syntaxe, tandis que Deep Seek a fourni des pannes plus claires et plus pratiques de formules complexes, ce qui le rend plus convivial [2].

Bien que Copilot n'ait pas été largement comparé de la même manière que Deepseek sur diverses tâches de raisonnement et de codage, il est reconnu pour ses capacités d'assistance au codage, en particulier dans les environnements Microsoft [4].

Citations:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-eepseek-and-other-fratier-reasoning-modes
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distould_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-performance-compres-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-founry-and-github/