Deepseek și Copilot au fost testate pe diferite repere, prezentându -și capacitățile în diferite zone.
Benchmarks Deepseek
Deepseek, în special modelul său R1, a fost evaluat pe mai multe repere:
- Benchmark-uri de matematică: Deepseek R1 s-a comportat puternic în matematică, marcând 79,8% pe referința AIME 2024, ușor înaintea OPENAI O1-1217 la 79,2%. Pe etalonul Math-500, Deepseek R1 a obținut un impresionant 97,3%, depășind OpenAI O1-1217 la 96,4%[3] [5].
- Codarea de referință: În sarcinile de codificare, Deepseek R1 a obținut un 96,3% competitiv pe referința CodeForces, urmând îndeaproape OpenAI O1-1217 la 96,6%. Pe referința SWE-Bench verificată, Deepseek R1 a marcat 49,2%, ușor înaintea O11-1217 de la OpenAI la 48,9%[3] [5].
- Repere generale de cunoștințe: Deepseek R1 a obținut 71,5% pe referința GPQA Diamond, urmând Openai O1-1217 la 75,7%. Pe referința MMLU, Deepseek R1 a obținut 90,8%, ușor în spatele O1-1217 al lui OpenAI la 91,8%[3] [5].
- Securitate și siguranță: Deepseek R1 a fost testat pentru vulnerabilitățile de securitate folosind Benchmark -ul HarmBench, care include categorii precum criminalitatea informatică și dezinformarea. Modelul a arătat o rată de succes de atac 100%, ceea ce indică probleme semnificative de securitate în comparație cu alte modele precum OpenAI O1 [1].
Copilot Benchmarks
Copilot, în special în contextul Excel, a fost testat împotriva căutării profunde într-o comparație din cap la cap:
- Crearea de formule Excel: Copilot s -a luptat cu crearea de formule datorită cerinței sale de economisire automată, în timp ce Seek Deep a oferit soluții mai flexibile, rezolvând probleme în mai puține încercări [2].
-Excel Formula Explicație: Copilotul a oferit explicații bazate pe sintaxă, în timp ce căutarea profundă a oferit defalcări mai clare și mai practice ale formulelor complexe, ceea ce o face mai ușor de utilizat [2].
În timp ce Copilot nu a fost comparativ pe larg, în același mod ca și Deepseek în diferite sarcini de raționament și codare, este recunoscut pentru capacitățile sale în asistența de codificare, în special în mediile Microsoft [4].
Citări:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-hother-frontier-reasoning-modele
]
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultime-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distiltle_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-eperformance-compares-against-ther-aai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/