Deepseek y copilot se han probado en varios puntos de referencia, mostrando sus capacidades en diferentes áreas.
Puntos de referencia de Deepseek
Deepseek, particularmente su modelo R1, ha sido evaluado en varios puntos de referencia:
- Matemáticas de referencia: Deepseek R1 se desempeñó fuertemente en matemáticas, obteniendo un 79.8% en el punto de referencia AIME 2024, ligeramente por delante del O1-1217 de OpenAi al 79.2%. En el punto de referencia Math-500, Deepseek R1 logró un impresionante 97.3%, superando el O1-1217 de OpenAI al 96.4%[3] [5].
- Codificación de puntos de referencia: en las tareas de codificación, Deepseek R1 logró un 96.3% competitivo en el punto de referencia de CodeForces, siguiendo de cerca el O1-1217 de OpenAI al 96.6%. En el punto de referencia verificado SWE-Bench, Deepseek R1 obtuvo un 49.2%, ligeramente por delante del O1-1217 de Opensei al 48.9%[3] [5].
- Partes de referencia de conocimiento general: Deepseek R1 obtuvo un 71.5% en el punto de referencia de diamantes GPQA, siguiendo el O1-1217 de OpenAI al 75.7%. En el punto de referencia MMLU, Deepseek R1 logró un 90.8%, ligeramente detrás de O1-1217 de OpenAI al 91.8%[3] [5].
- Seguridad y seguridad: Deepseek R1 se probó para detectar vulnerabilidades de seguridad utilizando el punto de referencia Harmbench, que incluye categorías como el delito cibernético y la información errónea. El modelo mostró una tasa de éxito de ataque del 100%, lo que indica preocupaciones de seguridad significativas en comparación con otros modelos como Openi's O1 [1].
puntos de referencia de copiloto
El copiloto, específicamente en el contexto de Excel, se ha probado contra la búsqueda profunda en una comparación cara a cabeza:
- Creación de fórmula de Excel: Copilot luchó con la creación de fórmula debido a su requisito de guardado automático, mientras que Deep Seek proporcionó soluciones más flexibles, resolviendo problemas en menos intentos [2].
-Explicación de la fórmula de Excel: Copilot ofreció explicaciones basadas en sintaxis, mientras que la búsqueda profunda proporcionó desgloses más claros y prácticos de fórmulas complejas, lo que lo hace más fácil de usar [2].
Si bien el copiloto no se ha comparado ampliamente de la misma manera que los profundos en varias tareas de razonamiento y codificación, se reconoce por sus capacidades en la asistencia de codificación, particularmente dentro de los entornos de Microsoft [4].
Citas:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and--tero-frontier-razoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-tead-to-headead-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-r-model-overview-and-how-it-ranks-gainst-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-performance-compares-gainst-ther-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/