Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Quais benchmarks específicos foram testados e copilot contra


Quais benchmarks específicos foram testados e copilot contra


Deepseek e Copilot foram testados contra vários benchmarks, apresentando suas capacidades em diferentes áreas.

Deepseek Benchmarks

Deepseek, particularmente seu modelo R1, foi avaliado em vários benchmarks:

- Benchmarks de matemática: Deepseek R1 teve um desempenho fortemente em matemática, pontuando 79,8% na referência Aime 2024, ligeiramente à frente do O1-1217 da Openai, a 79,2%. Na referência Math-500, o Deepseek R1 alcançou 97,3%impressionante, superando o O1-1217 da OpenAI a 96,4%[3] [5].

- Benchmarks de codificação: Nas tarefas de codificação, o DeepSeek R1 alcançou 96,3% competitivo no benchmark do código, seguindo de perto o OpenAI O1-1217 a 96,6%. No benchmark verificado do banco do SWE, o Deepseek R1 marcou 49,2%, ligeiramente à frente do O1-1217 do OpenAI a 48,9%[3] [5].

- Benchmarks de conhecimento geral: Deepseek R1 marcou 71,5% no benchmark de diamantes GPQA, seguindo o O1-1217 do OpenAI a 75,7%. No benchmark MMLU, o Deepseek R1 alcançou 90,8%, ligeiramente atrás do O1-1217 da Openai a 91,8%[3] [5].

- Segurança e segurança: o Deepseek R1 foi testado quanto a vulnerabilidades de segurança usando o benchmark Harmbench, que inclui categorias como crimes cibernéticos e desinformação. O modelo mostrou uma taxa de sucesso de ataque de 100%, indicando preocupações significativas de segurança em comparação com outros modelos como o Open O1 [1].

Copilot Benchmarks

O copiloto, especificamente no contexto do Excel, foi testado contra a busca profunda em uma comparação frente a frente:

- Criação da fórmula do Excel: O copiloto lutou com a criação de fórmula devido ao seu requisito para salvar automaticamente, enquanto a busca profunda forneceu soluções mais flexíveis, resolvendo problemas em menos tentativas [2].

-Explicação da fórmula do Excel: O copilot ofereceu explicações baseadas em sintaxe, enquanto a busca profunda forneceu quebras mais claras e práticas de fórmulas complexas, tornando-a mais fácil de usar [2].

Embora o copiloto não tenha sido amplamente comparado da mesma maneira que a Deepseek em várias tarefas de raciocínio e codificação, é reconhecido por suas capacidades na assistência de codificação, principalmente nos ambientes da Microsoft [4].

Citações:
[1] https://blogs.cisco.com/security/evaluating-security-bisk-in-deepseek-and-other-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-weate-d-cabeça-cabeça-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gimini-vs-copilot-vs -qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-ow-its-permance-compares-against-outros-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-avilable-on-azure-ai-foundry-and-github/