Deepseek Performance no Humaneval e GSM8K Benchmarks

Como o desempenho de Deepseek em benchmarks como Humaneval e GSM8K se compara a outros modelos

O desempenho da Deepseek em benchmarks como Humaneval e GSM8K mostra sua vantagem competitiva dentro da paisagem de grandes modelos de idiomas (LLMS).

Métricas de desempenho

** HumaneVal: Deepseek obtém 73,78% no benchmark Humaneval, que avalia a capacidade de codificação por meio de várias tarefas de programação. Essa pontuação posiciona favoravelmente em outros modelos líderes, incluindo as ofertas da Openai, embora comparações específicas com modelos como GPT-4 ou LLAMA 3 não tenham sido detalhadas nas fontes disponíveis.

** GSM8K: Em tarefas de solução de problemas, a DeepSeek alcança impressionantes 84,1% na referência GSM8K. Essa pontuação reflete sua capacidade de lidar com o raciocínio matemático e os complexos cenários de solução de problemas de maneira eficaz.

Eficiência e utilização de recursos

A arquitetura da Deepseek emprega um sistema de mistura de especialistas (MOE), ativando apenas uma fração de seus parâmetros totais (671 bilhões) durante tarefas especificamente cerca de 37 bilhões. Essa ativação seletiva não apenas aumenta o desempenho, mas também reduz significativamente os custos computacionais, permitindo que a DeepSeek alcance essas pontuações de referência com apenas 2,8 milhões de horas de GPU, o que é consideravelmente menor do que muitos outros modelos que requerem recursos mais extensos para níveis de desempenho semelhantes [2] [ 3].

Comparação com outros modelos

Embora comparações diretas específicas com modelos como o GPT-4 não tenham sido fornecidas nos resultados da pesquisa, observa-se que a eficiência e a natureza de código aberto da Deepseek o tornam uma alternativa atraente para os desenvolvedores que podem encontrar soluções proprietárias proibitivas. A capacidade do modelo de lidar com janelas de contexto longo de até 128 mil tokens o distingue ainda de muitos concorrentes, que normalmente suportam menos tokens (geralmente entre 32k e 64k) [2] [3].

Em resumo, a Deepseek demonstra forte desempenho nos principais benchmarks, mantendo a eficiência de custos e a eficácia operacional, tornando -o um candidato notável entre os LLMs contemporâneos.

Citações:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-to-now-about-tis-new-llm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1