Deepseek vs GPT-4: desempenho, eficiência e comparação de custos no Humaneval

Como o desempenho de Deepseek no Humaneval se compara ao GPT-4

O desempenho de Deepseek na referência Humaneval mostra uma vantagem notável sobre o GPT-4. Especificamente, o DeepSeek alcançou uma taxa de aprovação de 73,78% no Humaneval, que avalia os recursos de codificação, enquanto o GPT-4 obteve cerca de 67% em avaliações semelhantes [1] [2]. Isso indica que o Deepseek é mais eficaz na geração e solução de problemas de codificação em comparação com o GPT-4.

Em termos de eficiência, a DeepSeek utiliza uma arquitetura de mistura de especialistas (MOE) que ativa apenas 37 bilhões de seu total de 671 bilhões de parâmetros para tarefas, permitindo que ele mantenha alto desempenho com custos computacionais significativamente mais baixos de 214,3 vezes mais baratos que o GPT -4 para processamento de token [1] [2]. Essa eficiência se traduz em recursos de geração e depuração de código mais rápidos e precisos, tornando a DeepSeek uma escolha atraente para os desenvolvedores.

Além disso, a janela de contexto da Deepseek é substancialmente maior a 128 mil tokens, em comparação com o máximo de 8K do GPT-4, permitindo que ele lide com insumos mais extensos durante o processamento [1] [2]. Esse recurso pode ser particularmente vantajoso para tarefas de codificação complexas que exigem maior contexto.

No geral, o DeepSeek não apenas supera o GPT-4 em termos de desempenho de codificação no Humaneval, mas também oferece benefícios significativos de custo e eficiência, posicionando-se como uma forte alternativa no cenário de grandes modelos de linguagem.

Citações:
[1] https://daily.dev/blog/deepseek-everything-you-need-to-now-about-tis-new-llm-in-one-place
[2] https://docsbot.ai/models/compare/gpt-4/deepseek-v3
[3] https://www.reddit.com/r/chatgptcoding/comments/1fdrhbx/new_deepseekv25_model_scores_89_on_humaneval/
[4] https://aclanthology.org/2024.findings-acl.471.pdf
[5] https://deepseekcoder.github.io
[6] https://news.ycombinator.com/item?id=41999151
[7] https://www.deepseek.com
[8] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/