DeepSeek Performance on Humaneval и GSM8K Benchmarks

Как производительность DeepSeek на тестах, таких как Humaneval и GSM8K, сравнивается с другими моделями

Выступление DeepSeek на тестах, таких как Humaneval и GSM8K, демонстрирует свое конкурентное преимущество в ландшафте крупных языковых моделей (LLMS).

Метрики производительности

** Humaneval: Deepseek набирает 73,78% по эталону Humaneval, который оценивает способность кодирования с помощью различных задач программирования. Этот балл позиционирует его выгодно против других ведущих моделей, включая предложения Openai, хотя конкретные сравнения с такими моделями, как GPT-4 или Llama 3, не были подробно описаны в доступных источниках.

** GSM8K: В задачах по решению проблем DeedSeek достигает впечатляющих 84,1% на эталоне GSM8K. Этот показатель отражает его способность эффективно обрабатывать математические рассуждения и сложные сценарии решения проблем.

эффективность и использование ресурсов

В архитектуре DeepSeek используется система смеси экспертов (MOE), активируя лишь часть своей общей параметров (671 миллиард) во время задач, в частности, около 37 миллиардов. Эта селективная активация не только повышает производительность, но и значительно снижает вычислительные затраты, позволяя DeepSeek достичь этих эталонных баллов всего 2,8 миллиона графических часов, что значительно ниже, чем у многих других моделей, которые требуют более обширных ресурсов для аналогичных уровней производительности [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] 3].

Сравнение с другими моделями

Хотя конкретные прямые сравнения с такими моделями, как GPT-4, не были предоставлены в результатах поиска, отмечается, что эффективность DeepSeek и природа с открытым исходным кодом делают его привлекательной альтернативой для разработчиков, которые могут найти запатентованные решения. Способность модели обрабатывать длинные контекстные окна до 128 тыс. Токенов еще больше отличает ее от многих конкурентов, что обычно поддерживает меньше токенов (обычно между 32K и 64K) [2] [3].

Таким образом, DeepSeek демонстрирует сильную производительность в отношении ключевых критериев, сохраняя при этом эффективность затрат и оперативную эффективность, что делает его примечательным соперником среди современных LLM.

Цитаты:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3Hyhgi
[8] https://arxiv.org/html/2412.19437v1