DeepSeek Performance на орієнтирах Humaneval та GSM8K

Як продуктивність DeepSeek на таких показниках, як Humaneval та GSM8K, порівнюється з іншими моделями

Виступ DeepSeek на орієнтирах, таких як Humaneval та GSM8K, демонструє свою конкурентну перевагу в ландшафті великих мовних моделей (LLMS).

показники продуктивності

** Humaneval: DeepSeek оцінює 73,78% на гаманівальний орієнтир, який оцінює здатність кодування за допомогою різних завдань програмування. Цей показник позиціонує його вигідно проти інших провідних моделей, включаючи пропозиції OpenAI, хоча конкретні порівняння з такими моделями, як GPT-4 або Llama 3, не були детально описані у наявних джерелах.

** GSM8K: У завданнях вирішення проблем DeepSeek досягає вражаючих 84,1% на орієнтирі GSM8K. Цей показник відображає його здатність для ефективного поводження з математичними міркуваннями та складними сценаріями вирішення проблем.

Ефективність та використання ресурсів

Архітектура DeepSeek використовує систему суміші-експертів (МОЕ), активуючи лише частку загальних параметрів (671 мільярд) під час завдань, зокрема близько 37 мільярдів. Ця селективна активація не тільки підвищує продуктивність, але й значно знижує обчислювальні витрати, що дозволяє DeepSeek досягти цих показників з лише 2,8 мільйона годин GPU, що значно нижчий, ніж багато інших моделей, які потребують більш широких ресурсів для подібних рівнів продуктивності [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [ 3].

Порівняння з іншими моделями

Незважаючи на те, що конкретні прямі порівняння з такими моделями, як GPT-4, не були надані в результатах пошуку, відзначається, що ефективність та природа DeepSeek та природа з відкритим кодом роблять це привабливою альтернативою для розробників, які можуть знайти власні рішення, що надаються економічними витратами. Можливість моделі обробляти довгі контекстні вікна до 128 тис. Токенів ще більше відрізняє її від багатьох конкурентів, що, як правило, підтримує менше жетонів (як правило, від 32 к і 64 к) [2] [3].

Підсумовуючи це, DeepSeek демонструє сильну ефективність ключових орієнтирів, зберігаючи при цьому ефективність витрат та ефективність роботи, що робить його помітним суперником серед сучасних LLM.

Цитати:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1