DeepSeek Performance na referenčných hodnotách Humaneval a GSM8K

Ako porovnáva výkon Deepseek v referenčných hodnotách ako Humaneval a GSM8K s inými modelmi

Výkon Deepseek v referenčných hodnotách ako Humaneval a GSM8K predstavuje svoju konkurenčnú výhodu v krajine veľkých jazykových modelov (LLMS).

výkonné metriky

** HumaneVal: Deepseek skóre 73,78% v humánnej referenčnej hodnote, ktorá hodnotí schopnosť kódovania prostredníctvom rôznych programovacích úloh. Toto skóre je priaznivo oproti iným popredným modelom vrátane ponúk OpenAi, hoci konkrétne porovnania s modelmi ako GPT-4 alebo Llama 3 neboli podrobne opísané v dostupných zdrojoch.

** GSM8K: V úlohách riešenia problémov Deepseek dosahuje pôsobivých 84,1% v referenčnej hodnote GSM8K. Toto skóre odráža jeho schopnosť pri efektívnom riešení matematického zdôvodnenia a zložitých scenárov riešenia problémov.

Efektívnosť a využitie zdrojov

Architektúra spoločnosti DeepSeek používa systém zmesi expertov (MOE), ktorý počas úloh aktivuje iba zlomok svojich celkových parametrov (671 miliárd) počas úloh okolo 37 miliárd. Táto selektívna aktivácia nielen zvyšuje výkon, ale tiež výrazne znižuje výpočtové náklady, čo umožňuje Deepseek dosiahnuť tieto referenčné skóre iba s iba 2,8 miliónmi GPU hodiny, čo je podstatne nižšie ako mnoho iných modelov, ktoré si vyžadujú rozsiahlejšie zdroje pre podobné úrovne výkonu [2] [2] [2] [2] [ 3].

Porovnanie s ostatnými modelmi

Zatiaľ čo konkrétne priame porovnanie s modelmi, ako je GPT-4, neboli poskytnuté vo výsledkoch vyhľadávania, je potrebné poznamenať, že efektívnosť spoločnosti DeepSeek a príroda s otvoreným zdrojom z neho robia atraktívnu alternatívu pre vývojárov, ktorí môžu nájsť proprietárne riešenia nákladov. Schopnosť modelu zvládnuť dlhé kontextové okná až do 128 000 žetónov, ktorá ho ďalej odlišuje od mnohých konkurentov, ktoré zvyčajne podporujú menej žetónov (zvyčajne medzi 32 k a 64 k) [2] [3].

Stručne povedané, Deepseek demonštruje silný výkon v kľúčových referenčných hodnotách a zároveň zachováva nákladovú efektívnosť a prevádzkovú efektívnosť, čím sa stáva pozoruhodným uchádzačom medzi súčasnými LLM.

Citácie:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-eed-to-know-about-about-this-new-llm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3Hyhgi
[8] https://arxiv.org/html/2412.19437v1