Deepseek Performance na HumaneVal in GSM8K BREALKAME

Kako se uspešnost Deepseeka na merilih, kot sta Humaneval in GSM8K, primerja z drugimi modeli

Deepseekova uspešnost na merilih, kot sta Humaneval in GSM8K, prikazuje svojo konkurenčno prednost znotraj pokrajine velikih jezikovnih modelov (LLM).

Metrike uspešnosti

** Humaneval: Deepseek je ocenil 73,78% na Humanoval Reference, ki ocenjuje sposobnost kodiranja z različnimi programskimi nalogami. Ta rezultat je ugodno proti drugim vodilnim modelom, vključno s ponudbo OpenAI, čeprav posebne primerjave z modeli, kot sta GPT-4 ali LLAMA 3, v razpoložljivih virih niso bile podrobne.

** GSM8K: Pri nalogah za reševanje problemov Deepseek dosega impresivnih 84,1% na referenčni vrednosti GSM8K. Ta rezultat odraža njegovo sposobnost pri ravnanju z matematičnim sklepanjem in zapletenimi scenariji reševanja problemov.

Učinkovitost in izkoriščanje virov

Deepseekova arhitektura uporablja sistem mešanice eksperit (MOE), ki med nalogami aktivira le delček skupnih parametrov (671 milijard). Ta selektivna aktivacija ne samo povečuje uspešnost, ampak tudi znatno zmanjša računske stroške, kar omogoča Deepseeku, da doseže te referenčne ocene z le 2,8 milijona gpu ur, kar je bistveno nižje od številnih drugih modelov, ki zahtevajo obsežnejše vire za podobne ravni uspešnosti [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] 3].

Primerjava z drugimi modeli

Medtem ko posebne neposredne primerjave z modeli, kot je GPT-4, niso bile na voljo v rezultatih iskanja, je ugotovljeno, da je učinkovitost in odprtokodna narava Deepseek privlačna alternativa za razvijalce, ki bi lahko našli lastniške rešitve, ki niso stroškovni. Sposobnost modela za obvladovanje dolgih kontekstnih oken do 128K žetonov jo še dodatno razlikuje od številnih konkurentov, ki običajno podpirajo manj žetonov (običajno med 32K in 64K) [2] [3].

Če povzamemo, Deepseek prikazuje močno uspešnost na ključnih referenčnih vrednostih, hkrati pa ohranja stroškovno učinkovitost in operativno učinkovitost, s čimer je med sodobnimi LLM -ji pomemben kandidat.

Navedbe:
[1] https://artifialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-do-vezna-about-this-new-llm-in-one-flace
[3] https://artifialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931V1
[7] https://www.youtube.com/watch?v=bosvi3Hyhgi
[8] https://arxiv.org/html/2412.19437V1