DeepSeek veiktspēja humaneval un GSM8K etalonos

Kā DeepSeek sniegums etalonos, piemēram, humaneval un GSM8K, salīdzina ar citiem modeļiem

DeepSeek sniegums tādos etalonos kā Humaneval un GSM8K parāda tās konkurences priekšrocības lielo valodu modeļu ainavā (LLMS).

Performance Metrics

** Humaneval: DeepSeek vērtējums ir 73,78% no humanevāla etalona, kas novērtē kodēšanas spēju, izmantojot dažādus programmēšanas uzdevumus. Šis rezultāts to labvēlīgi pozicionē pret citiem vadošajiem modeļiem, ieskaitot Openai piedāvājumus, lai gan pieejamajos avotos nebija sīki aprakstīti īpaši salīdzinājumi ar tādiem modeļiem kā GPT-4 vai LLAMA 3.

** GSM8K: Problēmu risināšanas uzdevumos DeepSeek sasniedz iespaidīgu 84,1% GSM8K etalonā. Šis vērtējums atspoguļo tā spēju efektīvi rīkoties ar matemātisko spriešanu un sarežģītiem problēmu risināšanas scenārijiem.

efektivitāte un resursu izmantošana

DeepSeek arhitektūrā tiek izmantota Experts maisījuma (MOE) sistēma, aktivizējot tikai daļu no tā kopējiem parametriem (671 miljardu) uzdevumu laikā, īpaši aptuveni 37 miljardus. This selective activation not only enhances performance but also significantly reduces computational costs, allowing DeepSeek to achieve these benchmark scores with just 2.8 million GPU-hours, which is considerably lower than many other models that require more extensive resources for similar performance levels[2][ 3].

Salīdzinājums ar citiem modeļiem

Kaut arī meklēšanas rezultātos netika sniegti konkrēti tiešie salīdzinājumi ar tādiem modeļiem kā GPT-4, tiek atzīmēts, ka DeepSeek efektivitāte un atvērtā koda raksturs padara to par pievilcīgu alternatīvu izstrādātājiem, kuri varētu šķist patentēti risinājumi izmaksu samazināšanai. Modeļa spēja apstrādāt garos konteksta logus līdz 128k žetoniem, kas to vēl vairāk atšķir no daudziem konkurentiem, kas parasti atbalsta mazāk žetonu (parasti no 32K līdz 64K) [2] [3].

Rezumējot, DeepSeek demonstrē spēcīgu rezultātu galvenajos etalonos, vienlaikus saglabājot izmaksu efektivitāti un operatīvo efektivitāti, padarot to par ievērības cienīgu sāncensi mūsdienu LLM starpā.

Atsauces:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in -one-vietā
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1