Deepseek jõudlus Humanevali ja GSM8K võrdlusalustel

Kuidas võrreldakse Deepseeki jõudlust sellistes võrdlusalustes nagu Humaneval ja GSM8K teiste mudelitega

Deepseeki jõudlus sellistel võrdlusalustel nagu Humaneval ja GSM8K tutvustab oma konkurentsi serva suurte keelemudelite (LLMS) maastikus.

Performance mõõdikud

** Humaneval: Deepseek hindab 73,78% Humanevali võrdlusalusel, mis hindab kodeerimisvõimet erinevate programmeerimisülesannete kaudu. See skoor positsioneerib seda soodsalt teiste juhtivate mudelite suhtes, sealhulgas OpenAi pakkumistega, ehkki konkreetsetes allikates ei olnud üksikasjalikud konkreetseid võrdlusi selliste mudelitega nagu GPT-4 või LEMA 3.

** GSM8K: probleemide lahendamise ülesannetes saavutab Deepseek muljetavaldava 84,1% GSM8K võrdlusalusel. See tulemus kajastab selle suutlikkust matemaatiliste mõttekäikude ja keerukate probleemide lahendamise stsenaariumide tõhususes.

Tõhusus ja ressursside kasutamine

Deepseeki arhitektuur kasutab ekspertide segu (MOE) süsteemi, aktiveerides ülesannete ajal vaid murdosa koguparameetritest (671 miljardit). See valikuline aktiveerimine mitte ainult ei suurenda jõudlust, vaid vähendab ka märkimisväärselt arvutuskulusid, võimaldades DeepSEEKil saavutada neid võrdlusaluse tulemusi vaid 2,8 miljoni GPU tunniga, mis on tunduvalt madalam kui paljud teised mudelid, mis vajavad ulatuslikumaid ressursse sarnaste jõudlustasemete jaoks [2] [2] [2] 3].

Võrdlus teiste mudelitega

Kuigi konkreetseid otseseid võrdlusi selliste mudelitega nagu GPT-4 ei pakutud otsingutulemustes, märgitakse, et Deepseeki tõhusus ja avatud lähtekoodiga olemus muudavad selle atraktiivseks alternatiiviks arendajatele, kes võivad leida patenteeritud lahendusi kuludega. Mudeli võime käsitleda kuni 128 000 žetooniga pikkade kontekstide akende eristab seda paljudest konkurentidest, mis tavaliselt toetavad vähem märke (tavaliselt vahemikus 32–64K) [2] [3].

Kokkuvõtlikult näitab Deepseek tugevat tulemuslikkust võtmevõlakirjades, säilitades samal ajal kulutõhususe ja operatiivse tõhususe, muutes selle tänapäevaste LLM -ide seas tähelepanuväärseks kandidaadiks.

Tsitaadid:
[1] https://artificialanalysis.ai/models/deepseek-v3
]
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=BOSVI3HYHGI
[8] https://arxiv.org/html/2412.19437v1