„Deepseek“ pasirodymas tokiuose etalonuose kaip „Humaneval“ ir „GSM8K“ demonstruoja savo konkurencinį pranašumą didelių kalbų modelių (LLMS) kraštovaizdyje.
Performanso metrika
** Humaneva: „Deepseek“ surinko 73,78% „Humaneval“ etalono, kuris įvertina kodavimo gebėjimus atliekant įvairias programavimo užduotis. Šis balas teigiamai įvertina kitus pagrindinius modelius, įskaitant „Openai“ pasiūlymus, nors konkretūs palyginimai su tokiais modeliais kaip GPT-4 ar LLAMA 3 nebuvo išsamūs turimuose šaltiniuose.
** GSM8K: Atliekant problemų sprendimo užduotis, „Deepseek“ pasiekia įspūdingą 84,1% GSM8K etaloną. Šis balas atspindi jo galimybes tvarkyti matematinius samprotavimus ir efektyviai sudėtingus problemų sprendimo scenarijus.
efektyvumo ir išteklių panaudojimas
„Deepseek“ architektūroje naudojama ekspertų mišinio (MOE) sistema, suaktyvinanti tik dalį jos visų parametrų (671 milijardo) atliekant užduotis, konkrečiai apie 37 milijardus. Šis selektyvus aktyvavimas ne tik padidina našumą, bet ir žymiai sumažina skaičiavimo sąnaudas, leidžiančias „Deepseek“ pasiekti šiuos etaloninius balus tik 2,8 mln. 3].
palyginimas su kitais modeliais
Nors konkretūs tiesioginiai palyginimai su tokiais modeliais kaip GPT-4 nebuvo pateikiami paieškos rezultatuose, pažymima, kad „Deepseek“ efektyvumas ir atvirojo kodo pobūdis daro jį patrauklia alternatyva kūrėjams, kurie gali rasti patentuotų sprendimų išlaidų. Modelio gebėjimas tvarkyti ilgus kontekstinius langus iki 128K žetonų dar labiau išskiria jį iš daugelio konkurentų, kurie paprastai palaiko mažiau žetonų (paprastai nuo 32k iki 64K) [2] [3].
Apibendrinant galima pasakyti, kad „Deepseek“ demonstruoja stiprius svarbiausių etalonų rezultatus, išlaikydamas ekonominį efektyvumą ir efektyvumą, todėl tai yra pastebimas varžovas tarp šiuolaikinių LLM.
Citatos:[1] https://artifialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-eed-to-know-out-out-new-llm-in-on-once-Place
[3] https://artifialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1