Deepseek -suorituskyky HumanVal- ja GSM8K -vertailuarvoilla

Kuinka Deepseekin suorituskyky vertailuarvoilla, kuten HumanVal ja GSM8K, verrataan muihin malleihin

Deepseekin suorituskyky vertailuarvoilla, kuten HumanVal ja GSM8K, esittelee kilpailukykyisen reunan suurten kielimallien (LLMS) maisemassa.

Suorituskykymittarit

** HumanVal: DeepSeek pisteet 73,78% ihmisenvertaisella vertailuarvolla, joka arvioi koodauskykyä erilaisilla ohjelmointitehtävissä. Tämä pistemäärä asettaa sen suotuisasti muihin johtaviin malleihin, mukaan lukien Openain tarjoukset, vaikka erityisiä vertailuja malleihin, kuten GPT-4 tai LLAMA 3, ei ollut yksityiskohtaisesti käytettävissä olevissa lähteissä.

** GSM8K: Ongelmanratkaisutehtävissä DeepSeek saavuttaa vaikuttavan 84,1% GSM8K-vertailuarvolla. Tämä pistemäärä heijastaa sen kykyä käsitellä matemaattisia päättelyjä ja monimutkaisia ongelmanratkaisukkenaarioita tehokkaasti.

Tehokkuus ja resurssien käyttö

Deepseekin arkkitehtuurilla on sekoituskokousjärjestelmä (MOE), joka aktivoi vain murto-osan sen kokonaisparametreista (671 miljardia) tehtävien aikana, erityisesti noin 37 miljardia. Tämä selektiivinen aktivointi ei vain paranna suorituskykyä, vaan myös vähentää merkittävästi laskennallisia kustannuksia, jolloin Deepseek voi saavuttaa nämä vertailuarvopisteet vain 2,8 miljoonalla GPU-tunnilla, mikä on huomattavasti alhaisempi kuin monet muut mallit, jotka vaativat laajempia resursseja samanlaisille suorituskykytasoille [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] [2] 3].

Vertailu muihin malleihin

Vaikka hakutuloksissa ei ole annettu erityisiä suoria vertailuja GPT-4: n kaltaisiin malleihin, on huomattava, että Deepseekin tehokkuus ja avoimen lähdekoodin luonto tekevät siitä houkuttelevan vaihtoehdon kehittäjille, jotka saattavat löytää omistusratkaisuja kustannushyvän. Mallin kyky käsitellä pitkiä konteksti -ikkunoita, jotka ovat jopa 128 kt tokenia, erottaa sen edelleen monista kilpailijoista, jotka tukevat tyypillisesti vähemmän merkkejä (yleensä välillä 32–64k) [2] [3].

Yhteenvetona voidaan todeta, että Deepseek osoittaa vahvan suorituskyvyn keskeisissä vertailuarvoissa säilyttäen samalla kustannustehokkuuden ja toiminnan tehokkuuden, mikä tekee siitä huomionarvoisen kilpailijan nykyaikaisten LLM: ien keskuudessa.

Viittaukset:
[1] https://artificialanalysis.ai/models/deepseek-v3
.
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-R1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3HYHGI
[8] https://arxiv.org/html/2412.19437v1