Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Milliste konkreetsete võrdlusaluseid on Deepseek ja Copilotit testitud


Milliste konkreetsete võrdlusaluseid on Deepseek ja Copilotit testitud


Deepseekit ja Copilotit on testitud erinevate võrdlusalustega, mis tutvustavad nende võimeid erinevates piirkondades.

DEEPSEEK SINGUSTUSED

Deepseek, eriti selle R1 mudelit, on hinnatud mitmetes võrdlusalustes:

- Matemaatika võrdlusalused: Deepseek R1 esines tugevalt matemaatikas, kogudes AIME 2024 võrdlusaluse 79,8%, pisut ees OpenAi O1-1217-st 79,2% -l. Math-500 võrdlusalusel saavutas Deepseek R1 muljetavaldava 97,3%, ületades OpenAi O1-1217 96,4%[3] [5].

- Kodeerimise võrdlusalused: Kodeerimisülesannetes saavutas Deepseek R1 konkurentsivõimelise 96,3% CodeForces'i võrdlusalusel, järgides tähelepanelikult OpenAi O1-1217- 96,6%. SWE-pingil kontrollitud võrdlusalusel viskas Deepseek R1 49,2%, pisut kui OpenAi O1-1217, 48,9%[3] [5].

- Üldised teadmiste võrdlusalused: Deepseek R1 viskas GPQA Diamondi võrdlusaluse eest 71,5%, jälitades OpenAi O1-1217 75,7%. MMLU võrdlusalusel saavutas Deepseek R1 90,8%, pisut OpenAi O1-1217 taga, 91,8%[3] [5].

- Turvalisus ja ohutus: Deepseek R1 testiti turvaaukude osas, kasutades võrdlusaluse võrdlusalust, mis hõlmab selliseid kategooriaid nagu küberkuritegevus ja desinformatsioon. Mudel näitas 100% -lise rünnaku edukuse määra, mis näitab olulisi turvaprobleeme võrreldes teiste mudelitega, näiteks OpenAi O1 [1].

Copiloti võrdlusalused

Copilot, eriti Exceli kontekstis, on testitud sügava otsimise vastu pea-pähe:

- Exceli valemi loomine: Copilot võitles valemi loomisega tänu automaatse salvestamise nõudele, samal ajal kui Deep Sect pakkus paindlikumaid lahendusi, lahendades probleemid vähem katsetel [2].

-Exceli valemi seletus: Copilot pakkus süntaksipõhiseid selgitusi, samas kui sügav otsimine pakuti keerukate valemite selgemaid ja praktilisemaid jaotusi, muutes selle kasutajasõbralikumaks [2].

Kuigi Copiloti ei ole laialdaselt võrdlusaluselt võrreldud samamoodi nagu Deepseek erinevates mõttekäikudes ja kodeerimisülesannetes, tunnustatakse seda kodeerimisabi võimaluste tõttu, eriti Microsofti keskkonnas [4].

Tsitaadid:
]
]
[3] https://www.datacamp.com/blog/deepseek-r1
]
]
]
]
]