Deepseekit ja Copilotit on testitud erinevate võrdlusalustega, mis tutvustavad nende võimeid erinevates piirkondades.
DEEPSEEK SINGUSTUSED
Deepseek, eriti selle R1 mudelit, on hinnatud mitmetes võrdlusalustes:
- Matemaatika võrdlusalused: Deepseek R1 esines tugevalt matemaatikas, kogudes AIME 2024 võrdlusaluse 79,8%, pisut ees OpenAi O1-1217-st 79,2% -l. Math-500 võrdlusalusel saavutas Deepseek R1 muljetavaldava 97,3%, ületades OpenAi O1-1217 96,4%[3] [5].
- Kodeerimise võrdlusalused: Kodeerimisülesannetes saavutas Deepseek R1 konkurentsivõimelise 96,3% CodeForces'i võrdlusalusel, järgides tähelepanelikult OpenAi O1-1217- 96,6%. SWE-pingil kontrollitud võrdlusalusel viskas Deepseek R1 49,2%, pisut kui OpenAi O1-1217, 48,9%[3] [5].
- Üldised teadmiste võrdlusalused: Deepseek R1 viskas GPQA Diamondi võrdlusaluse eest 71,5%, jälitades OpenAi O1-1217 75,7%. MMLU võrdlusalusel saavutas Deepseek R1 90,8%, pisut OpenAi O1-1217 taga, 91,8%[3] [5].
- Turvalisus ja ohutus: Deepseek R1 testiti turvaaukude osas, kasutades võrdlusaluse võrdlusalust, mis hõlmab selliseid kategooriaid nagu küberkuritegevus ja desinformatsioon. Mudel näitas 100% -lise rünnaku edukuse määra, mis näitab olulisi turvaprobleeme võrreldes teiste mudelitega, näiteks OpenAi O1 [1].
Copiloti võrdlusalused
Copilot, eriti Exceli kontekstis, on testitud sügava otsimise vastu pea-pähe:
- Exceli valemi loomine: Copilot võitles valemi loomisega tänu automaatse salvestamise nõudele, samal ajal kui Deep Sect pakkus paindlikumaid lahendusi, lahendades probleemid vähem katsetel [2].
-Exceli valemi seletus: Copilot pakkus süntaksipõhiseid selgitusi, samas kui sügav otsimine pakuti keerukate valemite selgemaid ja praktilisemaid jaotusi, muutes selle kasutajasõbralikumaks [2].
Kuigi Copiloti ei ole laialdaselt võrdlusaluselt võrreldud samamoodi nagu Deepseek erinevates mõttekäikudes ja kodeerimisülesannetes, tunnustatakse seda kodeerimisabi võimaluste tõttu, eriti Microsofti keskkonnas [4].
Tsitaadid:
]
]
[3] https://www.datacamp.com/blog/deepseek-r1
]
]
]
]
]