DeepSeek un Copilot ir pārbaudīti pret dažādiem etaloniem, parādot savas iespējas dažādās jomās.
DeepSeek etaloni
DeepSeek, it īpaši tā R1 modelis, ir novērtēts vairākos etalonos:
- Matemātikas etaloni: DeepSeek R1 spēcīgi darbojās matemātikā, gūstot 79,8% no AIME 2024 etalona, nedaudz apsteidzot Openai O1-1217 pie 79,2%. Math-500 etalonā DeepSeek R1 sasniedza iespaidīgu 97,3%, pārsniedzot Openai O1-1217 pie 96,4%[3] [5].
- Kodēšanas etaloni: kodēšanas uzdevumos DeepSeek R1 sasniedza konkurētspējīgu 96,3% no CodeForces etalona, cieši pēc Openai O1-1217 pie 96,6%. Uz SWE-bench verificētā etalona Deepseek R1 ieguva 49,2%, nedaudz apsteidzot Openai O1-1217 pie 48,9%[3] [5].
- Vispārējās zināšanu etaloni: DeepSeek R1 ieguva 71,5% GPQA Diamond etalonam, atverot Openai O1-1217 pie 75,7%. MMLU etalonā DeepSeek R1 sasniedza 90,8%, nedaudz aiz Openai O1-1217 pie 91,8%[3] [5].
- Drošība un drošība: DeepSeek R1 tika pārbaudīta drošības ievainojamība, izmantojot Harmbench etalonu, kas ietver tādas kategorijas kā kibernoziegumi un dezinformācija. Modelis parādīja 100% uzbrukuma panākumu līmeni, norādot uz būtiskām drošības problēmām, salīdzinot ar citiem modeļiem, piemēram, Openai O1 [1].
Kopilota etaloni
Kopilots, īpaši Excel kontekstā, ir pārbaudīts pret dziļo meklēšanu, salīdzinot ar galvu pret galvu:
- Excel formulas radīšana: Copilot cīnījās ar formulas radīšanu sakarā ar prasību pēc auto saglabāšanas, savukārt Deep Seet sniedza elastīgākus risinājumus, risinot jautājumus mazākos mēģinājumos [2].
-Excel formulas skaidrojums: Copilot piedāvāja sintakse balstītos skaidrojumus, turpretī Deep Seet sniedza skaidrāku, praktiskāku sarežģītu formulu sadalījumu, padarot to lietotājam draudzīgāku [2].
Kaut arī Copilot nav plaši salīdzināts tādā pašā veidā kā DeepSeek dažādos argumentācijas un kodēšanas uzdevumos, tas tiek atzīts par savām iespējām kodēšanas palīdzībā, jo īpaši Microsoft vidē [4].
Atsauces:
[1.]
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-eek-he-to-the-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
.
[5] https://www.prompthub.us/blog/deepseek--1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-depseek-to-the-test-how-ts-performance-compares-gainst-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-wayable-on-azure-ai-foundry-and-github/