Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kādam konkrētiem etaloniem ir pārbaudīts dziļš un kopilots


Kādam konkrētiem etaloniem ir pārbaudīts dziļš un kopilots


DeepSeek un Copilot ir pārbaudīti pret dažādiem etaloniem, parādot savas iespējas dažādās jomās.

DeepSeek etaloni

DeepSeek, it īpaši tā R1 modelis, ir novērtēts vairākos etalonos:

- Matemātikas etaloni: DeepSeek R1 spēcīgi darbojās matemātikā, gūstot 79,8% no AIME 2024 etalona, ​​nedaudz apsteidzot Openai O1-1217 pie 79,2%. Math-500 etalonā DeepSeek R1 sasniedza iespaidīgu 97,3%, pārsniedzot Openai O1-1217 pie 96,4%[3] [5].

- Kodēšanas etaloni: kodēšanas uzdevumos DeepSeek R1 sasniedza konkurētspējīgu 96,3% no CodeForces etalona, ​​cieši pēc Openai O1-1217 pie 96,6%. Uz SWE-bench verificētā etalona Deepseek R1 ieguva 49,2%, nedaudz apsteidzot Openai O1-1217 pie 48,9%[3] [5].

- Vispārējās zināšanu etaloni: DeepSeek R1 ieguva 71,5% GPQA Diamond etalonam, atverot Openai O1-1217 pie 75,7%. MMLU etalonā DeepSeek R1 sasniedza 90,8%, nedaudz aiz Openai O1-1217 pie 91,8%[3] [5].

- Drošība un drošība: DeepSeek R1 tika pārbaudīta drošības ievainojamība, izmantojot Harmbench etalonu, kas ietver tādas kategorijas kā kibernoziegumi un dezinformācija. Modelis parādīja 100% uzbrukuma panākumu līmeni, norādot uz būtiskām drošības problēmām, salīdzinot ar citiem modeļiem, piemēram, Openai O1 [1].

Kopilota etaloni

Kopilots, īpaši Excel kontekstā, ir pārbaudīts pret dziļo meklēšanu, salīdzinot ar galvu pret galvu:

- Excel formulas radīšana: Copilot cīnījās ar formulas radīšanu sakarā ar prasību pēc auto saglabāšanas, savukārt Deep Seet sniedza elastīgākus risinājumus, risinot jautājumus mazākos mēģinājumos [2].

-Excel formulas skaidrojums: Copilot piedāvāja sintakse balstītos skaidrojumus, turpretī Deep Seet sniedza skaidrāku, praktiskāku sarežģītu formulu sadalījumu, padarot to lietotājam draudzīgāku [2].

Kaut arī Copilot nav plaši salīdzināts tādā pašā veidā kā DeepSeek dažādos argumentācijas un kodēšanas uzdevumos, tas tiek atzīts par savām iespējām kodēšanas palīdzībā, jo īpaši Microsoft vidē [4].

Atsauces:
[1.]
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-eek-he-to-the-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
.
[5] https://www.prompthub.us/blog/deepseek--1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-depseek-to-the-test-how-ts-performance-compares-gainst-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-wayable-on-azure-ai-foundry-and-github/