Deepseek in Copilot sta bila preizkušena na različnih merilih, ki prikazujejo svoje zmogljivosti na različnih področjih.
GEEPSEEK BERENCHAME
Deepseek, zlasti njegov model R1, je bil ovrednoten na več referenčnih vrednostih:
- Matematična merila: Deepseek R1 je močno nastopala v matematiki in dosegla 79,8% na referenčni meri AIME 2024, nekoliko pred OpenAI-jevim O1-1217 pri 79,2%. Na referenčnem merilu MATH-500 je Deepseek R1 dosegel impresivnih 97,3%, kar je preseglo OpenAI-jevega O1-1217 na 96,4%[3] [5].
- KODIRANJA RAZREDI: Pri kodiranju nalog je Deepseek R1 dosegel konkurenčno 96,3% na referenčnem merilu CodeForces, tesno po OpenAI-jevem O1-1217 pri 96,6%. Na referenčnem merilu SWE-Bench je Deepseek R1 dosegel 49,2%, kar je nekoliko pred OpenAI-jevim O1-1217 pri 48,9%[3] [5].
- Splošna merila znanja: Deepseek R1 je dosegel 71,5% na GPQA Diamond Benchmark, pri čemer je OpenAI-jev O1-1217 zaostajal pri 75,7%. Na referenčni meri MMLU je Deepseek R1 dosegel 90,8%, kar je nekoliko za OpenAI-jevim O1-1217 pri 91,8%[3] [5].
- Varnost in varnost: Deepseek R1 je bil testiran na varnostne ranljivosti z referenčno vrednostjo Harmbench, ki vključuje kategorije, kot sta kibernetska kriminaliteta in napačne informacije. Model je pokazal 100 -odstotno stopnjo uspešnosti napada, kar kaže na pomembne varnostne pomisleke v primerjavi z drugimi modeli, kot je OpenAI -jev O1 [1].
Merila za kopilot
Kopilot, zlasti v okviru Excela, je bil preizkušen proti Deep Seeku v primerjavi z glavo:
- Excel Formul Ustvarjanje: Copilot se je boril z ustvarjanjem formule zaradi svoje zahteve za samodejno varčevanje, medtem ko je Deep Seek zagotavljal bolj prilagodljive rešitve in reševanje vprašanj v manj poskusih [2].
-Excel Formula Pojasnilo: Copilot je ponudil razlage, ki temeljijo na skladbi, medtem ko je Deep Seek zagotavljal jasnejše, bolj praktične razčlenitve zapletenih formul, zaradi česar je bolj uporabniku prijazen [2].
Medtem ko Copilot ni bil obsežno primerjan na enak način kot Deepseek med različnimi nalogami sklepanja in kodiranja, je prepoznan po svojih zmožnostih pri kodiranju, zlasti v Microsoftovih okoljih [4].
Navedbe:
[1] https://blogs.cisco.com/security/evaluting-security-risk-in-diepseek-and-other-frontier-loasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemi-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversion.com/putting-deepseek-the-test-how-its-its-performance-Cosers-against-other-aai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-fountry-and-github/