Deepseek a Copilot boli testované na rôzne referenčné hodnoty, ktoré predstavujú svoje schopnosti v rôznych oblastiach.
Deepseek Benchmarks
Deepseek, najmä jeho model R1, bol vyhodnotený v niekoľkých referenčných hodnotách:
- Benchmarky matematiky: Deepseek R1 účinkuje silne v matematike, v referenčnej hodnote AIME 2024 zaznamenal 79,8%, mierne pred Openai's O1-1217 na 79,2%. Na meradle Math-500 dosiahla Deepseek R1 pôsobivých 97,3%, čím prekonal Openaj's O1-1217 na 96,4%[3] [5].
- kódovanie referenčných referenčných hodnôt: Pri kódovacích úlohách Deepseek R1 dosiahol konkurencieschopný 96,3% v referenčnej hodnote CodeForces, pričom pozorne sledoval Openaj O1-1217 na 96,6%. Na overenej benchmarke SWE, Deepseek R1 zaznamenal 49,2%, mierne pred Openai's O1-1217 na 48,9%[3] [5].
- Benchmarky všeobecných znalostí: Deepseek R1 zaznamenal 71,5% na diamantovej referenčnej hodnote GPQA, koncový Openaj's O1-1217 na 75,7%. Na meradle MMLU dosiahol Deepseek R1 90,8%, mierne za Openaj's O1-1217 pri 91,8%[3] [5].
- Bezpečnosť a bezpečnosť: Deepseek R1 bol testovaný na bezpečnostné zraniteľné miesta pomocou referenčnej hodnoty Harbbench, ktorá zahŕňa kategórie, ako je počítačová kriminalita a dezinformácie. Model ukázal 100% mieru úspešnosti útoku, čo naznačuje významné obavy o bezpečnosť v porovnaní s inými modelmi, ako je Openaj's O1 [1].
Copilot Benchmarks
Copilot, konkrétne v kontexte programu Excel, bol testovaný proti hlbokému hľadaniu v porovnaní s hlavnou hlavou:
- Vytvorenie Formula Excel: Copilot zápasil s tvorbou vzorcov kvôli svojej požiadavke na automatické uloženie, zatiaľ čo spoločnosť Deep Seek poskytla flexibilnejšie riešenia a riešila problémy pri menšom pokusoch [2].
-Vysvetlenie Formula Excel: Copilot ponúkol vysvetlenia založené na syntaxe, zatiaľ čo spoločnosť Deep Seek poskytla jasnejšie a praktickejšie poruchy zložitých vzorcov, vďaka čomu je užívateľsky prívetivejšia [2].
Zatiaľ čo Copilot nebol intenzívne porovnávaný rovnakým spôsobom ako DeepSeek v rôznych úvahách a kódovacích úlohách, uznáva sa pre svoje schopnosti v oblasti kódovania, najmä v prostrediach spoločnosti Microsoft [4].
Citácie:
[1] https://blogs.cisco.com/security/evaluating-security- riSk-in-deepseek-and-other-other-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilo-Vereep-seek-head--head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
Https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilo-vs-qwen-vs-misral-3kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-model-wow-and-how-it-------- --naks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distel_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-t-Performance-compares-against-other-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on--azare-ai-ai-foundry-and-github/