DeepSeek vs Copilot: Srovnání a schopnosti benchmarku

S jakým konkrétním měřítkem byly testovány Deepseek a Copilot

Deepseek a Copilot byli testováni proti různým měřítkům a představili své schopnosti v různých oblastech.

DeepSeek Benchmarks

Deepseek, zejména jeho model R1, byl vyhodnocen v několika benchmarcích:

- Matematické benchmarky: Deepseek R1 silně hrál v matematice a zaznamenal 79,8% na benchmarku AIME 2024, mírně před OpenAI O1-1217 na 79,2%. Na benchmarku Math-500 dosáhl Deepseek R1 působivých 97,3%a překonal OpenAI O1-1217 na 96,4%[3] [5].

- Coding Benchmarks: V úkolech kódování dosáhl Deepseek R1 konkurenční 96,3% na benchmarku CodeForces a úzce sledoval OpenAI O1-1217 na 96,6%. Na ověřeném benchmarku SWE-Bench skóroval Deepseek R1 49,2%, mírně před OpenAI O1-1217 při 48,9%[3] [5].

- Benchmarky Obecných znalostí: Deepseek R1 skóroval 71,5% na benchmarku GPQA Diamond, což slezilo OpenAI O1-1217 na 75,7%. Na benchmarku MMLU dosáhl Deepseek R1 90,8%, mírně za OpenAI O1-1217 při 91,8%[3] [5].

- Bezpečnost a bezpečnost: Deepseek R1 byl testován na bezpečnostní zranitelnosti pomocí benchmarku HardBench, který zahrnuje kategorie, jako je počítačová kriminalita a dezinformace. Model ukázal 100% úspěšnost útoku, což naznačuje významné bezpečnostní obavy ve srovnání s jinými modely, jako je OpenAI's O1 [1].

Copilot Benchmarks

Copilot, konkrétně v souvislosti s Excelem, byl testován proti Deep Seek ve srovnání s hlavou k hlavě:

- Vytváření vzorců Excel: Copilot bojoval s vytvářením vzorců kvůli jeho požadavku na auto, zatímco Deep Seek poskytoval flexibilnější řešení a vyřešil problémy při menších pokusech [2].

-Excel Vzorec Vysvětlení: Copilot nabídl vysvětlení založená na syntaxi, zatímco Deep Seek poskytoval jasnější a praktičtější poruchy složitých vzorců, což je uživatelsky přívětivější [2].

Přestože Copilot nebyl rozsáhle srovnáván stejným způsobem jako hluboký hledání v různých úkolech a kódování, je uznáván za své schopnosti v oblasti kódování, zejména v prostředí Microsoft [4].

Citace:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-Frontier-Reasoning-Models
[2] https://www.mrexcel.com/board/threads/excel-copilot-vers-deep-seek-head-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepSeeKr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-its-its-performance-comprares-against-theor-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure--woundry-and-github/