Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Katera specifična merila so preizkušena Deepseek in Copilot


Katera specifična merila so preizkušena Deepseek in Copilot


Deepseek in Copilot sta bila preizkušena na različnih merilih, ki prikazujejo svoje zmogljivosti na različnih področjih.

GEEPSEEK BERENCHAME

Deepseek, zlasti njegov model R1, je bil ovrednoten na več referenčnih vrednostih:

- Matematična merila: Deepseek R1 je močno nastopala v matematiki in dosegla 79,8% na referenčni meri AIME 2024, nekoliko pred OpenAI-jevim O1-1217 pri 79,2%. Na referenčnem merilu MATH-500 je Deepseek R1 dosegel impresivnih 97,3%, kar je preseglo OpenAI-jevega O1-1217 na 96,4%[3] [5].

- KODIRANJA RAZREDI: Pri kodiranju nalog je Deepseek R1 dosegel konkurenčno 96,3% na referenčnem merilu CodeForces, tesno po OpenAI-jevem O1-1217 pri 96,6%. Na referenčnem merilu SWE-Bench je Deepseek R1 dosegel 49,2%, kar je nekoliko pred OpenAI-jevim O1-1217 pri 48,9%[3] [5].

- Splošna merila znanja: Deepseek R1 je dosegel 71,5% na GPQA Diamond Benchmark, pri čemer je OpenAI-jev O1-1217 zaostajal pri 75,7%. Na referenčni meri MMLU je Deepseek R1 dosegel 90,8%, kar je nekoliko za OpenAI-jevim O1-1217 pri 91,8%[3] [5].

- Varnost in varnost: Deepseek R1 je bil testiran na varnostne ranljivosti z referenčno vrednostjo Harmbench, ki vključuje kategorije, kot sta kibernetska kriminaliteta in napačne informacije. Model je pokazal 100 -odstotno stopnjo uspešnosti napada, kar kaže na pomembne varnostne pomisleke v primerjavi z drugimi modeli, kot je OpenAI -jev O1 [1].

Merila za kopilot

Kopilot, zlasti v okviru Excela, je bil preizkušen proti Deep Seeku v primerjavi z glavo:

- Excel Formul Ustvarjanje: Copilot se je boril z ustvarjanjem formule zaradi svoje zahteve za samodejno varčevanje, medtem ko je Deep Seek zagotavljal bolj prilagodljive rešitve in reševanje vprašanj v manj poskusih [2].

-Excel Formula Pojasnilo: Copilot je ponudil razlage, ki temeljijo na skladbi, medtem ko je Deep Seek zagotavljal jasnejše, bolj praktične razčlenitve zapletenih formul, zaradi česar je bolj uporabniku prijazen [2].

Medtem ko Copilot ni bil obsežno primerjan na enak način kot Deepseek med različnimi nalogami sklepanja in kodiranja, je prepoznan po svojih zmožnostih pri kodiranju, zlasti v Microsoftovih okoljih [4].

Navedbe:
[1] https://blogs.cisco.com/security/evaluting-security-risk-in-diepseek-and-other-frontier-loasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemi-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversion.com/putting-deepseek-the-test-how-its-its-performance-Cosers-against-other-aai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-fountry-and-github/