„Deepseek“ ir „Copilot“ buvo išbandyti pagal įvairius etalonus, parodant jų galimybes skirtingose srityse.
„Deepseee“ etalonai
„Deepseek“, ypač jo R1 modelis, buvo įvertintas keliuose etalonuose:
- Matematikos etalonai: „Deepseek R1“ stipriai atliko matematiką ir įvertino 79,8% „Aime 2024“ etalone, šiek tiek aplenkdamas Openai O1-1217- 79,2%. „Math-500“ etalone „Deepseek R1“ pasiekė įspūdingą 97,3%, pranokdamas „Openai“ O1-1217, esant 96,4%[3] [5].
- Kodavimo etalonai: Atlikdami kodavimo užduotis, „Deepseeek R1“ pasiekė konkurencingą 96,3% „Codeforces“ etaloną, atidžiai po „Openai“ O1-1217- 96,6%. „SWE-Bench“ patikrintame etalone „Deepseek R1“ surinko 49,2%, šiek tiek aplenkdamas „Openai“ O1-1217-48,9%[3] [5].
- Bendrosios žinios etalonai: „Deepseeek R1“ pelnė 71,5% „GPQA Diamond“ etalone, o „Openai“ O1-1217- 75,7%. Ant MMLU etalono „Deepseek R1“ pasiekė 90,8%, šiek tiek atsilikdamas nuo Opos O1-1217, esant 91,8%[3] [5].
- Saugumas ir saugumas: „Deepseek R1“ buvo išbandytas dėl saugumo pažeidžiamumų, naudojant „Harmbench“ etaloną, kuris apima tokias kategorijas kaip elektroninis nusikaltimas ir dezinformacija. Modelis parodė 100% puolimo sėkmės procentą, rodantį didelę saugumo problemą, palyginti su kitais modeliais, tokiais kaip „Openai“ O1 [1].
„Copilot“ etalonai
„Copilot“, konkrečiai atsižvelgiant į „Excel“, buvo išbandytas prieš „Gilum“ palyginimą: palyginus galvą į galvą:
- „Excel“ formulės kūrimas: „Copilot“ kovojo su formulės kūrimu dėl jos reikalavimo išsaugoti automatinį, o „Deep Seek“ pateikė lankstesnius sprendimus, išsprendžiant problemas mažiau bandymų [2].
-„Excel Formula“ paaiškinimas: „Copilot“ siūlo sintaksę pagrįstus paaiškinimus, tuo tarpu „Deep Seek“ pateikė aiškesnius, praktiškesnius sudėtingų formulių suskirstymus, todėl tai tampa patogesnė vartotojui [2].
Nors „Copilot“ nebuvo plačiai pažymėtas tokiu pat būdu, kaip ir „Deepseek“ įvairiose samprotavimo ir kodavimo užduotyse, jis pripažįstamas už savo galimybes koduojant pagalbą, ypač „Microsoft“ aplinkoje [4].
Citatos:
[1] https://blogs.cisco.com/security/evaluating-securityris -risk-in-deepseek-and-ther-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-tohead-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-utimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its- itformance-compares-against-ther-aiols-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-avable-on-azure-ai-foundry-and-github/