Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kokie specifiniai etalonai buvo išbandomi nuo „Deepseee“ ir „Copilot“


Kokie specifiniai etalonai buvo išbandomi nuo „Deepseee“ ir „Copilot“


„Deepseek“ ir „Copilot“ buvo išbandyti pagal įvairius etalonus, parodant jų galimybes skirtingose ​​srityse.

„Deepseee“ etalonai

„Deepseek“, ypač jo R1 modelis, buvo įvertintas keliuose etalonuose:

- Matematikos etalonai: „Deepseek R1“ stipriai atliko matematiką ir įvertino 79,8% „Aime 2024“ etalone, šiek tiek aplenkdamas Openai O1-1217- 79,2%. „Math-500“ etalone „Deepseek R1“ pasiekė įspūdingą 97,3%, pranokdamas „Openai“ O1-1217, esant 96,4%[3] [5].

- Kodavimo etalonai: Atlikdami kodavimo užduotis, „Deepseeek R1“ pasiekė konkurencingą 96,3% „Codeforces“ etaloną, atidžiai po „Openai“ O1-1217- 96,6%. „SWE-Bench“ patikrintame etalone „Deepseek R1“ surinko 49,2%, šiek tiek aplenkdamas „Openai“ O1-1217-48,9%[3] [5].

- Bendrosios žinios etalonai: „Deepseeek R1“ pelnė 71,5% „GPQA Diamond“ etalone, o „Openai“ O1-1217- 75,7%. Ant MMLU etalono „Deepseek R1“ pasiekė 90,8%, šiek tiek atsilikdamas nuo Opos O1-1217, esant 91,8%[3] [5].

- Saugumas ir saugumas: „Deepseek R1“ buvo išbandytas dėl saugumo pažeidžiamumų, naudojant „Harmbench“ etaloną, kuris apima tokias kategorijas kaip elektroninis nusikaltimas ir dezinformacija. Modelis parodė 100% puolimo sėkmės procentą, rodantį didelę saugumo problemą, palyginti su kitais modeliais, tokiais kaip „Openai“ O1 [1].

„Copilot“ etalonai

„Copilot“, konkrečiai atsižvelgiant į „Excel“, buvo išbandytas prieš „Gilum“ palyginimą: palyginus galvą į galvą:

- „Excel“ formulės kūrimas: „Copilot“ kovojo su formulės kūrimu dėl jos reikalavimo išsaugoti automatinį, o „Deep Seek“ pateikė lankstesnius sprendimus, išsprendžiant problemas mažiau bandymų [2].

-„Excel Formula“ paaiškinimas: „Copilot“ siūlo sintaksę pagrįstus paaiškinimus, tuo tarpu „Deep Seek“ pateikė aiškesnius, praktiškesnius sudėtingų formulių suskirstymus, todėl tai tampa patogesnė vartotojui [2].

Nors „Copilot“ nebuvo plačiai pažymėtas tokiu pat būdu, kaip ir „Deepseek“ įvairiose samprotavimo ir kodavimo užduotyse, jis pripažįstamas už savo galimybes koduojant pagalbą, ypač „Microsoft“ aplinkoje [4].

Citatos:
[1] https://blogs.cisco.com/security/evaluating-securityris -risk-in-deepseek-and-ther-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-tohead-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-utimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its- itformance-compares-against-ther-aiols-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-avable-on-azure-ai-foundry-and-github/