Deepseek och Copilot har testats mot olika riktmärken och visar upp sina kapaciteter inom olika områden.
Deepseek riktmärken
Deepseek, särskilt dess R1 -modell, har utvärderats över flera riktmärken:
- Matematikens riktmärke: Deepseek R1 presterade starkt i matematik och gjorde 79,8% på AIME 2024-riktmärket, något före OpenAI: s O1-1217 vid 79,2%. På Math-500-riktmärket uppnådde Deepseek R1 imponerande 97,3%och överträffade OpenAI: s O1-1217 vid 96,4%[3] [5].
- Kodning av riktmärken: I kodningsuppgifter uppnådde DeepSeek R1 en konkurrenskraftig 96,3% på Codeforces-riktmärket och följde nära OpenAI: s O1-1217 vid 96,6%. På Swe-Bench Verified Benchmark fick Deepseek R1 49,2%, något före OpenAI: s O1-1217 vid 48,9%[3] [5].
- Allmänna kunskapsreenchmarks: Deepseek R1 fick 71,5% på GPQA Diamond-riktmärket, efter OpenAI: s O1-1217 vid 75,7%. På MMLU-riktmärket uppnådde Deepseek R1 90,8%, något bakom OpenAI: s O1-1217 vid 91,8%[3] [5].
- Säkerhet och säkerhet: Deepseek R1 testades för säkerhetssårbarheter med hjälp av HarmBench -benchmarken, som inkluderar kategorier som cyberbrott och felinformation. Modellen visade en framgångsgrad på 100% attacker, vilket indikerar betydande säkerhetsproblem jämfört med andra modeller som OpenAI: s O1 [1].
copilot riktmärken
Copilot, speciellt i samband med Excel, har testats mot Deep Seek i en jämförelse från huvud-till-huvudet:
- Excel Formel Creation: Copilot kämpade med skapandet av formel på grund av dess krav på Auto Save, medan Deep Seek gav mer flexibla lösningar, vilket löser problem i färre försök [2].
-Excel Formula Förklaring: Copilot erbjöd syntaxbaserade förklaringar, medan Deep SEEK gav tydligare, mer praktiska nedbrytningar av komplexa formler, vilket gör det mer användarvänligt [2].
Även om copilot inte har varit omfattande benchmarked på samma sätt som Deepseek över olika resonemang och kodningsuppgifter, erkänns det för sina kapaciteter i kodningshjälp, särskilt inom Microsoft -miljöer [4].
Citeringar:
]
]
[3] https://www.datacamp.com/blog/deepseek-r1
]
]
[6] https://www.reddit.com/r/localllamama/comments/1i5q6b9/deepseekr1_and_distilled_bencharks_color_coded/
]
]