Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Vilka specifika riktmärken har deepseek och copilot testats mot


Vilka specifika riktmärken har deepseek och copilot testats mot


Deepseek och Copilot har testats mot olika riktmärken och visar upp sina kapaciteter inom olika områden.

Deepseek riktmärken

Deepseek, särskilt dess R1 -modell, har utvärderats över flera riktmärken:

- Matematikens riktmärke: Deepseek R1 presterade starkt i matematik och gjorde 79,8% på AIME 2024-riktmärket, något före OpenAI: s O1-1217 vid 79,2%. På Math-500-riktmärket uppnådde Deepseek R1 imponerande 97,3%och överträffade OpenAI: s O1-1217 vid 96,4%[3] [5].

- Kodning av riktmärken: I kodningsuppgifter uppnådde DeepSeek R1 en konkurrenskraftig 96,3% på Codeforces-riktmärket och följde nära OpenAI: s O1-1217 vid 96,6%. På Swe-Bench Verified Benchmark fick Deepseek R1 49,2%, något före OpenAI: s O1-1217 vid 48,9%[3] [5].

- Allmänna kunskapsreenchmarks: Deepseek R1 fick 71,5% på GPQA Diamond-riktmärket, efter OpenAI: s O1-1217 vid 75,7%. På MMLU-riktmärket uppnådde Deepseek R1 90,8%, något bakom OpenAI: s O1-1217 vid 91,8%[3] [5].

- Säkerhet och säkerhet: Deepseek R1 testades för säkerhetssårbarheter med hjälp av HarmBench -benchmarken, som inkluderar kategorier som cyberbrott och felinformation. Modellen visade en framgångsgrad på 100% attacker, vilket indikerar betydande säkerhetsproblem jämfört med andra modeller som OpenAI: s O1 [1].

copilot riktmärken

Copilot, speciellt i samband med Excel, har testats mot Deep Seek i en jämförelse från huvud-till-huvudet:

- Excel Formel Creation: Copilot kämpade med skapandet av formel på grund av dess krav på Auto Save, medan Deep Seek gav mer flexibla lösningar, vilket löser problem i färre försök [2].

-Excel Formula Förklaring: Copilot erbjöd syntaxbaserade förklaringar, medan Deep SEEK gav tydligare, mer praktiska nedbrytningar av komplexa formler, vilket gör det mer användarvänligt [2].

Även om copilot inte har varit omfattande benchmarked på samma sätt som Deepseek över olika resonemang och kodningsuppgifter, erkänns det för sina kapaciteter i kodningshjälp, särskilt inom Microsoft -miljöer [4].

Citeringar:
]
]
[3] https://www.datacamp.com/blog/deepseek-r1
]
]
[6] https://www.reddit.com/r/localllamama/comments/1i5q6b9/deepseekr1_and_distilled_bencharks_color_coded/
]
]