A mélyszéket és a Copilot -ot különféle referenciaértékek ellen tesztelték, bemutatva képességeiket különböző területeken.
Mélység referenciaértékek
A DeepSeek -t, különösen az R1 modelljét, több referenciaértéken értékelték:
- Matematika Benchmarks: A DeepSeek R1 erőteljesen teljesített a matematikában, 79,8% -ot szerezve az AIME 2024 referenciaértékén, kissé meghaladva az OpenAI O1-1217-et, 79,2% -ot. A Math-500 referenciaértékén a DeepSeek R1 lenyűgöző 97,3%-ot ért el, és meghaladta az Openai O1-1217-et 96,4%-kal [3] [5].
- Kódolási referenciaértékek: A kódolási feladatokban a DeepSeek R1 versenyképes 96,3% -ot ért el a CodeForces referenciaértékén, szorosan követve az Openai O1-1217-et, 96,6% -ot. A Swe-Sench által ellenőrzött referenciaértéken a DeepSeek R1 49,2%-ot szerzett, kissé meghaladva az Openai O1-1217-et, 48,9%-ot [3] [5].
- Általános tudás Benchmarks: A DeepSeek R1 71,5% -ot szerzett a GPQA Diamond Benchmark-en, az OpenAI O1-1217 75,7% -át. Az MMLU referenciaértékén a DeepSeek R1 90,8%-ot ért el, kissé elmaradva az Openai O1-1217-et, 91,8%-kal [3] [5].
- Biztonság és biztonság: A DeepSeek R1 -et a HarmBench Benchmark segítségével tesztelték a biztonsági rés szempontjából, amely olyan kategóriákat tartalmaz, mint a számítógépes bűnözés és a téves információk. A modell 100% -os támadási sikerességi rátát mutatott, jelezve a jelentős biztonsági aggályokat, összehasonlítva más modellekkel, mint például az Openai O1 [1].
Copilot Benchmarks
A Copilot-ot, kifejezetten az Excel kontextusában, a mély kerek elleni összehasonlításban tesztelték:
- Excel Formula létrehozása: A Copilot az Auto Save -re vonatkozó követelménye miatt küzdött a képlet létrehozásával, míg a Deep Seek rugalmasabb megoldásokat nyújtott, kevesebb kísérletben megoldva a kérdéseket [2].
-Excel Formula Magyarázat: A Copilot szintaxis alapú magyarázatokat kínálott, míg a mély SEARS világosabb, gyakorlatibb bontást biztosított a komplex képletekről, így felhasználóbarátabbá vált [2].
Noha a Copilot nem volt széles körben összehasonlítva, ugyanúgy, mint a mélység a különféle érvelési és kódolási feladatok során, elismerték a kódolási támogatás képességei miatt, különösen a Microsoft környezetben [4].
Idézetek:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reason-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-heek-heek-he-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-miistal-33KD
[5] https://www.prompthub.us/blog/deepseek-r--model-overview-and-how-it-tanks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-the-thow-how-its-pleformance-compares-against-other-ai-w48368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-aVailable-on-azure---oundry-and-github/