Deepseek та Copilot були випробувані проти різних орієнтирів, демонструючи свої можливості в різних областях.
DeepSeek Benure
DeepSeek, особливо його модель R1, оцінюється через кілька орієнтирів:
- Математичні орієнтири: DeepSeek R1 сильно виступав з математики, набравши 79,8% на орієнтирі AIME 2024, трохи випереджаючи O1-1217 OpenAI на 79,2%. На орієнтирі Math-500 DeepSeek R1 досяг вражаючих 97,3%, перевершивши O1-1217 OpenAI на 96,4%[3] [5].
- Кодування орієнтирів: У завдань кодування DeepSeek R1 досяг конкурентоспроможного 96,3% на орієнтирі Codeforces, уважно стежив за O1-1217 OpenAI на 96,6%. На перевірці SWEE-Bench, DeepSeek R1 набрав 49,2%, трохи випереджаючи O1-1217 OpenAI на 48,9%[3] [5].
- Загальні орієнтири знань: DeepSeek R1 набрав 71,5% на еталонному еталону GPQA, відстаючи від O1-1217 OpenAI на 75,7%. На орієнтирі MMLU Deepseek R1 досяг 90,8%, трохи відстаючи від O1-1217 OpenAI на 91,8%[3] [5].
- Безпека та безпека: DeepSeek R1 був перевірений на вразливості безпеки за допомогою еталону Harmbench, що включає такі категорії, як кіберзлочинність та дезінформація. Модель показала 100 -відсотковий рівень успішності атаки, що свідчить про значні проблеми безпеки порівняно з іншими моделями, такими як O1 O1 [1].
Copilot internation
Copilot, зокрема в контексті Excel, був перевірений проти глибокого пошуку в порівнянні голови до голови:
- Створення формули Excel: Copilot боровся зі створенням формули через її вимогу щодо автозбереження, в той час як Deep Seek забезпечував більш гнучкі рішення, вирішуючи проблеми в меншій кількості спроб [2].
-Формула Excel Пояснення: Copilot запропонував пояснення на основі синтаксису, тоді як глибокий пошук забезпечив чіткіші, більш практичні розбиття складних формул, що робить його більш зручним для користувачів [2].
Незважаючи на те, що Copilot не був широко орієнтований таким же чином, як DeepSeek у різних завданнях міркувань та кодування, він визнаний своїми можливостями в кодуванні, особливо в середовищі Microsoft [4].
Цитати:
[1] https://blogs.cisco.com/security/evaluting-securit
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-fhe-fhe-pisode-2671.1269554/
[3] https://www.datacamp.com/blog/deepkeek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-how-its-performance-compares-against-her-ia-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/