Deepseek vs Copilot: порівняння та можливості орієнтиру

Deepseek та Copilot були випробувані проти різних орієнтирів, демонструючи свої можливості в різних областях.

DeepSeek Benure

DeepSeek, особливо його модель R1, оцінюється через кілька орієнтирів:

- Математичні орієнтири: DeepSeek R1 сильно виступав з математики, набравши 79,8% на орієнтирі AIME 2024, трохи випереджаючи O1-1217 OpenAI на 79,2%. На орієнтирі Math-500 DeepSeek R1 досяг вражаючих 97,3%, перевершивши O1-1217 OpenAI на 96,4%[3] [5].

- Кодування орієнтирів: У завдань кодування DeepSeek R1 досяг конкурентоспроможного 96,3% на орієнтирі Codeforces, уважно стежив за O1-1217 OpenAI на 96,6%. На перевірці SWEE-Bench, DeepSeek R1 набрав 49,2%, трохи випереджаючи O1-1217 OpenAI на 48,9%[3] [5].

- Загальні орієнтири знань: DeepSeek R1 набрав 71,5% на еталонному еталону GPQA, відстаючи від O1-1217 OpenAI на 75,7%. На орієнтирі MMLU Deepseek R1 досяг 90,8%, трохи відстаючи від O1-1217 OpenAI на 91,8%[3] [5].

- Безпека та безпека: DeepSeek R1 був перевірений на вразливості безпеки за допомогою еталону Harmbench, що включає такі категорії, як кіберзлочинність та дезінформація. Модель показала 100 -відсотковий рівень успішності атаки, що свідчить про значні проблеми безпеки порівняно з іншими моделями, такими як O1 O1 [1].

Copilot internation

Copilot, зокрема в контексті Excel, був перевірений проти глибокого пошуку в порівнянні голови до голови:

- Створення формули Excel: Copilot боровся зі створенням формули через її вимогу щодо автозбереження, в той час як Deep Seek забезпечував більш гнучкі рішення, вирішуючи проблеми в меншій кількості спроб [2].

-Формула Excel Пояснення: Copilot запропонував пояснення на основі синтаксису, тоді як глибокий пошук забезпечив чіткіші, більш практичні розбиття складних формул, що робить його більш зручним для користувачів [2].

Незважаючи на те, що Copilot не був широко орієнтований таким же чином, як DeepSeek у різних завданнях міркувань та кодування, він визнаний своїми можливостями в кодуванні, особливо в середовищі Microsoft [4].

Цитати:
[1] https://blogs.cisco.com/security/evaluting-securit
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-fhe-fhe-pisode-2671.1269554/
[3] https://www.datacamp.com/blog/deepkeek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-how-its-performance-compares-against-her-ia-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/

Яких конкретних орієнтирів DeepSeek та Copilot були перевірені проти

DeepSeek Benure

Copilot internation