Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Яких конкретних орієнтирів DeepSeek та Copilot були перевірені проти


Яких конкретних орієнтирів DeepSeek та Copilot були перевірені проти


Deepseek та Copilot були випробувані проти різних орієнтирів, демонструючи свої можливості в різних областях.

DeepSeek Benure

DeepSeek, особливо його модель R1, оцінюється через кілька орієнтирів:

- Математичні орієнтири: DeepSeek R1 сильно виступав з математики, набравши 79,8% на орієнтирі AIME 2024, трохи випереджаючи O1-1217 OpenAI на 79,2%. На орієнтирі Math-500 DeepSeek R1 досяг вражаючих 97,3%, перевершивши O1-1217 OpenAI на 96,4%[3] [5].

- Кодування орієнтирів: У завдань кодування DeepSeek R1 досяг конкурентоспроможного 96,3% на орієнтирі Codeforces, уважно стежив за O1-1217 OpenAI на 96,6%. На перевірці SWEE-Bench, DeepSeek R1 набрав 49,2%, трохи випереджаючи O1-1217 OpenAI на 48,9%[3] [5].

- Загальні орієнтири знань: DeepSeek R1 набрав 71,5% на еталонному еталону GPQA, відстаючи від O1-1217 OpenAI на 75,7%. На орієнтирі MMLU Deepseek R1 досяг 90,8%, трохи відстаючи від O1-1217 OpenAI на 91,8%[3] [5].

- Безпека та безпека: DeepSeek R1 був перевірений на вразливості безпеки за допомогою еталону Harmbench, що включає такі категорії, як кіберзлочинність та дезінформація. Модель показала 100 -відсотковий рівень успішності атаки, що свідчить про значні проблеми безпеки порівняно з іншими моделями, такими як O1 O1 [1].

Copilot internation

Copilot, зокрема в контексті Excel, був перевірений проти глибокого пошуку в порівнянні голови до голови:

- Створення формули Excel: Copilot боровся зі створенням формули через її вимогу щодо автозбереження, в той час як Deep Seek забезпечував більш гнучкі рішення, вирішуючи проблеми в меншій кількості спроб [2].

-Формула Excel Пояснення: Copilot запропонував пояснення на основі синтаксису, тоді як глибокий пошук забезпечив чіткіші, більш практичні розбиття складних формул, що робить його більш зручним для користувачів [2].

Незважаючи на те, що Copilot не був широко орієнтований таким же чином, як DeepSeek у різних завданнях міркувань та кодування, він визнаний своїми можливостями в кодуванні, особливо в середовищі Microsoft [4].

Цитати:
[1] https://blogs.cisco.com/security/evaluting-securit
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-fhe-fhe-pisode-2671.1269554/
[3] https://www.datacamp.com/blog/deepkeek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-how-its-performance-compares-against-her-ia-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/