Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Какие конкретные тесты были проверены на DeepSeek и Copilot


Какие конкретные тесты были проверены на DeepSeek и Copilot


DeepSeek и Copilot были протестированы на различных критериях, демонстрируя свои возможности в разных областях.

Deepseek Clarkmarks

DeepSeek, особенно ее модель R1, была оценена по нескольким критериям:

- Бесч математики: Deepseek R1 сильно выступил по математике, набрав 79,8% на тесте AIME 2024, немного опережая Operai O1-1217- 79,2%. На эталоне Math-500 Deepseek R1 добился впечатляющих 97,3%, превысив Openai O1-1217 на 96,4%[3] [5].

- Кодирование контрольных показателей: в задачах кодирования DeepSeek R1 достиг конкурентного 96,3% на тесте Codeforces, близко после OPERAI O1-1217 на 96,6%. На подтвержденном эталоне Swe-Bench Deepseek R1 набрал 49,2%, немного опережая Openai O1-1217 на 48,9%[3] [5].

- Общие значения знаний: Deepseek R1 набрал 71,5% на тесте GPQA Diamond, выступая Openai O1-1217 на 75,7%. На эталоне MMLU Deepseek R1 достиг 90,8%, немного отставая от Operai O1-1217 на 91,8%[3] [5].

- Безопасность и безопасность: DeepSeek R1 был протестирован на уязвимости безопасности с использованием эталона Harmbench, который включает в себя такие категории, как киберпреступность и дезинформация. Модель показала 100% успех атаки, что указывает на значительные проблемы безопасности по сравнению с другими моделями, такими как O1 OpenAI [1].

Copilot Benchmarks

Копилот, в частности, в контексте Excel, был протестирован с глубоким поиском в сфере сравнения:

- Создание формулы Excel: Copilot боролся с созданием формулы из -за его требований к автоматическому сохранению, в то время как Deep Seek предоставил более гибкие решения, решающие проблемы в меньших попытках [2].

-Excel Formula Объяснение: Copilot предлагает объяснения на основе синтаксисов, тогда как глубокий поиск обеспечивал более четкие, более практичные сбои сложных формул, что делает его более удобным для пользователя [2].

В то время как Copilot не был тесно связан так же, как DeepSeek для различных задач и кодирования, он признан своими возможностями в кодировании, особенно в средах Microsoft [4].

Цитаты:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reaseing-dels
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-heak-to-hepisode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-how-its-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/