Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DeepseekとCopilotがテストされた特定のベンチマークは何ですか


DeepseekとCopilotがテストされた特定のベンチマークは何ですか


DeepseekとCopilotは、さまざまなベンチマークに対してテストされており、さまざまな領域で機能を紹介しています。

deepseekベンチマーク

Deepseek、特にR1モデルは、いくつかのベンチマークで評価されています。

- 数学のベンチマーク:Deepseek R1は数学で強くパフォーマンスを発揮し、AIME 2024ベンチマークで79.8%を獲得し、OpenaiのO1-1217をわずかに上回って79.2%に達しました。 Math-500ベンチマークでは、Deepseek R1は97.3%の印象的な97.3%を達成し、OpenaiのO1-1217を96.4%[3] [5]で上回りました。

- ベンチマークのコーディング:タスクのコーディングでは、DeepSeek R1はCodeForcesベンチマークで競争力のある96.3%を達成し、OpenAIのO1-1217を96.6%に密接に追跡しました。 SWEベンチの検証済みベンチマークでは、DeepSeek R1は49.2%を獲得し、OpenaiのO1-1217をわずかに48.9%で獲得しました[3] [5]。

- 一般知識ベンチマーク:Deepseek R1は、GPQAダイヤモンドベンチマークで71.5%を獲得し、OpenaiのO1-1217を75.7%で追いました。 MMLUベンチマークでは、Deepseek R1は90.8%を達成し、OpenaiのO1-1217にわずかに遅れて91.8%[3] [5]。

- セキュリティと安全性:Deepseek R1は、サイバー犯罪や誤報などのカテゴリを含むHarmbenchベンチマークを使用して、セキュリティの脆弱性についてテストされました。モデルは100%の攻撃成功率を示し、OpenaiのO1のような他のモデルと比較して重大なセキュリティ上の懸念を示しています[1]。

Copilotベンチマーク

Copilotは、特にExcelのコンテキストで、真正な比較で深いシークに対してテストされています。

- Excelフォーミュラの作成:Copilotは自動保存の要件によりフォーミュラの作成に苦労しましたが、Deep Seekはより柔軟なソリューションを提供し、より少ない試みで問題を解決しました[2]。

- Excel式の説明:Copilotは構文ベースの説明を提供しましたが、Deep Seekは複雑な式のより明確で実用的な内訳を提供し、よりユーザーフレンドリーにします[2]。

Copilotは、さまざまな推論およびコーディングタスクにわたってDeepSeekと同じ方法で広範囲にベンチマークされていませんが、特にMicrosoft環境内でのコーディング支援の能力が認識されています[4]。

引用:
[1] https://blogs.cisco.com/security/evaluating-security-indeepseekとその他のfrontier-rasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the- gultimate-showdody-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distild_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-the-test-how-its-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-azure-ai-foundry-and-github/