Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Quali parametri di riferimento specifici sono stati testati in profondità e copilota


Quali parametri di riferimento specifici sono stati testati in profondità e copilota


DeepSeek e Copilot sono stati testati contro vari parametri di riferimento, mettendo in mostra le loro capacità in diverse aree.

Benchmark di DeepSeek

DeepSeek, in particolare il suo modello R1, è stato valutato su diversi parametri:

- Benchmark di matematica: Deepseek R1 si è esibito fortemente in matematica, segnando il 79,8% sul benchmark AIME 2024, leggermente prima dell'O1-1217 di Openi al 79,2%. Sul punto di riferimento di Math-500, DeepSeek R1 ha raggiunto un impressionante 97,3%, superando O1-1217 di Openi al 96,4%[3] [5].

- Benchmark di codifica: nelle attività di codifica, DeepSeek R1 ha raggiunto un 96,3% competitivo sul benchmark Codeforces, seguendo da vicino O1-1217 di Openi al 96,6%. Sul punto di riferimento verificato da Bench SWECH, Deepseek R1 ha segnato il 49,2%, leggermente prima dell'O1-1217 di Openi al 48,9%[3] [5].

- Benchmark di conoscenza generale: DeepSeek R1 ha segnato il 71,5% sul benchmark GPQA Diamond, percorsi O1-1217 di Openai al 75,7%. Sul punto di riferimento MMLU, DeepSeek R1 ha raggiunto il 90,8%, leggermente dietro O1-1217 di Openi al 91,8%[3] [5].

- Sicurezza e sicurezza: DeepSeek R1 è stato testato per le vulnerabilità della sicurezza utilizzando il benchmark Harmbench, che include categorie come il crimine informatico e la disinformazione. Il modello ha mostrato un tasso di successo di attacco al 100%, indicando significativi problemi di sicurezza rispetto ad altri modelli come O1 di Openi [1].

benchmark di copilota

Il copilota, in particolare nel contesto di Excel, è stato testato contro Deep Seek in un confronto testa a testa:

- Creazione di formula Excel: Copilot ha lottato con la creazione di formula a causa del suo requisito per il salvataggio automatico, mentre Deep Seek ha fornito soluzioni più flessibili, risolvendo i problemi in meno tentativi [2].

-Excel Formula Spiegazione: Copilot ha offerto spiegazioni basate sulla sintassi, mentre Deep Seek ha fornito guasti più chiari e più pratici di formule complesse, rendendolo più intuitivo [2].

Sebbene il Copilot non sia stato ampiamente confrontato allo stesso modo di DeepSeek attraverso vari compiti di ragionamento e codifica, è riconosciuto per le sue capacità nell'assistenza alla codifica, in particolare all'interno degli ambienti Microsoft [4].

Citazioni:
[1] https://blogs.cisco.com/security/evaluating-security-prisk-in-deepseek-and-other-frontier-ragioning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.pompthub.us/blog/deepseek-1-model-overview-and-how-it-larks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-performance -compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-res