Salīdzinot DeepSEEK-R1 un GPT-4O-0513 veiktspēju CodeForces etalonā, parādās vairākas galvenās atšķirības:
1. CodeForces vērtējums: DeepSEEK-R1 sasniedz 2029. gada kodeksa vērtējumu, kas ir ievērojami augstāks nekā GPT-4O-0513 vērtējums 759. Tas norāda, ka DeepSEEK-R1 daudz labāk darbojas konkurences kodēšanas uzdevumos, parādot spēcīgāku algoritmisko spriešanu un kodēšanas spējas [2] [5].
2. CodeForces procentīle: DeepSeek-R1 vērtējums ir 96,3%procentīli, atspoguļojot tā augsto cilvēku dalībnieku vidū. Turpretī GPT-4O-0513 sasniedz tikai 23,6%procentīli, izceļot būtisku plaisu to relatīvā veiktspējas līmenī [2] [5].
3. Kopējais sniegums: DeepSEEK-R1 augstāks vērtējums un procentīle liecina, ka tas ir prasmīgāks, risinot sarežģītus kodēšanas izaicinājumus un pielāgojoties CodeForces konkurences videi. Lai arī GPT-4O-0513, lai arī tas ir spējīgs, neatbilst DeepSeek-R1 prasmes līmenim šajā jomā.
4. Izmaksas un efektivitāte: GPT-4O tiek atzīmēts, ka tas ir aptuveni 4,6 reizes dārgāks nekā DeepSEEK-R1 ievades un izvades žetoniem, kas varētu būt nozīmīgs faktors lietotājiem par prioritāti izvirzīt izmaksu efektivitāti [3].
Rezumējot, DeepSEEK-R1 pārspēj GPT-4O-0513 par CodeForces etalonu ar ievērojamu rezervi gan vērtējuma, gan procentīles ziņā. Tas padara DeepSEEK-R1 par efektīvāku izvēli uzdevumiem, kuriem nepieciešama spēcīga kodēšana un algoritmiskās spriešanas prasmes.
Atsauces:
[1] https://ithy.com/article/openai-o1-vs-o3-benchmark-analysis-zy5f3bwj
.
[3] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://huggingface.co/deepseek-ai/deepseek-r1-distill-qwen-1.5b
[6.]
[7] https://codeforces.com/blog/entry/133874
[8] https://www.reddit.com/r/localllama/comments/1em4nr5/the_new_gpt4o20240806_scores_the_same_as_original/