Deepseek-R1 vs GPT-4O pada Benchmark AIME 2024: Perbandingan Kinerja

Bagaimana kinerja Deepseek-R1 di Benchmark AIME 2024 Dibandingkan dengan model lain seperti GPT-4O-0513

Kinerja Deepseek-R1 pada tolok ukur AIME 2024 terkenal, karena skor 79,8%, sedikit di depan OpenAI O1-1217, yang mencapai 79,2%[1]. Namun, ada perbandingan langsung terbatas yang tersedia antara Deepseek-R1 dan GPT-4O-0513 secara khusus pada tolok ukur AIME 2024.

Model GPT-4O umumnya dikenal karena kinerja yang kuat di berbagai tugas, tetapi hasil spesifik untuk GPT-4O-0513 di AIME 2024 tidak dirinci dalam informasi yang tersedia. Model GPT-4O biasanya kuat dalam pemahaman bahasa dan tugas generasi, tetapi kinerjanya pada tolok ukur penalaran matematika khusus seperti AIME mungkin bervariasi dibandingkan dengan model yang secara khusus dioptimalkan untuk tugas-tugas tersebut, seperti Deepseek-R1.

Kinerja kuat Deepseek-R1 pada AIME 2024 dapat dikaitkan dengan arsitekturnya, yang menggabungkan pembelajaran penguatan skala besar untuk meningkatkan kemampuan penalaran. Pendekatan ini memungkinkannya untuk unggul dalam tugas yang membutuhkan penalaran matematika multi-langkah canggih [1] [3]. Sebaliknya, model GPT-4O lebih umum dan mungkin tidak memiliki tingkat spesialisasi yang sama dalam tugas penalaran matematika.

Secara keseluruhan, sementara Deepseek-R1 menunjukkan kinerja yang unggul pada AIME 2024 dibandingkan dengan OpenAI O1-1217, perbandingan langsung dengan GPT-4O-0513 tidak secara eksplisit disediakan dalam data yang tersedia. Namun, pelatihan khusus dan arsitektur khusus Deepseek-R1 kemungkinan berkontribusi pada penampilannya yang kuat dalam tolok ukur penalaran matematika.

Kutipan:
[1] https://www.datacamp.com/blog/deepseek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepseek-r1
[4] https://artitifialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o-2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1