Η απόδοση μοντέλου Deepseek R1 στο AIME Benchmark - σύγκριση με το OpenAI O1 και άλλα μοντέλα AI

Το μοντέλο R1 του Deepseek καταδεικνύει ισχυρές επιδόσεις στην αμερικανική προσφορά των μαθηματικών εξεταστικών (AIME), το οποίο είναι ένας διάσημος διαγωνισμός μαθηματικών για μαθητές γυμνασίου. Ακολουθεί μια λεπτομερή σύγκριση της απόδοσης του Deepseek R1 με άλλα μοντέλα AI στο AIME:

1. Deepseek R1 εναντίον OpenAI O1: Το DeepSeek R1 έχει δείξει ανταγωνιστικά αποτελέσματα στο AIME, με βαθμολογία 79,8% στο AIME 2024, ελαφρώς μπροστά από το OpenAI O1-1217 στο 79,2% [9]. Ωστόσο, η OpenAI O1 πέτυχε υψηλότερη βαθμολογία 96,7% σε άλλη σύγκριση, υποδεικνύοντας τη μεταβλητότητα των μετρήσεων απόδοσης ή των εκδόσεων των χρησιμοποιούμενων μοντέλων [8]. Το Deepseek R1-Zero, ένα πρόδρομο μοντέλο, σημείωσε 71,0% στο AIME 2024, το οποίο είναι ελαφρώς κάτω από το OpenAi O1-0912 αλλά πάνω από το O1-Mini [1].

2. Σύγκριση με άλλα μοντέλα: Σε μια ευρύτερη σύγκριση, το Deepseek R1 αποδίδει καλά αλλά δεν ήταν ο κορυφαίος σκόρερ. Για παράδειγμα, το Openai O3 Mini πήρε την πρώτη θέση με ακρίβεια 86,5% στο AIME, ακολουθούμενη από Deepseek R1 και O1 [2]. Αυτό υποδηλώνει ότι ενώ το Deepseek R1 είναι ανταγωνιστικό, μπορεί να μην ξεπεράσει πάντοτε τα τελευταία μοντέλα όπως το O3 Mini.

3. Μεταβλητότητα απόδοσης: Η απόδοση των μοντέλων AI στο AIME μπορεί να ποικίλει σημαντικά ανάλογα με τη συγκεκριμένη έκδοση της δοκιμής. Για παράδειγμα, τα μοντέλα γενικά εκτελούνται καλύτερα στις παλαιότερες ερωτήσεις AIME 2024 σε σύγκριση με τις νεότερες ερωτήσεις AIME 2025, πιθανώς λόγω της συμπερίληψης προηγούμενων ερωτήσεων στα δεδομένα εκπαίδευσης τους [2].

4. Δυνατότητες λογικής: Η ισχυρή απόδοση του Deepseek R1 στο AIME αποδίδεται στις προηγμένες δυνατότητες συλλογιστικής του, οι οποίες του επιτρέπουν να αντιμετωπίσει αποτελεσματικά τα σύνθετα μαθηματικά προβλήματα. Ωστόσο, η απόδοσή του μπορεί να μειωθεί όταν αντιμετωπίζει παραλλαγές ερωτήσεων που απαιτούν βαθύτερη λογική συλλογιστική [7].

Συνολικά, το Deepseek R1 επιδεικνύει ισχυρή απόδοση στο AIME, ανταγωνιζόμενος στενά με άλλα κορυφαία μοντέλα όπως το OpenAI O1, αν και μπορεί να μην οδηγεί πάντα σε κάθε σύγκριση. Η φύση του ανοιχτού κώδικα και η απόδοση κόστους την καθιστούν μια ελκυστική επιλογή για τους προγραμματιστές που θέλουν να αξιοποιήσουν τις προχωρημένες δυνατότητες συλλογιστικής στα μαθηματικά.

Αναφορές:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-ceraver benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-hhich-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1

Πώς συγκρίνεται η απόδοση του Deepseek στο Aime 1 με άλλα μοντέλα AI