Η απόδοση DeepSeeek-R1 στα Math-500 και AME 2024 Benchmarks

Πώς συγκρίνεται η απόδοση του Deepseek-R1 στο Math-500 Benchmark με την απόδοσή του στο σημείο αναφοράς AIME 2024

Το Deepseek-R1 επιδεικνύει ισχυρές επιδόσεις σε διάφορα μαθηματικά σημεία αναφοράς, ιδιαίτερα στις δοκιμές Math-500 και AIME 2024. Ακολουθεί μια λεπτομερής σύγκριση των επιδόσεών της σε αυτά τα δύο σημεία αναφοράς:

math-500 σημείο αναφοράς

-Απόδοση: Το DeepSeeek-R1 επιτυγχάνει ένα εντυπωσιακό βαθμολογία Pass@1 του 97,3% στο σημείο αναφοράς Math-500. Αυτή η βαθμολογία δείχνει ότι το μοντέλο είναι ιδιαίτερα αποτελεσματικό στην επίλυση ποικίλων μαθηματικών προβλημάτων σε επίπεδο σχολείου που απαιτούν λεπτομερή συλλογιστική [1] [4].
-Σύγκριση με το OpenAi O1-1217: Το DeepSeeek-R1 ξεπερνά ελαφρώς το OpenAi O1-1217, το οποίο βαθμολογεί το 96,4% στο ίδιο σημείο αναφοράς. Αυτό υποδηλώνει ότι το Deepseek-R1 έχει ένα ελαφρύ πλεονέκτημα στο χειρισμό των τύπων μαθηματικών προβλημάτων που παρουσιάζονται στο Math-500 [4] [6].

aime 2024 σημείο αναφοράς

- Απόδοση: Σχετικά με το σημείο αναφοράς του AIME 2024, το DeepSeeK-R1 βαθμολογεί το 79,8%. Αυτό το σημείο αναφοράς αξιολογεί την προχωρημένη μαθηματική συλλογιστική πολλαπλών βημάτων και η απόδοση του Deepseek-R1 δείχνει ότι είναι ικανή να χειρίζεται σύνθετα μαθηματικά προβλήματα [1] [4].
-Σύγκριση με το OpenAi O1-1217: Το DeepSeeek-R1 υπερβαίνει ελαφρώς το OpenAi O1-1217 στο AIME 2024, το οποίο βαθμολογεί το 79,2%. Αυτή η περιθωριακή διαφορά υποδηλώνει ότι και τα δύο μοντέλα είναι ιδιαίτερα ανταγωνιστικά σε προχωρημένα μαθηματικά έργα λογικής [4] [6].

βασικές διαφορές μεταξύ των σημείων αναφοράς

-Πολυπλοκότητα προβλημάτων: Το AIME 2024 επικεντρώνεται σε πιο προηγμένα και σύνθετα μαθηματικά προβλήματα σε σύγκριση με τα μαθηματικά-500, τα οποία περιλαμβάνουν ένα ευρύτερο φάσμα προβλημάτων υψηλού σχολείου.
-Απόδοση μοντέλου: Το Deepseek-R1 δείχνει υψηλότερο ποσοστό επιτυχίας στο Math-500 από ό, τι στο AIME 2024, υποδεικνύοντας ότι είναι πιο αποτελεσματικό στην επίλυση ενός ευρέος φάσματος μαθηματικών προβλημάτων και όχι μόνο των προχωρημένων.

Συνολικά, το Deepseek-R1 καταδεικνύει ισχυρές δυνατότητες μαθηματικής συλλογιστικής, με αξιοσημείωτη πλεονέκτημα στην επίλυση ποικίλων μαθηματικών προβλημάτων όπως φαίνεται στο σημείο αναφοράς MATH-500 και ανταγωνιστικών επιδόσεων σε προχωρημένα μαθηματικά εργασιακά καθήκοντα όπως αξιολογείται από το AIME 2024.

Αναφορές:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysess
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-ceraver benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-matter-matter-more-than-compute-in-2025/