Η Deepseek πέτυχε υψηλή ακρίβεια στο σημείο αναφοράς AIME 2024, χρησιμοποιώντας αρκετές καινοτόμες τεχνικές:
1. Συγκεντρωμένη παραγωγή δεδομένων Εκπαίδευσης: Τα δεδομένα εκπαίδευσης DeepSeeek που θα μπορούσαν να επαληθευτούν αυτόματα, ιδιαίτερα σε τομείς όπως τα μαθηματικά όπου η ορθότητα είναι σαφής. Αυτή η προσέγγιση τους επέτρεψε να επικεντρωθούν στη δημιουργία υψηλής ποιότητας, σχετικά δεδομένα που συμβάλλουν άμεσα στη βελτίωση της απόδοσης του μοντέλου [1].
2. Αποτελεσματικές λειτουργίες ανταμοιβής: ανέπτυξαν εξαιρετικά αποδοτικές λειτουργίες ανταμοιβής που έχουν σχεδιαστεί για να προσδιορίσουν ποια νέα παραδείγματα κατάρτισης θα βελτίωσαν πραγματικά το μοντέλο. Αυτή η στρατηγική συνέβαλε στην αποφυγή της σπατάλης υπολογιστικών πόρων σε περιττά δεδομένα, εξασφαλίζοντας ότι το μοντέλο έμαθε από τα πιο πολύτιμα παραδείγματα [1].
3. Απορρίμηση και βελτιστοποίηση μοντέλου: Η Deepseek χρησιμοποίησε τεχνικές απόσταξης μοντέλου για τη δημιουργία μικρότερων μοντέλων που εξακολουθούν να πέτυχαν εντυπωσιακά αποτελέσματα. Για παράδειγμα, το αποσταγμένο μοντέλο τους 7B ξεπέρασε την ακρίβεια των μεγαλύτερων μοντέλων ανοιχτού κώδικα όπως το QWQ-32B-Preview, παρά τις λιγότερες παραμέτρους. Αυτό καταδεικνύει πώς η εστιασμένη εκπαίδευση μπορεί να οδηγήσει σε ισχυρές επιδόσεις σε συγκεκριμένους τομείς με μέτριους υπολογιστικούς πόρους [1].
4. Οι αλυσίδες υπολογισμού και συλλογιστικής δοκιμής: μοντέλα Deepseek, όπως το Deepseek R1, χρησιμοποιούν μια τεχνική που ονομάζεται "Compute Time", το οποίο επιτρέπει στο μοντέλο να ξοδεύει περισσότερο χρόνο και υπολογιστική ισχύ σε κάθε πρόβλημα. Αυτή η προσέγγιση μιμείται τη συζήτηση που μοιάζει με τον άνθρωπο, με αποτέλεσμα πιο ακριβείς και προσεγμένες απαντήσεις. Καθώς το μοντέλο δημιουργεί μεγαλύτερες αλυσίδες συλλογιστικής, μπορεί να λύσει όλο και πιο πολύπλοκα προβλήματα με μεγαλύτερη ακρίβεια [6].
5. Διαφάνεια και αρχιτεκτονική πολλαπλών παραγόντων: Τα μοντέλα Deepseek, ιδιαίτερα Deepseek-R1, χρησιμοποιούν μια πολυπαραγοντική συνεργατική αρχιτεκτονική που ενσωματώνει διαφορετικές διαδρομές συλλογιστικής. Αυτή η συνέργεια συμβάλλει στην άμβλυνση των ειδικών για την εργασία και ενισχύει τη συνέπεια μειώνοντας τη μεταβλητότητα. Η δομημένη προσέγγιση επιτρέπει στο μοντέλο να δίνει δυναμική προτεραιότητα σε λύσεις υψηλής εμπιστοσύνης, ενώ επαναλαμβάνει επαναληπτικά λιγότερο ορισμένες εξόδους [3].
Αυτές οι τεχνικές συμβάλλουν συλλογικά στην εντυπωσιακή απόδοση του Deepseek στο σημείο αναφοράς του AIME 2024, παρουσιάζοντας τον τρόπο με τον οποίο οι μεθόδους στρατηγικής κατάρτισης και ο σχεδιασμός μοντέλων μπορούν να ξεπεράσουν την ακατέργαστη υπολογιστική ισχύ στην επίτευξη υψηλής ακρίβειας.
Αναφορές:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-matter-matter-more-than-compute-in-2025/
[2] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[3] https://arxiv.org/html/2503.10573v1
[4] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1
[5] https://aws.amazon.com/bedrock/deepseek
[6] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[7] https://www.amitysolutions.com/blog/deepseek-r1-ai-giant-from-china
[8] https://cloudsecurityalliance.org/blog/2025/01/29/deepseek-rewriting-the-rules-of-ai-development
[9] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models