Στο Deepseek-V3, η βαθμολογία συγγένειας διαδραματίζει κρίσιμο ρόλο στη διαδικασία επιλογής εμπειρογνωμόνων στο πλαίσιο της αρχιτεκτονικής του μείγματος των ειδών (MOE). Αυτή η αρχιτεκτονική έχει σχεδιαστεί για να χειρίζεται αποτελεσματικά τις εργασίες μοντελοποίησης γλωσσών μεγάλης κλίμακας ενεργοποιώντας δυναμικά ένα υποσύνολο εμπειρογνωμόνων με βάση τα μάρκες εισόδου.
Υπολογισμός βαθμολογίας συγγένειας
Η βαθμολογία συγγένειας υπολογίζεται ως το προϊόν DOT της ενσωμάτωσης του διακριτικού εισόδου και του κεντροειδούς συγκεκριμένου εμπειρογνώμονα. Το κεντροειδές μπορεί να θεωρηθεί ως αντιπροσωπευτικός φορέας για κάθε εμπειρογνώμονα, ο οποίος μπορεί να προέρχεται από τις μέσες ενεργοποιήσεις ή εισροές που οι διαδικασίες εμπειρογνωμόνων. Αυτό το προϊόν DOT μετράει πόσο στενά ευθυγραμμίζει το διακριτικό είναι με την τεχνογνωσία κάθε διαθέσιμου εμπειρογνώμονα.
Διαδικασία επιλογής εμπειρογνωμόνων
1 δρομολόγηση Top-K: Για κάθε διακριτικό εισόδου, το Deepseek-V3 επιλέγει τους κορυφαίους 8 εμπειρογνώμονες με τις υψηλότερες βαθμολογίες συγγένειας. Αυτή η διαδικασία είναι γνωστή ως δρομολόγηση Top-K, όπου το K είναι σταθερό σε 8 σε αυτή την περίπτωση [1] [7].
2. Ρύθμιση προκατάληψης: Για να αποφευχθεί η κατάρρευση δρομολόγησης, όπου πάρα πολλά μάρκες δρομολογούνται στους ίδιους εμπειρογνώμονες, το DeepSeek-V3 εισάγει μια δυναμική προσαρμογή μεροληψίας. Κάθε εμπειρογνώμονας έχει έναν όρο προκατάληψης $$ B_I $$ που προστίθεται στη βαθμολογία συγγένειά του κατά τη διάρκεια της δρομολόγησης. Εάν ένας εμπειρογνώμονας είναι υπερφορτωμένος, η προκατάληψη του μειώνεται και εάν δεν χρησιμοποιείται, η προκατάληψη του αυξάνεται. Αυτή η προσαρμογή συμβάλλει στη διατήρηση ενός ισορροπημένου φόρτου εργασίας σε όλους τους εμπειρογνώμονες χωρίς τη χρήση ρητών βοηθητικών ζημιών [1] [3].
3. Μηχανισμός πύλης: Ο μηχανισμός πύλης υπολογίζει μια βαθμολογία για κάθε διακριτικό και επιλέγει τους πιο σχετικούς εμπειρογνώμονες που βασίζονται σε αυτές τις βαθμολογίες. Αυτό εξασφαλίζει ότι το μοντέλο κατανέμεται αποτελεσματικά υπολογιστικά πόρους ενεργοποιώντας μόνο τους απαραίτητους εμπειρογνώμονες για κάθε διακριτικό [3].
Οφέλη της βαθμολογίας συγγένειας
- Αποδοτικότητα: Επιλέγοντας εμπειρογνώμονες με βάση τις βαθμολογίες συγγένειας, το Deepseek-V3 μειώνει το υπολογιστικό κόστος ενεργοποιώντας μόνο ένα κλάσμα των συνολικών παραμέτρων του μοντέλου για κάθε διακριτικό. Αυτό έχει ως αποτέλεσμα πιο αποτελεσματικές διαδικασίες συμπερασμάτων και κατάρτισης [4] [8].
- Ειδικοποίηση: Η βαθμολογία συγγένειας επιτρέπει καλύτερη εξειδίκευση μεταξύ των εμπειρογνωμόνων. Κάθε εμπειρογνώμονας μπορεί να επικεντρωθεί σε συγκεκριμένα πρότυπα ή καθήκοντα, ενισχύοντας τη συνολική αντιπροσωπευτική δύναμη και την ικανότητα του μοντέλου να χειρίζονται διαφορετικές εισροές [1] [2].
- Σταθερότητα: Η δυναμική προσαρμογή μεροληψίας εξασφαλίζει ότι κανένας ειδικός δεν είναι υπερφορτωμένος, διατηρώντας τη σταθερότητα κατά τη διάρκεια τόσο της κατάρτισης όσο και της συμπερίληψης. Αυτό εμποδίζει το μοντέλο από την πτώση των μαρκών λόγω υπερφόρτωσης, το οποίο ήταν ένα πρόβλημα σε προηγούμενες εκδόσεις [2] [3].
Συνοπτικά, η βαθμολογία συγγένειας στο DeepSeeek-V3 είναι ζωτικής σημασίας για τη δυναμική επιλογή των πιο σχετικών εμπειρογνωμόνων για κάθε συμβολικό συμβολικό, εξασφαλίζοντας αποτελεσματική και εξειδικευμένη επεξεργασία διατηρώντας παράλληλα τη σταθερότητα του μοντέλου.
Αναφορές:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=BV7CT-_SPQY
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical Innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamical-selecting-number-expert-moe-models-like-deepseek-rosi%c4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond