Sigmoid Gating στο Deepseek-V3: Πρόληψη της κατάρρευσης δρομολόγησης σε μοντέλα μίγματος των ειδών ειδών

Το σιγμοειδές πύργο στο Deepseek-V3 διαδραματίζει κρίσιμο ρόλο στην πρόληψη της κατάρρευσης δρομολόγησης, ενός κοινού ζητήματος σε μοντέλα μείγματος-εμπειρογνωμόνων (MOE) όπου μερικοί εμπειρογνώμονες ευνοούνται σταθερά έναντι των άλλων, οδηγώντας σε αναποτελεσματική κατάρτιση και χρήση των μοντέλων πόρων. Δείτε πώς βοηθά το σιγμοειδές πύργο:

παραδοσιακή πύλη softmax εναντίον sigmoid gating

Τα παραδοσιακά μοντέλα MOE χρησιμοποιούν συχνά το SoftMax Gating, το οποίο μπορεί να οδηγήσει σε ένα σενάριο "νικητών-takes-all". Οι έξοδοι SoftMax κανονικοποιούνται για να εξασφαλίσουν ότι θα ανέρχονται στο 1, γεγονός που μπορεί να οδηγήσει σε ακραίες πιθανότητες όπου ένας εμπειρογνώμονας επιλέγεται σχεδόν αποκλειστικά, ειδικά εάν τα αρχικά του βάρη είναι ελαφρώς καλύτερα. Αυτό μπορεί να προκαλέσει ανεπαρκή και υποβιβασμένη σε άλλους εμπειρογνώμονες, οδηγώντας σε κατάρρευση δρομολόγησης.

Αντίθετα, το Sigmoid Gating αποδίδει σε κάθε εμπειρογνώμονα ένα σκορ μεταξύ 0 και 1 ανεξάρτητα, χωρίς ομαλοποίηση σε όλους τους εμπειρογνώμονες. Αυτό σημαίνει ότι πολλοί εμπειρογνώμονες μπορούν να έχουν υψηλές βαθμολογίες ταυτόχρονα, επιτρέποντας μια πιο ισορροπημένη κατανομή των μαρκών σε εμπειρογνώμονες. Το σιγμοειδές πύλη δεν επιβάλλει έναν αυστηρό ανταγωνισμό μεταξύ των εμπειρογνωμόνων, μειώνοντας την πιθανότητα κατάρρευσης δρομολόγησης εξασφαλίζοντας ότι κάθε εμπειρογνώμονας έχει μια δίκαιη ευκαιρία να συνεισφέρει [1] [4] [6].

Ρύθμιση δυναμικής προκατάληψης

Το Deepseek-V3 ενισχύει περαιτέρω το σιγμοειδές πλέγμα, εισάγοντας όρους δυναμικής μεροληψίας για κάθε εμπειρογνώμονα. Αυτές οι προκαταλήψεις ρυθμίζονται κατά τη διάρκεια της κατάρτισης με βάση το φορτίο κάθε εμπειρογνώμονα. Εάν ένας εμπειρογνώμονας είναι υπερφορτωμένος, η προκατάληψη του μειώνεται για να αποθαρρύνει την περαιτέρω δρομολόγηση σε αυτό, ενώ οι υπολειπόμενοι εμπειρογνώμονες έχουν αυξηθεί οι προκαταλήψεις τους για να προσελκύσουν περισσότερα μάρκες. Αυτή η δυναμική προσαρμογή συμβάλλει στη διατήρηση ενός ισορροπημένου φορτίου σε όλους τους εμπειρογνώμονες, εμποδίζοντας κάθε μεμονωμένο εμπειρογνώμονα να κυριαρχεί στις αποφάσεις δρομολόγησης και έτσι να αποτρέψει την κατάρρευση δρομολόγησης [2] [4] [6].

ιεραρχική πύλη

Το Deepseek-V3 χρησιμοποιεί επίσης ιεραρχική πύλη, η οποία εφαρμόζει περιορισμούς σπαρών σε πολλαπλά επίπεδα. Αρχικά, γίνεται μια χονδροειδής επιλογή εμπειρογνωμόνων, ακολουθούμενη από λεπτότερο φιλτράρισμα μέσα σε επιλεγμένες ομάδες. Αυτή η ιεραρχική προσέγγιση διασφαλίζει ότι ενεργοποιείται ένα διαφορετικό σύνολο εμπειρογνωμόνων για κάθε διακριτικό, μειώνοντας περαιτέρω τον κίνδυνο κατάρρευσης δρομολόγησης, εμποδίζοντας την υπερβολική εξειδίκευση και ενθαρρύνοντας τη γενίκευση σε διάφορους τομείς [1] [6].

δρομολόγηση περιορισμένης από τους κόμβους

Επιπλέον, το Deepseek-V3 χρησιμοποιεί δρομολόγηση περιορισμένης από τους κόμβους, η οποία περιορίζει τον αριθμό των κόμβων που μπορεί να επικοινωνεί με κάθε διακριτικό. Αυτή η στρατηγική ελαχιστοποιεί τα γενικά έξοδα επικοινωνίας, εξασφαλίζοντας αποτελεσματική κατάρτιση και συμπέρασμα διατηρώντας παράλληλα την ισορροπημένη αξιοποίηση των εμπειρογνωμόνων [6].

Συνοπτικά, το σιγμοειδές πύργο στο Deepseek-V3 βοηθά στην πρόληψη της κατάρρευσης δρομολόγησης, επιτρέποντας την ενεργοποίηση πολλαπλών εμπειρογνωμόνων ταυτόχρονα χωρίς να αναγκάσουν έναν αυστηρό ανταγωνισμό μεταξύ τους. Η δυναμική προσαρμογή μεροληψίας και η ιεραρχική πύλη εξασφαλίζουν περαιτέρω ότι κάθε εμπειρογνώμονας χρησιμοποιείται αποτελεσματικά, διατηρώντας ένα ισορροπημένο φορτίο και εμποδίζοντας οποιονδήποτε εμπειρογνώμονα να κυριαρχεί στις αποφάσεις δρομολόγησης.

Αναφορές:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-tatters-in-the-world-oflms

Πώς βοηθά το σιγμοειδές πύλης στην πρόληψη της κατάρρευσης δρομολόγησης στο Deepseek-V3

παραδοσιακή πύλη softmax εναντίον sigmoid gating

Ρύθμιση δυναμικής προκατάληψης

ιεραρχική πύλη

δρομολόγηση περιορισμένης από τους κόμβους