Στο Deepseek-V3, η συνάρτηση ενεργοποίησης σιγμοειδών διαδραματίζει καθοριστικό ρόλο στη διαδικασία δρομολόγησης εμπειρογνωμόνων τροποποιώντας τον τρόπο με τον οποίο οι μάρκες αντιστοιχίζονται στους εμπειρογνώμονες. Σε αντίθεση με τις προηγούμενες εκδόσεις που χρησιμοποίησαν μια συνάρτηση SoftMax, το Deepseek-V3 χρησιμοποιεί μια σιγμοειδή λειτουργία για να υπολογίσει τις βαθμολογίες συγγένειας μεταξύ των μάρκες και των εμπειρογνωμόνων. Αυτή η αλλαγή βοηθά στην πρόληψη των ακραίων πιθανοτήτων επιλογής εμπειρογνωμόνων, οι οποίες μπορούν να οδηγήσουν σε δρομολόγηση κατάρρευσης μιας κατάστασης όπου το μοντέλο ευνοεί μερικούς εμπειρογνώμονες σε σχέση με τους άλλους, μειώνοντας τα οφέλη της εξειδίκευσης και της αποτελεσματικότητας.
Λειτουργία ενεργοποίησης sigmoid στη δρομολόγηση εμπειρογνωμόνων
Η συνάρτηση sigmoid, που υποδηλώνεται ως $$ \ sigma (\ cdot) $$, χρησιμοποιείται για τον υπολογισμό της βαθμολογίας συγγένειας μεταξύ ενός διακριτικού και ενός εμπειρογνώμονα. Συγκεκριμένα, η βαθμολογία $$ s_ {i, t} $$ για το Token $$ t $$ και ο εμπειρογνώμονας $$ I $$ υπολογίζεται ως:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Όπου $$ u_t $$ είναι η ενσωμάτωση συμβόλων και το $$ e_i $$ είναι ο κεντροειδικός φορέας εμπειρογνωμόνων $$ I $$. Αυτό το σκορ αντικατοπτρίζει πόσο καλά το συμβόλαιο ευθυγραμμίζεται με την ειδικότητα του εμπειρογνώμονα.
Κανονικοποίηση και επιλογή
Αφού υπολογίζουν αυτές τις βαθμολογίες, το DeepSeeek-V3 τους ομαλοποιεί και επιλέγει τους εμπειρογνώμονες $$ K_R $$ με βάση αυτές τις κανονικοποιημένες βαθμολογίες. Αυτή η διαδικασία διασφαλίζει ότι κάθε διακριτικό δρομολογείται σε ένα υποσύνολο εμπειρογνωμόνων που σχετίζονται περισσότερο με αυτό, προωθώντας την αποτελεσματική και εξειδικευμένη επεξεργασία.
Όροι προκατάληψης για εξισορρόπηση φορτίου
Για να αποφευχθεί η κατάρρευση δρομολόγησης και να εξασφαλιστεί ισορροπημένη κατανομή φορτίου μεταξύ των εμπειρογνωμόνων, το DeepSeeek-V3 εισάγει δυναμικά ρυθμιζόμενους όρους προκατάληψης. Αυτοί οι όροι προκατάληψης προστίθενται στις βαθμολογίες συγγένειας πριν επιλέξετε τους κορυφαίους εμπειρογνώμονες. Εάν ένας εμπειρογνώμονας είναι υπερφορτωμένος, ο όρος προκατάληψής του μειώνεται και εάν είναι υπολειπόμενος, ο όρος προκατάληψης αυξάνεται. Αυτός ο μηχανισμός διασφαλίζει ότι το φορτίο παραμένει ισορροπημένο χωρίς να βασίζεται σε βοηθητικές λειτουργίες απώλειας, οι οποίες μπορούν να επηρεάσουν αρνητικά την απόδοση του μοντέλου [1] [3].
Οφέλη του Sigmoid Over SoftMax
Η χρήση μιας λειτουργίας σιγμοειδούς αντί του SoftMax βοηθά στην αποσύνθεση των πιθανοτήτων επιλογής διαφορετικών εμπειρογνωμόνων. Στο SoftMax, οι πιθανότητες κανονικοποιούνται σε ένα άθροισμα σε ένα, γεγονός που μπορεί να οδηγήσει σε ακραίες πιθανότητες όταν ένας εμπειρογνώμονας ευνοείται σημαντικά. Το Sigmoid, από την άλλη πλευρά, επιτρέπει πιο ευέλικτες και ανεξάρτητες αναθέσεις πιθανότητας, μειώνοντας την πιθανότητα κατάρρευσης δρομολόγησης και προώθηση πιο ισορροπημένης αξιοποίησης εμπειρογνωμόνων [4].
Συνολικά, η συνάρτηση ενεργοποίησης σιγμοειδών στο DeepSeeek-V3 ενισχύει την ικανότητα του μοντέλου να δρομολογεί αποτελεσματικά τα σημάδια με τους συναφείς εμπειρογνώμονες διατηρώντας παράλληλα έναν ισορροπημένο φόρτο εργασίας, ο οποίος είναι ζωτικής σημασίας για την επίτευξη υψηλής απόδοσης και την υπολογιστική απόδοση σε μεγάλης κλίμακας μείγμα-εξουσιοδότησης (MOE) αρχιτεκτονικές.
Αναφορές:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-bunction