Deepseek-V3: Ενίσχυση της δρομολόγησης εμπειρογνωμόνων με τη λειτουργία Sigmoid στο μείγμα της αρχιτεκτονικής εμπειρογνωμόνων

Στο Deepseek-V3, η συνάρτηση σιγμοειδών διαδραματίζει κρίσιμο ρόλο στον υπολογισμό των βαθμολογιών συγγένειας για τη δρομολόγηση εμπειρογνωμόνων στο μείγμα της αρχιτεκτονικής εμπειρογνωμόνων (MOE). Σε αντίθεση με τα παραδοσιακά μοντέλα MOE που χρησιμοποιούν συχνά τη λειτουργία SoftMax για να ομαλοποιήσουν τις βαθμολογίες συγγένειας, το Deepseek-V3 χρησιμοποιεί τη σιγμοειδή λειτουργία. Αυτή η αλλαγή επηρεάζει το μοντέλο με διάφορους τρόπους:

1. Κανονικοποίηση και δρομολόγηση: Η συνάρτηση σιγμοειδούς χρησιμοποιείται για τον υπολογισμό των βαθμολογιών συγγένειας, οι οποίες στη συνέχεια εξομαλύζονται μεταξύ όλων των επιλεγμένων βαθμολογιών συγγένειας για την παραγωγή των τιμών πύλης. Αυτή η προσέγγιση επιτρέπει έναν πιο ευέλικτο και αποχρωματισμένο μηχανισμό δρομολόγησης σε σύγκριση με το SoftMax, το οποίο μερικές φορές μπορεί να οδηγήσει σε κατάρρευση δρομολόγησης όπου ορισμένοι εμπειρογνώμονες ευνοούνται υπερβολικά [4] [7].

2. Αποφυγή της κατάρρευσης δρομολόγησης: Η κατάρρευση δρομολόγησης συμβαίνει όταν τα περισσότερα μάρκες δρομολογούνται σε ένα μικρό υποσύνολο εμπειρογνωμόνων, οδηγώντας σε αναποτελεσματική χρήση υπολογιστικών πόρων. Το DeepSeeek-V3 μετριάζει αυτό χρησιμοποιώντας το σιγμοειδές πύλη και την εισαγωγή όρων μεροληψίας που προσαρμόζονται δυναμικά κατά τη διάρκεια της εκπαίδευσης. Αυτοί οι όροι μεροληψίας βοηθούν στην εξισορρόπηση του φορτίου σε εμπειρογνώμονες χωρίς να βασίζονται σε βοηθητικές απώλειες που μπορούν να επηρεάσουν αρνητικά την απόδοση του μοντέλου [4] [9].

3. Όροι προκατάληψης και δυναμική ρύθμιση: Το μοντέλο ενσωματώνει όρους μεροληψίας για κάθε εμπειρογνώμονα, οι οποίοι προστίθενται στις βαθμολογίες συγγένειας πριν επιλέξετε τους εμπειρογνώμονες του Top-K. Αυτοί οι όροι προκατάληψης ρυθμίζονται δυναμικά με βάση το φορτίο κάθε εμπειρογνώμονα. Εάν ένας εμπειρογνώμονας είναι υπερφορτωμένος, ο όρος μεροληψίας του μειώνεται και αν είναι υπολειπόμενη, ο όρος προκατάληψης αυξάνεται. Αυτό εξασφαλίζει ισορροπημένη κατανομή των μαρκών σε εμπειρογνώμονες χωρίς την ανάγκη για πρόσθετες απώλειες [4] [8].

4. Συμπληρωματική βοηθητική απώλεια: Αν και η Deepseek-V3 αποφεύγει κυρίως τις βοηθητικές απώλειες, περιλαμβάνει μια μικρή απώλεια ισορροπίας για την ισορροπία για την πρόληψη ακραίων περιπτώσεων όπου μια ενιαία ακολουθία ευνοεί ένα μικρό υποσύνολο εμπειρογνωμόνων. Αυτή η απώλεια λειτουργεί ως διασφάλιση χωρίς να επηρεάζει σημαντικά τη συνολική δυναμική της κατάρτισης [4].

5. Δρομολόγηση περιορισμένης από κόμβους: Για τον έλεγχο του κόστους επικοινωνίας, το Deepseek-V3 χρησιμοποιεί δρομολόγηση περιορισμένης από τους κόμβους, όπου κάθε διακριτικό αποστέλλεται στους περισσότερους κόμβους M με βάση τις υψηλότερες βαθμολογίες συγγένειας. Αυτή η στρατηγική επιτρέπει την επικάλυψη σχεδόν πλήρους υπολογισμού-επικοινωνίας κατά τη διάρκεια της κατάρτισης, ενίσχυση της αποτελεσματικότητας [4].

Συνολικά, η χρήση της σιγμοειδούς λειτουργίας στο Deepseek-V3 επιτρέπει έναν πιο ευέλικτο και αποτελεσματικό μηχανισμό δρομολόγησης, συμβάλλοντας στην ικανότητα του μοντέλου να εξισορροπεί την αξιοποίηση των εμπειρογνωμόνων χωρίς να θυσιάζει την απόδοση.

Αναφορές:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-729147904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeways-from-peepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details

Πώς επηρεάζει η συνάρτηση σιγμοειδούς τον υπολογισμό της βαθμολογίας συγγένειας στο Deepseek-V3