Συγκρίνοντας τους μηχανισμούς δρομολόγησης εμπειρογνωμόνων σε Deepseek-V2 και Deepseek-V3

Οι κύριες διαφορές μεταξύ των μηχανισμών δρομολόγησης εμπειρογνωμόνων στο Deepseek-V2 και το Deepseek-V3 μπορούν να συνοψιστούν ως εξής:

Deepseek-V2 Εμπειρογνώμονες δρομολόγηση

-Μηχανισμός δρομολόγησης περιορισμένης συσκευής: Το DeepSeeek-V2 χρησιμοποιεί έναν μηχανισμό δρομολόγησης περιορισμένης συσκευής για τη διανομή εμπειρογνωμόνων σε πολλές συσκευές. Αυτή η προσέγγιση εξασφαλίζει ότι οι εμπειρογνώμονες-στόχοι για κάθε διακριτικό είναι κατανέμονται σε περιορισμένο αριθμό συσκευών, συνήθως επιλέγοντας τους εμπειρογνώμονες Top-K από αυτές τις συσκευές. Αυτή η στρατηγική συμβάλλει στη διαχείριση των γενικών εξόδων επικοινωνίας και εξασφαλίζει αποτελεσματική παράλληλη επεξεργασία [1] [5].

-Βοηθητικές απώλειες για την ισορροπία φορτίου: Το DeepSeeK-V2 εισάγει τρεις τύπους βοηθητικών ζημιών σε επίπεδο εμπειρογνωμόνων, σε επίπεδο συσκευής και σε επίπεδο επικοινωνίας για τη διατήρηση της ισορροπίας φορτίου κατά τη διάρκεια της εκπαίδευσης. Αυτές οι απώλειες συμβάλλουν στην πρόληψη της κατάρρευσης δρομολόγησης εξασφαλίζοντας ότι κανένας ειδικός δεν χρησιμοποιείται υπερβολικά, ενώ άλλοι παραμένουν ανεπαρκώς χρησιμοποιούμενες [1] [6].

- Αριθμός εμπειρογνωμόνων και ενεργοποίησης: Το DeepSeeek-V2 έχει 160 εμπειρογνώμονες συν δύο κοινόχρηστους εμπειρογνώμονες, με μόνο έξι εμπειρογνώμονες να ενεργοποιούνται κατά τη διάρκεια του συμπεράσματος. Αυτή η επιλεκτική ενεργοποίηση μειώνει σημαντικά τον αριθμό των ενεργών παραμέτρων, καθιστώντας το μοντέλο πιο αποτελεσματικό [5].

Deepseek-V3 Εμπειρογνώμονες δρομολόγηση

- Αυξημένη εξειδίκευση εμπειρογνωμόνων: Η Deepseek-V3 βασίζεται στην αρχιτεκτονική MOE αυξάνοντας τον αριθμό των εμπειρογνωμόνων που δρομολογούνται ανά στρώμα κατά 60%, από 160 σε 256.

- Κοινόχρηστοι εμπειρογνώμονες: Το DeepSeeek-V3 διατηρεί την έννοια των κοινών εμπειρογνωμόνων, οι οποίοι είναι πάντα ενεργοποιημένες. Κάθε στρώμα δικτύου τροφοδοσίας (FFN) έχει έναν κοινό εμπειρογνώμονα και υπάρχουν τρία στρώματα όπου ενεργοποιούνται όλοι οι εμπειρογνώμονες, βελτιώνοντας την ικανότητα του μοντέλου να συλλαμβάνει κοινές γνώσεις σε όλα τα πλαίσια [2] [4].

-Συνάφεια Token-to-Expert: Η ανάθεση των μαρκών στους εμπειρογνώμονες βασίζεται στη συγγένεια του συμβολικού προς το Expert στον χώρο ενσωμάτωσης. Ωστόσο, το Deepseek-V3 αντιμετωπίζει προκλήσεις που σχετίζονται με την κατάρρευση δρομολόγησης, όπου οι μάρκες μπορούν να δρομολογηθούν με συνέπεια στους ίδιους εμπειρογνώμονες, ενδεχομένως να παρεμποδίζουν την εκπαίδευση άλλων εμπειρογνωμόνων [2].

- Επιθετική στρατηγική MOE: Το DeepSeeek-V3 υιοθετεί μια πιο επιθετική στρατηγική MOE, χρησιμοποιώντας την ακρίβεια FP8 για την κατάρτιση, η οποία επιτρέπει τον πιο αποτελεσματικό υπολογισμό και την κλιμάκωση. Αυτή η προσέγγιση επιτρέπει στο μοντέλο να εκμεταλλευτεί αποτελεσματικά την αραιά ενεργοποίηση, βελτιστοποιώντας τη χρήση παραμέτρων κατά τη διάρκεια του συμπεράσματος [2] [4].

Συνοπτικά, ενώ και τα δύο μοντέλα χρησιμοποιούν αρχιτεκτονικές MOE για αποτελεσματική δρομολόγηση και αραιή ενεργοποίηση, το Deepseek-V3 ενισχύει αυτήν την προσέγγιση με αυξημένη εξειδίκευση εμπειρογνωμόνων, πιο επιθετικές στρατηγικές MOE και προσαρμογές σε κοινές διαμορφώσεις εμπειρογνωμόνων. Το Deepseek-V2 επικεντρώνεται στην οικονομική κατάρτιση και στην αποτελεσματική συμπερίληψη μέσω δρομολόγησης περιορισμένης συσκευής και βοηθητικών ζημιών εξισορρόπησης φορτίου.

Αναφορές:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseeek-v2-a-huge-llm-with-efficiy
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA

Ποιες είναι οι κύριες διαφορές μεταξύ των μηχανισμών δρομολόγησης εμπειρογνωμόνων στο Deepseek-V2 και στο Deepseek-V3

Deepseek-V2 Εμπειρογνώμονες δρομολόγηση

Deepseek-V3 Εμπειρογνώμονες δρομολόγηση