Token Dropping Prevention in Deepseek Training: Moe Architecture and Strategies

Τι μέτρα παίρνει το Deepseek για να αποτρέψει την πτώση του διακριτικού κατά τη διάρκεια της εκπαίδευσης

Το DeepSeeek χρησιμοποιεί αρκετές στρατηγικές για την πρόληψη της πτώσης του διακριτικού κατά τη διάρκεια της εκπαίδευσης, ιδιαίτερα στο μείγμα των ειδών εξουσίας (MOE) αρχιτεκτονική. Εδώ είναι τα βασικά μέτρα:

1. Στρατηγική απόκλισης Token: Η DeepSeek χρησιμοποιεί μια προσέγγιση που μειώνεται με το Token με βάση τις πιθανότητες δρομολόγησης, παρόμοια με τα συμβατικά μοντέλα MOE. Αυτό σημαίνει ότι οι μάρκες πέφτουν σύμφωνα με τα αποτελέσματά τους, εξασφαλίζοντας ότι μόνο οι λιγότερο σημαντικές μάρκες απορρίπτονται όταν ο αριθμός των συμβολικών υπερβαίνει μια ορισμένη ικανότητα. Η χωρητικότητα υπολογίζεται διαφορετικά ανάλογα με το αν η εστίαση είναι στη διάσταση εμπειρογνωμόνων ή συσκευών, η οποία βοηθά στη διαχείριση του τρόπου με τον οποίο οι μάρκες επεξεργάζονται από διαφορετικούς εμπειρογνώμονες ή συσκευές αποτελεσματικά [1].

2. Πτώση διακριτικής σε επίπεδο συσκευής: Η στρατηγική λειτουργεί κυρίως στο επίπεδο της συσκευής όπου ταξινομούνται όλες οι βαθμολογίες εμπειρογνωμόνων και οι μάρκες με τις χαμηλότερες πιθανότητες μειώνονται. Αυτό εξασφαλίζει ότι κάθε συσκευή μπορεί να διαχειριστεί το φορτίο της χωρίς να συντρίψει οποιονδήποτε εμπειρογνώμονα διατηρώντας παράλληλα τη συνολική απόδοση απόδοσης [1].

3. Εγγυημένη διατήρηση συμβολαίου: Η DeepSeek έχει εφαρμόσει μια συγκεκριμένη στρατηγική για να διασφαλίσει ότι περίπου το 10% των μαρκών από τις ακολουθίες κατάρτισης δεν θα μειωθεί ποτέ. Αυτό είναι ζωτικής σημασίας για τη διατήρηση της ακεραιότητας των δεδομένων κατάρτισης και τη διασφάλιση της διατήρησης σημαντικών πληροφοριών σε όλη τη διαδικασία κατάρτισης [2] [6].

4. Εξισορρόπηση φορτίου: Στην τελευταία του έκδοση, Deepseek-V3, χρησιμοποιείται μια αποτελεσματική στρατηγική εξισορρόπησης φορτίου, η οποία εξαλείφει την ανάγκη για το διακριτικό που πέφτει συνολικά κατά τη διάρκεια της εκπαίδευσης. Με τη δυναμική προσαρμογή των φορτίων εμπειρογνωμόνων και τη χρήση ενός στόχου πρόβλεψης πολλαπλών τόπων, το Deepseek-V3 διατηρεί μια ισορροπημένη κατανομή των μαρκών σε εμπειρογνώμονες, εμποδίζοντας έτσι τυχόν απώλεια δεδομένων κατά τη διάρκεια της εκπαίδευσης [2].

Αυτά τα μέτρα αντικατοπτρίζουν τη δέσμευση της Deepseek να βελτιστοποιήσει τις διαδικασίες κατάρτισης της, ελαχιστοποιώντας παράλληλα την απώλεια δεδομένων και τη μεγιστοποίηση της υπολογιστικής απόδοσης.

Αναφορές:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-down-fake-deepseek-tokens-spect-houlds-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-ogoing-down-fake-deepseek-tokens-affect-ills-of-raders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716