Deepseek-V3 Unified E4M3 Μορφή: Ενίσχυση της απόδοσης του μοντέλου

Η ενοποιημένη μορφή E4M3 στο Deepseek-V3 συμβάλλει σημαντικά στην αποτελεσματικότητα του μοντέλου αντιμετωπίζοντας διάφορες προκλήσεις που σχετίζονται με την κατάρτιση μικτής ακρίβειας, ιδιαίτερα εκείνες που σχετίζονται με τη δυναμική περιοχή και την ακρίβεια. Ακολουθεί μια λεπτομερής εξήγηση για τον τρόπο με τον οποίο αυτή η μορφή ενισχύει την αποτελεσματικότητα:

λεπτόκοκκο στρατηγική ποσοτικοποίησης

Το Deepseek-V3 χρησιμοποιεί μια στρατηγική ποσοτικοποίησης με λεπτόκοκκο κύκλο, η οποία του επιτρέπει να χρησιμοποιεί αποτελεσματικά τη μορφή E4M3 σε όλα τα στάδια της κατάρτισης. Σε αντίθεση με τα προηγούμενα πλαίσια που χρησιμοποίησαν υβριδικές μορφές FP8 (π.χ. E4M3 για το Pass Pass και E5m2 για το πίσω πέρασμα), η προσέγγιση του Deepseek-V3 εξασφαλίζει ότι οι ενεργοποιήσεις ομαδοποιούνται και κλιμακώνονται σε βάση 1x128 πλακιδίων, ενώ τα βάρη κλιμακώνονται σε μπλοκ 128x128 [1] [2]. Αυτή η λεπτομέρεια βοηθά στην καλύτερη διαχείριση των αποτυχιών με δυναμική προσαρμογή των συντελεστών κλιμάκωσης για κάθε ομάδα, η οποία μετριάζει την επίδραση του περιορισμένου δυναμικού εύρους που είναι εγγενής σε μορφές FP8 [3].

Δυναμική κλιμάκωση και online κβαντοποίηση

Το μοντέλο χρησιμοποιεί online κβαντισμό, όπου οι παράγοντες κλιμάκωσης υπολογίζονται δυναμικά για κάθε πλακίδιο ενεργοποίησης ή μπλοκ βάρους κατά τη διάρκεια της εκπαίδευσης. Αυτό εξαλείφει την ανάγκη διατήρησης ιστορικών μέγιστων τιμών, απλούστευσης του πλαισίου και βελτίωσης της ακρίβειας [1] [2]. Με τη δυναμική προσαρμογή αυτών των παραγόντων κλιμάκωσης, το DeepSeeek-V3 μπορεί να βελτιστοποιήσει τη χρήση των διαθέσιμων κάδων αναπαράστασης αριθμών FP8, εξασφαλίζοντας ότι οι περισσότερες τιμές δεν συγκεντρώνονται σε στενό εύρος, γεγονός που διαφορετικά θα οδηγούσε σε κακή ακρίβεια για μικρότερες τιμές [3].

Μειωμένη χρήση μνήμης και υπολογιστικά έξοδα

Η ενοποιημένη μορφή E4M3, σε συνδυασμό με την ποσοτικοποίηση με λεπτόκοκκο, μειώνει σημαντικά τη χρήση της μνήμης. Με την αποθήκευση των ενεργοποιήσεων και των καταστάσεων βελτιστοποιητή σε μορφές χαμηλότερης ακρίβειας (π.χ. FP8 για ενεργοποιήσεις), το DeepSeeK-V3 ελαχιστοποιεί τις απαιτήσεις μνήμης, οι οποίες είναι ζωτικής σημασίας για μοντέλα μεγάλης κλίμακας [1] [5]. Επιπλέον, η χρήση του FP8 για βασικούς υπολογισμούς μειώνει τα υπολογιστικά έξοδα, καθώς απαιτεί λιγότερα δεδομένα για επεξεργασία σε σύγκριση με μορφές υψηλότερης ακρίβειας όπως το FP16 ή το FP32 [5].

βελτιωμένη αριθμητική σταθερότητα

Το Deepseek-V3 ασχολείται επίσης με το ζήτημα της αριθμητικής απώλειας ακριβείας που σχετίζεται με την κατάρτιση FP8 προωθώντας μερικά αποτελέσματα σε καταχωρητές FP32 σε συγκεκριμένα διαστήματα κατά τη διάρκεια της συσσώρευσης. Αυτή η στρατηγική μετριάζει τα σφάλματα που προκαλούνται από την περιορισμένη συσσώρευση πλάτους bit σε πυρήνες τανυστή, εξασφαλίζοντας αριθμητική σταθερότητα και αξιόπιστη κατάρτιση [1] [7].

Συνοπτικά, η ενοποιημένη μορφή E4M3 στο Deepseek-V3 ενισχύει την αποτελεσματικότητα, επιτρέποντας την ποσοτικοποίηση λεπτών με λεπτόκοκκο, τη δυναμική κλιμάκωση, τη μειωμένη χρήση της μνήμης και τη βελτιωμένη αριθμητική σταθερότητα. Αυτές οι καινοτομίες επιτρέπουν στο Deepseek-V3 να επιτύχει την απόδοση της τελευταίας τεχνολογίας ενώ βελτιστοποιεί τους υπολογιστικούς πόρους.

Αναφορές:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeways-from-peepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3: latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-extained-ptimizing-efficies-and-cale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-powerful-open-source-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officially_releaster_code_paper/

Πώς συμβάλλει η ενοποιημένη μορφή E4M3 στην αποτελεσματικότητα του Deepseek-V3

λεπτόκοκκο στρατηγική ποσοτικοποίησης

Δυναμική κλιμάκωση και online κβαντοποίηση

Μειωμένη χρήση μνήμης και υπολογιστικά έξοδα

βελτιωμένη αριθμητική σταθερότητα