Οφέλη του FP8 για τις εργασίες GEMM στο DeepSeeek-V3

Η χρήση του FP8 (8-bit κυμαινόμενου σημείου) για τις λειτουργίες πολλαπλασιασμού γενικής μήτρας (GEMM) στο DeepSeeek-V3 προσφέρει αρκετά σημαντικά οφέλη, κυρίως όσον αφορά την υπολογιστική απόδοση και την εξοικονόμηση μνήμης. Εδώ είναι τα λεπτομερή πλεονεκτήματα:

1. Υπολογίστε την απόδοση: Οι λειτουργίες FP8 παρέχουν σημαντική αύξηση της υπολογιστικής ταχύτητας σε σύγκριση με τις παραδοσιακές λειτουργίες FP16 ή FP32. Συγκεκριμένα, οι πυρήνες Tensor της NVIDIA μπορούν να εκτελέσουν λειτουργίες FP8 GEMM σε διπλάσια ταχύτητα του FP16, η οποία επιταχύνει τη συνολική διαδικασία κατάρτισης μοντέλων μεγάλης κλίμακας όπως το DeepSeeek-V3 [3] [4].

2. Εξοικονόμηση μνήμης: Η χρήση του FP8 μειώνει τις απαιτήσεις μνήμης κατά το ήμισυ σε σύγκριση με το BF16, επιτρέποντας την κατάρτιση μεγαλύτερων και βαθύτερων μοντέλων εντός των ίδιων περιορισμών υλικού. Αυτό είναι ιδιαίτερα ευεργετικό για μοντέλα που απαιτούν εκτεταμένους πόρους μνήμης, επιτρέποντας την ανάπτυξη πιο σύνθετων μοντέλων χωρίς να χρειάζονται πρόσθετο υλικό [3] [6].

3. Αποτελεσματική επικοινωνία: Σε κατανεμημένα περιβάλλοντα κατάρτισης, το FP8 μειώνει το εύρος ζώνης που απαιτείται για τη μεταφορά δεδομένων μεταξύ GPU, η οποία βελτιώνει την αποτελεσματικότητα του συγχρονισμού και μειώνει τα γενικά έξοδα της επικοινωνίας. Αυτό είναι ζωτικής σημασίας για μοντέλα AI μεγάλης κλίμακας που συχνά βασίζονται σε κατανεμημένες ρυθμίσεις υπολογιστών [3].

4. Λεπτόκοκκο κβαντισμό: Το DeepSeeek-V3 χρησιμοποιεί μια στρατηγική ποσοτικοποίησης με λεπτόκοκκο κύκλο για την αντιμετώπιση των προκλήσεων που θέτουν η περιορισμένη δυναμική περιοχή του FP8. Αυτό συνεπάγεται την ομαδοποίηση στοιχείων σε μικρότερα κεραμίδια ή μπλοκ και την κλιμάκωση τους ανεξάρτητα, γεγονός που βοηθά στην καλύτερη διαχείριση των αποκλίσεων και στη διατήρηση της αριθμητικής σταθερότητας [1] [2].

5. αυξημένη ακρίβεια συσσώρευσης: Για να μετριαστούν τα σφάλματα που προκαλούνται από την περιορισμένη συσσώρευση πλάτους δυαδικών ψηφίων σε πυρήνες τανυστή, το Deepseek-V3 προάγει μερικά αποτελέσματα σε καταχωρητές FP32 σε συγκεκριμένα διαστήματα κατά τη διάρκεια της συσσώρευσης. Αυτό ενισχύει την ακρίβεια των λειτουργιών FP8 GEMM, εξασφαλίζοντας ότι τα οφέλη του FP8 πραγματοποιούνται χωρίς να διακυβεύονται η ακρίβεια [1].

6. Ενοποιημένη μορφή E4M3: Σε αντίθεση με τις προηγούμενες προσεγγίσεις που χρησιμοποίησαν υβριδικές μορφές FP8, το DeepSeeek-V3 υιοθετεί τη μορφή E4M3 παγκοσμίως. Αυτό διευκολύνεται από τη στρατηγική της κβαντοποίησης με λεπτόκοκκο, η οποία μοιράζεται αποτελεσματικά τα κομμάτια εκθέτη μεταξύ των ομαδοποιημένων στοιχείων, την απλούστευση του πλαισίου και τη βελτίωση της ακρίβειας [1].

7. Online Κοσυμίωση: Το μοντέλο υπολογίζει δυναμικά τους παράγοντες κλιμάκωσης για κάθε πλακίδιο ενεργοποίησης ή μπλοκ βάρους κατά τη διάρκεια της εκπαίδευσης, εξαλείφοντας την ανάγκη για μεθόδους καθυστερημένης ποσοτικοποίησης. Αυτό απλοποιεί το πλαίσιο και βελτιώνει την ακρίβεια προσαρμόζοντας τα χαρακτηριστικά δεδομένων σε πραγματικό χρόνο [1].

8. Βελτιστοποιημένη Υποστήριξη Βιβλιοθήκης: Η ανάπτυξη της DeepGEMM, μιας βελτιστοποιημένης βιβλιοθήκης FP8 GEMM, ενισχύει περαιτέρω την αποτελεσματικότητα των λειτουργιών FP8 στο Deepseek-V3. Το DeepGEMM υποστηρίζει τόσο τις πυκνές όσο και τις αρχιτεκτονικές MOE, εξασφαλίζοντας αποτελεσματικούς υπολογισμούς μήτρας που είναι κρίσιμοι για τα μοντέλα AI μεγάλης κλίμακας [4] [7]. Χρησιμοποιεί τη συλλογή Just-in-Time (JIT) και την λεπτή κλιμάκωση για τη διατήρηση της υπολογιστικής απόδοσης, ελαχιστοποιώντας την απώλεια ακριβείας [4] [5].

Αναφορές:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeways-from-peepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimized-fp8-gemm-library-for-and-moe-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722

Ποια είναι τα οφέλη από τη χρήση του FP8 για λειτουργίες GEMM στο DeepSeeek-V3