Ακρίβεια FP8 στο Deepseek-V3: Ενίσχυση της αποτελεσματικότητας και μείωσης του κόστους στην εκπαίδευση AI

Η ακρίβεια FP8 διαδραματίζει κρίσιμο ρόλο στη διαδικασία κατάρτισης του Deepseek-V3, ενισχύοντας σημαντικά την αποτελεσματικότητα και τη μείωση του υπολογιστικού κόστους. Ακολουθεί μια λεπτομερής εξήγηση του ρόλου της:

Εισαγωγή στην ακρίβεια FP8

Το FP8 είναι μια μορφή κυμαινόμενου σημείου 8-bit που προσφέρει μια πιο συμπαγής αναπαράσταση σε σύγκριση με τις παραδοσιακές μορφές 16-bit ή 32 bit. Αυτή η συμπαγής έχει ως αποτέλεσμα τη μειωμένη χρήση μνήμης και τον ταχύτερο υπολογισμό, καθιστώντας το ιδανικό για μεγάλης κλίμακας εκπαίδευση μοντέλων AI όπως το Deepseek-V3 [3] [5].

Μικτό πλαίσιο ακριβείας

Το Deepseek-V3 χρησιμοποιεί ένα πλαίσιο μικτής ακρίβειας, όπου διαφορετικά μέρη του μοντέλου χρησιμοποιούν διαφορετικά επίπεδα ακρίβειας. Οι περισσότερες λειτουργίες με ένταση υπολογιστών, όπως ο γενικός πολλαπλασιασμός της μήτρας (GEMM), εκτελούνται στο FP8 για τη βελτιστοποίηση της ταχύτητας και της χρήσης μνήμης. Ωστόσο, ορισμένες λειτουργίες που απαιτούν υψηλότερη ακρίβεια, όπως η ενσωματωμένη μονάδα, η κεφαλή εξόδου, οι μονάδες πύλης MOE, οι χειριστές κανονικοποίησης και οι χειριστές προσοχής, διατηρούνται σε υψηλότερες μορφές ακριβείας (FP16 ή FP32) για να διατηρήσουν την ακρίβεια [1] [5].

λεπτόκοκκο κβαντισμό

Για να αντιμετωπίσει τις προκλήσεις της περιορισμένης δυναμικής εμβέλειας του FP8, το Deepseek-V3 εισάγει μια στρατηγική ποσοτικοποίησης λεπτών κυμάτων. Αυτό συνεπάγεται την ομαδοποίηση των ενεργοποιήσεων σε πλακίδια και βάρη 1x128 σε μπλοκ 128x128, το καθένα κλιμακωτό ανεξάρτητα. Αυτή η προσέγγιση εμποδίζει τις ακραίες τιμές από την παραμόρφωση ολόκληρου του τανυστή, μειώνοντας τα σφάλματα ποσοτικοποίησης και τη διατήρηση της ακρίβειας του μοντέλου [1] [5].

online ποσοτικοποίηση

Το Deepseek-V3 χρησιμοποιεί online κβαντισμό, όπου οι παράγοντες κλιμάκωσης υπολογίζονται δυναμικά για κάθε πλακίδιο ενεργοποίησης ή μπλοκ βάρους κατά τη διάρκεια της εκπαίδευσης. Αυτό εξαλείφει την ανάγκη για καθυστερημένες μεθόδους ποσοτικοποίησης που βασίζονται σε ιστορικές μέγιστες τιμές, απλοποιώντας το πλαίσιο και βελτιώνοντας την ακρίβεια [1] [5].

Αυξημένη ακρίβεια συσσώρευσης

Για να μετριαστούν τα σφάλματα που προκαλούνται από την περιορισμένη ακρίβεια συσσώρευσης του FP8 σε πυρήνες τανυστή, το DeepSeeK-V3 προάγει μερικά αποτελέσματα σε καταχωρητές FP32 σε συγκεκριμένα διαστήματα κατά τη διάρκεια των εργασιών GEMM. Αυτό εξασφαλίζει ότι η συσσώρευση μικρών σφαλμάτων ελαχιστοποιείται, διατηρώντας τη συνολική ακρίβεια του μοντέλου [1] [5].

Μορφή ενοποιημένης E4M3

Σε αντίθεση με τα προηγούμενα πλαίσια που χρησιμοποίησαν υβριδικές μορφές FP8 (π.χ. E4M3 για το Pass Pass και E5M2 για το οπίσθιο πέρασμα), η Deepseek-V3 υιοθετεί καθολικά τη μορφή E4M3. Αυτό γίνεται δυνατή με τη στρατηγική της ποσοτικοποίησης με λεπτόκοκκο, η οποία μοιράζεται αποτελεσματικά τα bits εκθέτη μεταξύ ομαδοποιημένων στοιχείων, διατηρώντας την ακρίβεια σε όλους τους υπολογισμούς [1] [5].

αντίκτυπο στην αποτελεσματικότητα της κατάρτισης

Η χρήση της ακρίβειας FP8 επιταχύνει σημαντικά τη διαδικασία κατάρτισης του Deepseek-V3. Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας ένα κέντρο δεδομένων 2048 GPU σε μόλις δύο μήνες, απαιτώντας μόνο 2,664 εκατομμύρια ώρες GPU H800 για προ-κατάρτιση και επιπλέον 0,1 εκατομμύρια ώρες GPU για επακόλουθα στάδια. Αυτή η απόδοση αποδίδεται στην μειωμένη κατανάλωση μνήμης και την αυξημένη υπολογιστική ταχύτητα που προσφέρεται από το FP8 [3] [6].

Συνοπτικά, η ακρίβεια FP8 στο Deepseek-V3 είναι ζωτικής σημασίας για την επίτευξη υψηλής απόδοσης της κατάρτισης διατηρώντας παράλληλα την ακρίβεια του μοντέλου. Είναι προσεκτικά ενσωματωμένο σε ένα πλαίσιο μικτής ακρίβειας, αξιοποιώντας την ποσοτικοποίηση με λεπτόκοκκο κύμα και την online κβαντοποίηση για να μετριάσει τους περιορισμούς του FP8.

Αναφορές:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeways-from-peepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-lot-and-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-endrision-training/

Μπορείτε να εξηγήσετε το ρόλο της ακρίβειας FP8 στη διαδικασία κατάρτισης του Deepseek-V3