Τα δεδομένα κατάρτισης για το Deepseek-R1 και το LLAMA 3.1 παρουσιάζουν αρκετές βασικές διαφορές, αντανακλώντας ξεχωριστές προσεγγίσεις για την ανάπτυξη του μοντέλου.
Δεδομένα εκπαίδευσης DeepSeeek-R1
Το Deepseek-R1 εκπαιδεύεται χρησιμοποιώντας μια διαδικασία πολλαπλών σταδίων που συνδυάζει τη μάθηση ενίσχυσης (RL) με εποπτευόμενη τελειοποίηση (SFT). Το μοντέλο ξεκινά με μια φάση "κρύου εκκίνησης", όπου είναι τελειοποιημένο σε ένα μικρό σύνολο προσεκτικά κατασκευασμένων παραδειγμάτων για τη βελτίωση της σαφήνειας και της αναγνωσιμότητας. Αυτό ακολουθείται από καθαρό RL για την ενίσχυση των δεξιοτήτων συλλογιστικής, παρόμοια με το R1-μηδέν. Κοντά σε σύγκλιση RL, το μοντέλο χρησιμοποιεί δειγματοληψία απόρριψης για να δημιουργήσει συνθετικά δεδομένα επιλέγοντας τα καλύτερα παραδείγματα από προηγούμενες διαδρομές RL. Αυτά τα συνθετικά δεδομένα συγχωνεύονται στη συνέχεια με εποπτευόμενα δεδομένα από το Deepseek-V3-Base σε τομείς όπως η γραφή, η πραγματική QA και η αυτογνωσία. Το τελικό στάδιο περιλαμβάνει έναν άλλο γύρο RL σε διάφορες προτροπές και σενάρια για την περαιτέρω γενίκευση των δυνατοτήτων του μοντέλου [1] [4].
LLAMA 3.1 Δεδομένα εκπαίδευσης
Το LLAMA 3.1, από την άλλη πλευρά, εκπαιδεύεται σε ένα τεράστιο σώμα περίπου 15 τρισεκατομμυρίων μάρκες από διαθέσιμες στο κοινό πηγές, με ημερομηνία αποκοπής γνώσης του Δεκεμβρίου 2023 [8]. Το σύνολο δεδομένων κατάρτισης περιλαμβάνει ένα ισορροπημένο συνδυασμό γενικών τομέων, μαθηματικών και συλλογιστικών δεδομένων, πολύγλωσσων κειμένων και κώδικα από διάφορες γλώσσες προγραμματισμού για την ενίσχυση των δυνατοτήτων δημιουργίας και κατανόησης κώδικα [5]. Το μοντέλο υφίσταται αρχική προ-κατάρτιση χρησιμοποιώντας έναν στόχο πρόβλεψης επόμενης προβολής, ακολουθούμενη από προ-προπόνηση μακράς περιεχομένου για να χειριστεί μακρά έγγραφα και σύνθετα εργασίες λογικής. Το μείγμα δεδομένων προσαρμόζεται προσεκτικά για να βελτιωθεί η απόδοση σε συγκεκριμένες εργασίες, όπως η αύξηση των μη αγγλικών δεδομένων για τις πολυγλωσσικές δυνατότητες και τα μαθηματικά δεδομένα για την καλύτερη συλλογιστική [2] [5].
βασικές διαφορές
1. Προσέγγιση κατάρτισης: Το DeepSeeek-R1 βασίζεται σε μεγάλο βαθμό στην παραγωγή ενίσχυσης και συνθετικής παραγωγής δεδομένων, ενώ το LLAMA 3.1 χρησιμοποιεί μια πιο παραδοσιακή προσέγγιση εποπτευόμενης μάθησης με ένα τεράστιο σύνολο δεδομένων πριν από την κατάρτιση.
2. Πηγές δεδομένων: Το DeepSeeek-R1 χρησιμοποιεί ένα συνδυασμό αρχικών δεδομένων ψυχρού εκκίνησης και συνθετικών δεδομένων που παράγονται κατά τη διάρκεια της διαδικασίας RL. Αντίθετα, το LLAMA 3.1 εκπαιδεύεται σε ένα μεγάλο σώμα διαθέσιμων στο κοινό δεδομένων.
3. Όγκος και ποιότητα δεδομένων: Το LLAMA 3.1 εκπαιδεύεται σε ένα πολύ μεγαλύτερο σύνολο δεδομένων (~ 15 τρισεκατομμύρια μάρκες) σε σύγκριση με το σχετικά μικρό αρχικό σύνολο δεδομένων που χρησιμοποιείται για το Deepseek-R1. Ωστόσο, η χρήση των συνθετικών δεδομένων από τη Deepseek-R1 του επιτρέπει να επιτύχει υψηλές επιδόσεις σε εργασίες συλλογισμού παρά το μικρότερο αρχικό σύνολο δεδομένων.
4. Περιοχές εστίασης: Και τα δύο μοντέλα επικεντρώνονται στη βελτίωση των δυνατοτήτων συλλογιστικής και γνώσης, αλλά η Deepseek-R1 δίνει έντονη έμφαση στη συλλογιστική μέσω της RL, ενώ το LLAMA 3.1 επικεντρώνεται επίσης στις δυνατότητες πολύγλωσσων και κωδικοποίησης.
Συνολικά, τα δεδομένα κατάρτισης για το Deepseek-R1 και το LLAMA 3.1 αντικατοπτρίζουν διαφορετικές στρατηγικές στην ανάπτυξη του μοντέλου, με το Deepseek-R1 να αξιοποιεί RL και συνθετικά δεδομένα για την επίτευξη ισχυρών δυνατοτήτων συλλογιστικής και LLAMA 3.1 να βασίζονται σε μια μεγάλη εποπτευόμενη προσέγγιση μάθησης για να καλύψουν ένα ευρύ φάσμα καθηκόντων.
Αναφορές:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseeek-r1/llama-3-1-8b-intruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-know-about-meta-s-new-405b-model-and-its-data-data
[6] https://docsbot.ai/models/compare/deepseeek-r1/llama-3-1-405b-intruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-sintruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1