Βελτιστοποίηση της ανάπτυξης Deepseek-R1 στο AWS: Συστάσεις και Οδηγός εγκατάστασης instance

Η εκτέλεση του Deepseek-R1 αποτελεσματικά στο AWS απαιτεί την επιλογή των σωστών τύπων στιγμιότυπων με βάση την ειδική παραλλαγή μοντέλου και την επιθυμητή απόδοση. Ακολουθεί μια λεπτομερή επισκόπηση των συνιστώμενων περιπτώσεων AWS για διαφορετικά μοντέλα Deepseek-R1:

Deepseek-R1 (πλήρες μοντέλο)

Το πλήρες μοντέλο Deepseek-R1, με 671 δισεκατομμύρια παραμέτρους, απαιτεί σημαντικούς υπολογιστικούς πόρους. Για βέλτιστη απόδοση, συνιστάται μια ρύθμιση πολλαπλών GPU, όπως η χρήση GPU NVIDIA A100. Ωστόσο, η AWS δεν προσφέρει άμεσα GPU A100 στις τυπικές περιπτώσεις EC2. Αντ 'αυτού, μπορείτε να χρησιμοποιήσετε περιπτώσεις όπως το `inf2.48xlarge` για παρόμοιες ανάγκες υπολογιστικής υψηλής απόδοσης, αν και αυτές είναι πιο κατάλληλες για την επιτάχυνση των συμπερασμάτων και όχι για την κατάρτιση μεγάλων μοντέλων όπως το Deepseek-R1 [4].

Deepseek-R1 Distilled Models

Για τις αποσταγμένες εκδόσεις του Deepseek-R1, οι οποίες είναι πιο αποτελεσματικές και απαιτούν λιγότερη VRAM, μπορούν να χρησιμοποιηθούν διαφορετικές περιπτώσεις AWS:

-Deepseek-R1-Distill-Qwen-1.5b: Αυτό το μοντέλο μπορεί να εκτελεστεί αποτελεσματικά σε μία ενιαία παρουσία GPU. Το παράδειγμα "ML.G5.Xlarge` συνιστάται για τη φιλοξενία αυτού του μοντέλου λόγω των μετρήσεων απόδοσης [3].

-Deepseek-R1-Distill-Qwen-7B και Deepseek-R1-Distill-LLAMA-8B: Αυτά τα μοντέλα εκτελούν καλά σε περιπτώσεις όπως το `ml.g6e.xlarge`, το οποίο προσφέρει μια καλή ισορροπία ισχύος και κόστους GPU. Οι περιπτώσεις "ML.G5.2XLARGE" και "ML.G5.XLARGE` είναι επίσης βιώσιμες επιλογές [3].

-Deepseek-R1-Distill-Qwen-14B: Για αυτό το μοντέλο, απαιτείται μια παρουσία με ισχυρότερη GPU. Το παράδειγμα G4DN.XLARGE`, το οποίο διαθέτει NVIDIA T4 GPU, ενδέχεται να μην επαρκεί λόγω των περιορισμών του VRAM. Αντ 'αυτού, σκεφτείτε να χρησιμοποιήσετε περιπτώσεις με ισχυρότερες GPU όπως αυτές της οικογένειας "ML.G6` ή επιλέγοντας μια προσαρμοσμένη ρύθμιση με GPU υψηλότερης βαθμίδας, εάν είναι διαθέσιμες [1] [2].

-Deepseek-R1-Distill-Qwen-32B και Deepseek-R1-Distill-LLAMA-70B: Αυτά τα μεγαλύτερα μοντέλα απαιτούν ακόμη πιο ισχυρές GPU. Για βέλτιστες επιδόσεις, συνιστώνται περιπτώσεις με GPU υψηλής ποιότητας όπως το NVIDIA RTX 4090, αν και τέτοιες ειδικές GPU δεν είναι άμεσα διαθέσιμες σε τυπικές περιπτώσεις AWS EC2. Ωστόσο, μπορείτε να χρησιμοποιήσετε περιπτώσεις όπως το `inf2.48xlarge` για εργασίες υψηλής απόδοσης συμπερασμάτων [4] [6].

βασισμένη σε CPU ανάπτυξη

Για εργασίες επεξεργασίας παρτίδων όπου η καθυστέρηση δεν είναι ένας κρίσιμος παράγοντας, οι περιπτώσεις που βασίζονται στο AWS Graviton4 μπορούν να προσφέρουν μια οικονομικά αποδοτική λύση. Το παράδειγμα C8G.16Xlarge`, με τον υψηλό αριθμό πυρήνα και το εύρος ζώνης μνήμης, είναι κατάλληλο για μοντέλα που τρέχει όπως το DeepSeeek-R1-Distill-LLAMA-70B σε περιβάλλον μόνο CPU [6].

πλήρως διαχειριζόμενες λύσεις

Για τους χρήστες που προτιμούν να μην διαχειρίζονται την υποδομή, το DeepSeeek-R1 είναι επίσης διαθέσιμο ως ένα πλήρως διαχειριζόμενο μοντέλο χωρίς διακομιστή στο Amazon Bedrock. Αυτή η επιλογή σας επιτρέπει να αξιοποιήσετε τις δυνατότητες του μοντέλου χωρίς να ανησυχείτε για τις υποκείμενες πολυπλοκότητες των υποδομών [9].

Συνοπτικά, η επιλογή της εμφάνισης AWS για την εκτέλεση του DeepSeeek-R1 εξαρτάται αποτελεσματικά από την ειδική παραλλαγή μοντέλου, το απαιτούμενο επίπεδο απόδοσης και εάν είναι απαραίτητη η επιτάχυνση της GPU. Για τα περισσότερα αποσταγμένα μοντέλα, συνιστώνται περιπτώσεις με ισχυρές GPU, ενώ οι περιπτώσεις που βασίζονται σε CPU μπορούν να είναι κατάλληλα για εργασίες επεξεργασίας παρτίδων.

Αναφορές:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-traing-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-comlete-hardware-requirements-pimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-gravit4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-n1-now-available-as-a-fly-manager-serverter-model-in-amazon-bedrock/

Υπάρχουν συνιστώμενες περιπτώσεις AWS για την αποτελεσματική λειτουργία DeepSeeek-R1

Deepseek-R1 (πλήρες μοντέλο)

Deepseek-R1 Distilled Models

βασισμένη σε CPU ανάπτυξη

πλήρως διαχειριζόμενες λύσεις