Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Πώς μπορώ να παρακολουθώ και να αξιολογήσω την απόδοση του Deepseek-R1 σε περιπτώσεις AWS GPU


Πώς μπορώ να παρακολουθώ και να αξιολογήσω την απόδοση του Deepseek-R1 σε περιπτώσεις AWS GPU


Η παρακολούθηση και η αξιολόγηση της απόδοσης του Deepseek-R1 σε περιπτώσεις AWS GPU περιλαμβάνει διάφορα βήματα και εργαλεία. Ακολουθεί ένας λεπτομερής οδηγός για το πώς να το κάνετε αποτελεσματικά:

Εργαλεία παρακολούθησης και μετρήσεις

Amazon CloudWatch

Το Amazon CloudWatch είναι ένα βασικό εργαλείο για την παρακολούθηση των πόρων AWS, συμπεριλαμβανομένων των περιπτώσεων GPU. Συλλέγει και επεξεργάζεται τα ακατέργαστα δεδομένα σε αναγνώσιμα, κοντά σε μετρήσεις σε πραγματικό χρόνο. Για περιπτώσεις GPU, μπορείτε να παρακολουθείτε μετρήσεις όπως:
- Χρήση GPU: Το ποσοστό των κατανεμημένων GPU που χρησιμοποιούνται επί του παρόντος.
- GPumemoryUtilization: Το ποσοστό της συνολικής μνήμης GPU που χρησιμοποιείται.
- CPUutilization: Το ποσοστό των κατανομένων υπολογιστικών μονάδων EC2 που χρησιμοποιούνται.
- μνήμη: το ποσοστό της μνήμης που χρησιμοποιείται κατά τη διάρκεια της περιόδου δειγματοληψίας.

Για να ενεργοποιήσετε τις μετρήσεις χρήσης GPU, πρέπει να εγκαταστήσετε τον πράκτορα CloudWatch στις περιπτώσεις σας και να το διαμορφώσετε για να συλλέξετε μετρήσεις NVIDIA GPU [2] [8].

μετρήσεις nvidia

Εκτός από τις μετρήσεις CloudWatch, μπορείτε να χρησιμοποιήσετε την εντολή `nvidia-smi` για να παρακολουθήσετε την απόδοση της GPU σε πραγματικό χρόνο. Αυτή η εντολή παρέχει λεπτομερείς πληροφορίες σχετικά με τη χρήση της GPU, τη χρήση μνήμης και τη θερμοκρασία [5].

μετρήσεις αξιολόγησης απόδοσης για το DeepSeeek-R1

Κατά την αξιολόγηση της απόδοσης των μοντέλων Deepseek-R1, επικεντρωθείτε στις ακόλουθες μετρήσεις:
-Λανθάνουσα κατάσταση από άκρο σε άκρο: ο χρόνος μεταξύ της αποστολής αίτησης και της λήψης της απάντησης.
- Παρακολούθηση (μάρκες ανά δευτερόλεπτο): ο αριθμός των μαρκών που επεξεργάζονται ανά δευτερόλεπτο.
- Ώρα στο πρώτο συμβόλαιο: ο χρόνος που απαιτείται για τη δημιουργία του πρώτου συμβολαίου σε μια απάντηση.
- Inter-Token Latency: ο χρόνος μεταξύ της δημιουργίας κάθε συμβολικού σε μια απάντηση [1] [4].

σενάρια για δοκιμές

Για να αξιολογήσετε αποτελεσματικά την απόδοση DeepSeeek-R1, εξετάστε το ενδεχόμενο να δοκιμάσετε διαφορετικά σενάρια:
- Μήκος συμβολαίου εισόδου: Δοκιμή με μικρά (π.χ. 512 μάρκες) και μέσου (π.χ., 3072 μάρκες) Μήκους εισόδου για να αξιολογήσουν τον τρόπο με τον οποίο το μοντέλο χειρίζεται ποικίλα μεγέθη εισόδων.
- Επίπεδα ταυτόχρονα: Αξιολογήστε την απόδοση υπό διαφορετικά επίπεδα ταυτόχρονης (π.χ., 1, 10) για να αξιολογήσετε την επεκτασιμότητα.
- Διαμορφώσεις υλικού: Χρησιμοποιήστε διάφορους τύπους στιγμιότυπων GPU (π.χ. P4D, G5, G6) με διαφορετικούς αριθμούς GPU για να βρείτε τη βέλτιστη διαμόρφωση για το φόρτο εργασίας σας [1] [4].

Βέλτιστες πρακτικές για παρακολούθηση και αξιολόγηση

- Χρησιμοποιήστε το Amazon Sagemaker: Ανάπτυξη μοντέλων DeepSeeek-R1 χρησιμοποιώντας το Sagemaker για να αξιοποιήσει τις δυνατότητες παρακολούθησης της υποδομής και της απόδοσης.
- Προσαρμοσμένες δοκιμές: Εκτελέστε προσαρμοσμένες δοκιμές με τα συγκεκριμένα σύνολα δεδομένων και τις περιπτώσεις χρήσης για να διασφαλίσετε ότι τα αποτελέσματα σχετίζονται με την αίτησή σας.
- Συνεχής παρακολούθηση: Παρακολουθεί τακτικά τις μετρήσεις απόδοσης για τον εντοπισμό σημείων συμφόρησης και τη βελτιστοποίηση της χρήσης των πόρων [4] [7].

Ακολουθώντας αυτά τα βήματα και χρησιμοποιώντας τα σωστά εργαλεία, μπορείτε να παρακολουθήσετε και να αξιολογήσετε αποτελεσματικά την απόδοση του DeepSeeek-R1 σε περιπτώσεις AWS GPU.

Αναφορές:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-performance-use-cases-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distille
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-to-fer-deepseek-r1-as-fully-fully-servernerment-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseeek-r1-fully-hanaged-amazon-bedrock/