Για να ρυθμίσετε μια έξυπνη μονάδα διανομής ισχύος (PDU) για παρακολούθηση ισχύος στον σταθμό NVIDIA DGX A100, ακολουθήστε αυτά τα λεπτομερή βήματα:
1. Τοποθέτηση του έξυπνου pdu **
- Επιλογές τοποθέτησης: Το έξυπνο PDU μπορεί να τοποθετηθεί είτε κάθετα είτε οριζόντια σε ράφι. Για οριζόντια τοποθέτηση, επιλέξτε τα κατάλληλα σημεία τοποθέτησης βραχίονα για να εξασφαλίσετε το κατάλληλο βάθος μέσα στο ράφι. Συνδέστε τα Brackets L με βίδες και εγκαταστήστε το περίβλημα στις υποδοχές rack, επιτρέποντας κάποια οριζόντια προσαρμοστικότητα [3].- Κατακόρυφη τοποθέτηση: Χρησιμοποιήστε το κιτ τοποθέτησης κουμπιών που παρέχεται με το Smart PDU. Διανείμετε τα κουμπιά κατακόρυφα και συνδέστε τα στο PDU ανάλογα με τις ανάγκες. Βεβαιωθείτε ότι υπάρχει αρκετή εκκαθάριση στην κορυφή για να τοποθετηθούν τα κουμπιά σε κλειδί [3].
2. Σύνδεση με την πηγή ενέργειας **
- Συνδέστε το έξυπνο PDU σε μια κατάλληλη πηγή ενέργειας. Βεβαιωθείτε ότι η πηγή ενέργειας ταιριάζει με τις προδιαγραφές του σταθμού DGX A100 και του ίδιου του Smart PDU. Συνήθως, ο σταθμός DGX A100 απαιτεί μια πηγή ενέργειας που μπορεί να παρέχει 100V έως 240V AC, με συγκεκριμένες βαθμολογίες ρεύματος [1] [7].3. Συσκευές σύνδεσης **
- Συνδέστε το σταθμό DGX A100 με το Smart PDU χρησιμοποιώντας τα κατάλληλα καλώδια ισχύος. Τα συστήματα DGX A100 χρησιμοποιούν καλώδια τροφοδοσίας κλειδώματος για να εξασφαλίσουν την ασφάλεια και τη συμμόρφωση [1].- Βεβαιωθείτε ότι όλες οι συσκευές είναι σωστά συνδεδεμένες και τροφοδοτούμενες πριν προχωρήσετε.
4. Σύνδεση αισθητήρων **
- Εάν το Smart PDU υποστηρίζει πρόσθετους αισθητήρες (π.χ. αισθητήρες θερμοκρασίας ή υγρασίας), συνδέστε τους σύμφωνα με τις οδηγίες του κατασκευαστή. Αυτοί οι αισθητήρες μπορούν να παρέχουν πολύτιμα περιβαλλοντικά δεδομένα για την παρακολούθηση και τη διατήρηση των βέλτιστων συνθηκών λειτουργίας [3].5. Διαμόρφωση του έξυπνου pdu **
- Σύνδεση: Αποκτήστε πρόσβαση στη διεπαφή ιστού Smart PDU χρησιμοποιώντας τα προεπιλεγμένα διαπιστευτήρια διαχειριστή (π.χ. διαχειριστή/admin). Αλλάξτε αυτά τα διαπιστευτήρια για ασφάλεια [3].- Ρυθμίσεις δικτύου: Διαμορφώστε τις ρυθμίσεις δικτύου για να ενεργοποιήσετε την απομακρυσμένη παρακολούθηση. Ρυθμίστε τη διεύθυνση IP, τους διακομιστές Mask, Gateway και DNS, όπως απαιτείται για το περιβάλλον δικτύου σας [6].
- Λογαριασμοί χρηστών: Δημιουργία νέων λογαριασμών χρήστη διαχειριστή και καταργήστε τον προεπιλεγμένο λογαριασμό διαχειριστή για βελτιωμένη ασφάλεια [3].
- Ονόματα αισθητήρων: Εάν ισχύει, διαμορφώστε τα ονόματα για οποιονδήποτε συνδεδεμένο αισθητήρες για να εντοπίσετε εύκολα τις πηγές δεδομένων [3].
6. Σύνδεση στο δίκτυο **
- Συνδέστε το έξυπνο PDU στο δίκτυό σας. Αυτό επιτρέπει απομακρυσμένη πρόσβαση για παρακολούθηση και διαμόρφωση. Βεβαιωθείτε ότι η σύνδεση δικτύου είναι σταθερή και ασφαλής [3].7. Παρακολούθηση κατανάλωσης ενέργειας **
- Χρησιμοποιήστε τη διεπαφή ιστού Smart PDU ή τα εργαλεία IPMI για την παρακολούθηση της κατανάλωσης ενέργειας. Η PDU μπορεί να παρέχει σε πραγματικό χρόνο και ιστορικά δεδομένα σχετικά με τη χρήση ενέργειας, τα οποία είναι ζωτικής σημασίας για τη διαχείριση της ενεργειακής απόδοσης και της ικανότητας σχεδιασμού [4].- Για λεπτομερείς μετρήσεις κατανάλωσης ενέργειας (π.χ. συνολική ενέργεια από την εξουσία), ίσως χρειαστεί να χρησιμοποιήσετε εξωτερικά εργαλεία όπως ο Prometheus ή το InfluxDB για τη συλλογή και την ανάλυση δεδομένων με την πάροδο του χρόνου [4].
8. Ενσωμάτωση με σταθμό DGX A100 **
- Βεβαιωθείτε ότι ο σταθμός DGX A100 είναι σωστά συνδεδεμένος με το έξυπνο PDU και ότι όλα τα καλώδια ισχύος είναι ασφαλώς κλειδωμένα στη θέση τους για να αποτρέψουν τυχαίες αποσυνδέσεις [1].-Χρησιμοποιήστε εργαλεία όπως NVIDIA DCGM ή `NVIDIA-SMI` για να παρακολουθείτε την κατανάλωση ενέργειας ειδικής για την GPU, αν χρειαστεί [4].
Ακολουθώντας αυτά τα βήματα, μπορείτε να δημιουργήσετε αποτελεσματικά ένα έξυπνο PDU για παρακολούθηση ισχύος στον σταθμό DGX A100, εξασφαλίζοντας την αποτελεσματική διαχείριση ενέργειας και την αξιοπιστία του συστήματος.
Αναφορές:
[1] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-phite-paper_publish.pdf
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_smart_pdu_revv.pdf?149307227
[4] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[5] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[6] https://www.ibm.com/docs/8335-gtg/p9hbf/p9hbf_configutility_isp.htm
[7] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[8] https://www.youtube.com/watch?v=i6nx74lqtca