NVIDIA DGX 스테이션 A100에서 전력 모니터링을위한 Smart Power Distribution Unit (PDU)를 설정하려면 다음과 같은 단계를 따르십시오.
1. 스마트 PDU 장착 **
- 장착 옵션 : 스마트 PDU는 랙에 수직 또는 수평으로 장착 할 수 있습니다. 수평 장착의 경우 적절한 브래킷 장착 지점을 선택하여 랙 내에서 적절한 깊이를 보장하십시오. 나사로 L 브래킷을 부착하고 인클로저를 랙 슬롯에 설치하여 수평 적응성을 허용합니다 [3].- 세로 장착 : 스마트 PDU와 함께 제공되는 버튼 장착 키트를 사용하십시오. 버튼을 수직으로 배포하고 필요에 따라 PDU에 연결하십시오. 버튼이 키 홀로 마운트 할 수있는 상단에 충분한 통관이 있는지 확인하십시오 [3].
2. 전원에 연결 **
- 스마트 PDU를 적합한 전원에 연결하십시오. 전원이 DGX 스테이션 A100 및 스마트 PDU 자체의 사양과 일치하는지 확인하십시오. 일반적으로, DGX 스테이션 A100은 특정 전류 등급을 가진 100V에서 240V AC를 공급할 수있는 전원이 필요합니다 [1] [7].3. 장치 연결 **
- 적절한 전원 케이블을 사용하여 DGX 스테이션 A100을 스마트 PDU에 연결하십시오. DGX A100 시스템은 잠금 전원 코드를 사용하여 안전 및 준수를 보장합니다 [1].- 진행하기 전에 모든 장치가 올바르게 연결되고 전원이 꺼져 있는지 확인하십시오.
4. 센서 연결 **
- 스마트 PDU가 추가 센서 (예 : 온도 또는 습도 센서)를 지원하는 경우 제조업체의 지침에 따라 연결하십시오. 이 센서는 최적의 작동 조건을 모니터링하고 유지하기위한 귀중한 환경 데이터를 제공 할 수 있습니다 [3].5. 스마트 PDU 구성 **
- 로그인 : 기본 관리자 자격 증명 (예 : 관리자/관리자)을 사용하여 Smart PDU의 웹 인터페이스에 액세스하십시오. 보안에 대한 이러한 자격 증명을 변경하십시오 [3].- 네트워크 설정 : 원격 모니터링을 활성화하도록 네트워크 설정을 구성합니다. 네트워크 환경에 필요한 경우 IP 주소, 서브넷 마스크, 게이트웨이 및 DNS 서버를 설정하십시오 [6].
- 사용자 계정 : 새 관리 사용자 계정을 만들고 기본 관리자 계정을 제거하여 보안을 향상시킵니다 [3].
- 센서 이름 : 해당되는 경우 연결된 센서의 이름을 구성하여 데이터 소스를 쉽게 식별하십시오 [3].
6. 네트워크에 연결 **
- 스마트 PDU를 네트워크에 연결하십시오. 이를 통해 모니터링 및 구성에 원격 액세스 할 수 있습니다. 네트워크 연결이 안정적이고 안전한지 확인하십시오 [3].7. 전력 소비 모니터링 **
- 스마트 PDU의 웹 인터페이스 또는 IPMI 도구를 사용하여 전력 소비를 모니터링하십시오. PDU는 전력 사용에 대한 실시간 및 과거 데이터를 제공 할 수 있으며, 이는 에너지 효율 및 계획 용량을 관리하는 데 중요합니다 [4].- 상세한 에너지 소비 지표 (예 : 전원 온 이후의 총 에너지)의 경우 Prometheus 또는 InfluxDB와 같은 외부 도구를 사용하여 시간이 지남에 따라 데이터를 수집하고 분석해야 할 수도 있습니다 [4].
8. DGX 스테이션과 통합 A100 **
-DGX 스테이션 A100이 스마트 PDU에 올바르게 연결되어 있고 모든 전원 케이블이 우발적 인 분리를 방지하기 위해 제자리에 고정되어 있는지 확인하십시오 [1].-NVIDIA DCGM 또는`NVIDIA-SMI`와 같은 도구를 사용하여 필요한 경우 GPU 특이 적 전력 소비를 모니터링하십시오 [4].
이 단계를 수행하면 DGX 스테이션 A100에서 전력 모니터링을위한 스마트 PDU를 효과적으로 설정하여 효율적인 에너지 관리 및 시스템 신뢰성을 보장 할 수 있습니다.
인용 :
[1] http://cdn.cnetcontent.com/2f/68/2f688a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architection--paper_published.pdf
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_smart_pdu_revv.pdf?1493072227
[4] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[5] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[6] https://www.ibm.com/docs/8335-gtg/p9hbf/p9hbf_configutility_isp.htm
[7] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[8] https://www.youtube.com/watch?v=i6nx74lqtca