Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 동적 워크로드 스케줄러가 어떻게 TPU 성능을 향상 시키는가


동적 워크로드 스케줄러가 어떻게 TPU 성능을 향상 시키는가


동적 워크로드 스케줄러 (DWS)는 TPU를 포함한 AI/ML 리소스의 활용 및 비용 효율성을 최적화하여 TPU 성능을 향상시킵니다. TPU 성능을 향상시키는 주요 방법은 다음과 같습니다.

1. 효율적인 리소스 할당 : DWS는 TPU를 포함한 필요한 모든 가속기를 훈련 및 미세 조정과 같은 작업에 동시에 예약합니다. 이를 통해 여러 노드가 필요한 워크로드는 모든 리소스가 준비된 경우에만 시작하여 다운 타임을 줄이고 전반적인 효율성을 향상시킬 수 있습니다 [1] [2].

2. 유연성 및 비용 최적화 : DWS는 Flex Start 및 Calendar의 두 가지 모드를 제공합니다. Flex 시작 모드를 사용하면 사용자가 필요에 따라 TPU 용량을 요청할 수 있으므로 리소스를 사용할 수 있으면 작업량을 지속적으로 실행할 수 있습니다. 사용자는 작업 완료 후 리소스를 종료 할 수 있으며 실제 사용량에 대해서만 지불하여 비용을 최적화합니다 [1] [2].

3. Google Cloud Services와의 통합 : DWS는 Vertex AI 및 Google Kubernetes Engine과 같은 다양한 Google Cloud AI/ML 서비스와 통합됩니다. 이 통합은 하드웨어 획득을 단순화하고 AI 워크 플로우를 간소화하므로 다양한 플랫폼에서 TPU 리소스를보다 쉽게 ​​관리 할 수 ​​있습니다 [3] [5].

4. 예약 진보 : DWS는 실시간 스케줄링 기능으로 유명한 Google의 BORG 기술을 활용합니다. 이 기술은 수백만 개의 작업을 효율적으로 관리하여 TPU에 대한 향상된 유연성과 최적화 된 리소스 사용을 제공합니다 [2].

전반적으로 DWS는 효율적인 리소스 할당을 보장하고 비용 최적화 및 기존 AI/ML 서비스와 잘 통합하여 AI 워크로드 관리를위한 강력한 도구가되어 TPU 성능을 향상시킵니다.

인용 :
[1] https://cloud.google.com/blog/products/compute/introducing-dynamic-workload-scheduler
[2] https://cioinfluence.com/it-and-devops/driving-efficiency-in-ai-ml-unlocking-potential-through-a-dynamic-workload-scheduler/
[3] https://www.youtube.com/watch?v=1D04EHHDVHG
[4] https://cloud.google.com/kubernetes-engine/docs/how-to/provisioningrequest
[5] https://www.youtube.com/watch?v=uwio00RVQP4
[6] https://stackoverflow.com/questions/52427141/check-tpu-workload-utilization
[7] https://cloud.google.com/vertex-ai/docs/training/schedule-jobs-dws
[8] https://www.ibm.com/docs/en/workload-scheduler/8.6.0?topic=dynamically-pdf
[9] https://arxiv.org/html/2502.06982v1