AWS GPU 인스턴스에서 DeepSeek-R1 성능 모니터링 및 평가

AWS GPU 인스턴스에서 DeepSeek-R1의 성능을 모니터링하고 평가하는 방법

AWS GPU 인스턴스에서 DeepSeek-R1의 성능 모니터링 및 평가에는 여러 단계와 도구가 포함됩니다. 다음은 효과적으로 수행하는 방법에 대한 자세한 안내서입니다.

모니터링 도구 및 메트릭

Amazon CloudWatch

Amazon CloudWatch는 GPU 인스턴스를 포함한 AWS 리소스를 모니터링하는 핵심 도구입니다. 실시간 메트릭 근처에서 원시 데이터를 읽을 수있는 것으로 수집하고 처리합니다. GPU 인스턴스의 경우 다음과 같은 메트릭을 모니터링 할 수 있습니다.
-GPU 사용 : 현재 사용중인 할당 된 GPU의 백분율.
-Gpumemoryutilization : 사용중인 총 GPU 메모리의 백분율.
- cpuutilization : 사용중인 할당 된 EC2 계산 장치의 백분율.
- 메모리 활용 : 샘플 기간 동안 사용되는 메모리의 백분율.

GPU Utilization Metrics를 사용하려면 인스턴스에 CloudWatch 에이전트를 설치하고 NVIDIA GPU 메트릭을 수집하도록 구성해야합니다 [2] [8].

nvidia 지표

CloudWatch 메트릭 외에도`nvidia-smi` 명령을 사용하여 GPU 성능을 실시간으로 모니터링 할 수 있습니다. 이 명령은 GPU 활용, 메모리 사용 및 온도에 대한 자세한 정보를 제공합니다 [5].

DeepSeek-R1의 성능 평가 메트릭

DeepSeek-R1 모델의 성능을 평가할 때 다음 메트릭에 중점을 둡니다.
-엔드 투 엔드 대기 시간 : 요청 보내기와 응답 수신 사이의 시간.
- 처리량 (초당 토큰) : 초당 처리 된 토큰 수.
- 첫 토큰까지의 시간 : 응답으로 첫 토큰을 생성하는 데 걸리는 시간.
-Token과의 대기 시간 : 응답으로 각 토큰을 생성하는 것 사이의 시간 [1] [4].

테스트 시나리오

DeepSeek-R1 성능을 효과적으로 평가하려면 다양한 시나리오 테스트를 고려하십시오.
- 입력 토큰 길이 : 짧은 (예 : 512 토큰) 및 중간 (예 : 3072 토큰) 입력 길이로 테스트하여 모델이 다양한 입력 크기를 처리하는 방법을 평가합니다.
- 동시성 수준 : 확장 성을 평가하기 위해 다른 동시성 수준 (예 : 1, 10)에서 성능을 평가합니다.
- 하드웨어 구성 : 작업 부하에 대한 최적의 구성을 찾기 위해 다른 수의 GPU와 함께 다양한 GPU 인스턴스 유형 (예 : P4D, G5, G6)을 사용합니다 [1] [4].

모니터링 및 평가를위한 모범 사례

- Amazon Sagemaker 사용 : Sagemaker를 사용하여 DeepSeek-R1 모델을 배포하여 관리되는 인프라 및 성능 모니터링 기능을 활용하십시오.
- 사용자 정의 테스트 : 특정 데이터 세트 및 사용 사례로 사용자 정의 테스트를 수행하여 결과가 응용 프로그램과 관련이 있는지 확인하십시오.
- 연속 모니터링 : 성능 메트릭을 정기적으로 모니터링하여 병목 현상을 식별하고 리소스 활용을 최적화합니다 [4] [7].

이러한 단계를 수행하고 올바른 도구를 사용하면 AWS GPU 인스턴스에서 DeepSeek-R1의 성능을 효과적으로 모니터링하고 평가할 수 있습니다.

인용 :
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/lattest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-performance-use-cases-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distild/deepseek-distilled-performance-evaluation-report.ipynb
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-to--ofeek-r1-s-ly-ly-ly-ly-ly-ly-ly-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-lymanaged-amazon-bedrock/