AWS GPU 인스턴스에서 DeepSeek-R1 모델의 대기 시간 및 처리량을 최적화하려면 AWS 서비스, 하드웨어 구성 및 모델 최적화를 활용하는 몇 가지 전략이 필요합니다. 다음은 성능 향상을위한 자세한 안내서입니다.
1. 올바른 하드웨어 선택 **
- 인스턴스 선택 : AWS는 각각 다른 GPU 유형 (예 : NVIDIA A10G, L4, L40 및 A100)을 갖는`ML.G5`,`ML.G6` 및`ML.P4D`와 같은 다양한 GPU 인스턴스를 제공합니다. DeepSeek-R1 모델의 경우`ml.g6e.xlarge` 및`ml.p4d.24xlarge`와 같은 인스턴스는 강력한 GPU와 메모리 용량으로 인해 고성능을 보여주었습니다 [1] [4].-GPU 수 : 인스턴스 당 GPU 수를 늘리면 여러 GPU에 걸쳐 모델 샤딩을 허용함으로써 처리량을 크게 향상시킬 수 있습니다. DeepSeek-R1-Distill-Llama-70B와 같은 대규모 모델의 경우 8 GPU (예 :`ML.G6E.48XLARGE`)가있는 인스턴스를 사용하는 것이 권장됩니다 [4].
2. 모델 최적화 기술 **
-모델 증류 : DeepSeek-R1-Distill-Qwen 및 LLAMA 변형과 같은 DeepSeek-R1의 증류 버전을 사용하면 수용 가능한 성능을 유지하면서 계산 요구 사항을 줄일 수 있습니다. 이 모델은 더 작고 효율적이므로 하위 엔드 GPU에 적합합니다 [1] [3].- 양자화 및 혼합 정밀도 : 양자화 및 혼합 정밀도 (예 : BFLOAT16 사용)와 같은 기술은 메모리 사용량을 줄이고 상당한 정확도 손실없이 추론 속도를 향상시킬 수 있습니다 [1].
3. AWS 서비스 및 도구 **
-Amazon Sagemaker : DeepSeek-R1 모델에 Sagemaker의 간소화 된 배포 프로세스를 활용하십시오. 그것은 모델 호스팅 및 최적화를 단순화하는 포옹 얼굴 텍스트 생성 추론 (TGI)을 지원합니다 [1].-DeepSpeed : EC2 인스턴스에서 리소스 사용량을 최적화하기 위해 DeepSpeed 기술을 활용합니다. 이로 인해 자원이 적어 비용이 줄어들어 비용이 줄어 듭니다 [2].
4. 확장 성과 동시성 **
- 동시성 설정 : 응용 프로그램의 요구에 따라 동시성 레벨을 조정하십시오. 동시성이 높을수록 처리량이 증가 할 수 있지만 제대로 관리하지 않으면 대기 시간이 증가 할 수 있습니다 [4].-자동 스케일링 : EC2 자동 스케일링 또는 Sagemaker의 내장 스케일링 기능과 같은 AWS 서비스를 사용하여 자동 스케일링을 구현하여 워크로드 요구에 따라 인스턴스 수를 동적으로 조정합니다 [6].
5. 입력/출력 작업 최적화 **
- 입력 토큰 길이 : 입력 토큰 길이가 다른 모델의 성능을 평가합니다. 입력이 짧아지면 일반적으로 추론 시간이 더 빠른 반면 입력이 길면 더 강력한 인스턴스가 필요할 수 있습니다 [1] [4].- 출력 토큰 길이 : 마찬가지로 출력 토큰 길이를 조정하면 성능에 영향을 줄 수 있습니다. 특정 사용 사례에 따라 이러한 매개 변수를 최적화하십시오.
6. 비용 최적화 **
- 인스턴스 유형 : 최고의 가격 성능 비율을 제공하는 인스턴스 유형을 선택하여 균형 성능 및 비용. 예를 들어, G4 인스턴스는 AI 워크로드에서 비용 효율성에 대해 언급됩니다 [2].- 예약 된 인스턴스 및 스팟 인스턴스 : 예측 가능한 워크로드에 예약 된 인스턴스를 사용하고 배치 작업이나 비용을 줄이기 위해 중단이 허용되는 작업에 대한 스팟 인스턴스를 사용합니다 [3].
이러한 전략을 구현하면 AWS GPU 인스턴스에서 DeepSeek-R1 모델의 대기 시간 및 처리량을 크게 최적화 할 수 있습니다.
인용 :
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[2] https://community.aws/content/2shgs4eqeekz32oozn7am5lngex/benefits-of-installing-deepseek-on-an-aws-ec2-instance?lang=en
[3] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-batch-inference-on-aws-graveiton4?lang=en
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.reddit.com/r/selfhosted/comments/1ibl5wr/how_much_money_would_i_need_to_run_r1_deepseek/
[6] https://community.aws/content/2siuccxq3fbz5ntfgtguzui90y2/deepseek-r1-guide-to-running-multiple-variants-on-aws
[7] https://huggingface.co/blog/deepseek-r1-aws
[8] https://aws.amazon.com/blogs/machine-learning/deepseek-r1-model-now-avail-in-amazon-bedrock-marketplace-and-amazon-sagemaker-jumpstart/
[9] https://vagon.io/blog/a-step-by-step-guide-to-running-deepseek-r1-on-vagon-cloud-desktops