Amazon Sagemaker의 DeepSeek-R1 모델에 대한 자동 스케일링

Amazon Sagemaker의 DeepSeek-R1 모델에 대한 자동 스케일링은 이러한 대형 언어 모델이 들어오는 요청의 양에 따라 자원을 동적으로 조정할 수있는 중요한 기능입니다. 이 기능은 실제 응용 프로그램의 응답 성, 신뢰성 및 비용 효율성을 유지하는 데 필수적입니다. 다음은 Sagemaker의 DeepSeek-R1에 대한 자동 스케일링의 작동 방식에 대한 자세한 개요입니다.

자동 스케일링 개요

Sagemaker의 자동 스케일링은 워크로드를 기반으로 인스턴스 수를 자동으로 조정하도록 설계되었습니다. DeepSeek-R1 모델의 경우, 이는 Sagemaker 엔드 포인트가 수평으로 확장하여 더 많은 인스턴스를 추가하여 트래픽 증가를 처리 할 수 있음을 의미합니다. 반대로 수요가 적은 기간 동안 Sagemaker는 제로 인스턴스로 확장하여 리소스 사용량을 최적화하고 비용을 줄일 수 있습니다.

자동 스케일링의 주요 구성 요소

1.로드 밸런싱 : SAGEMAKER 엔드 포인트는 자동로드 밸런싱을 지원하여 여러 인스턴스에 걸쳐 들어오는 요청을 분배합니다. 이를 통해 단일 인스턴스가 압도되지 않도록 하중 조건에서도 일관된 성능을 유지합니다.

2. 스케일링 정책 : 사용자는 CPU 사용 또는 요청 대기 시간과 같은 특정 메트릭을 기반으로 스케일링 정책을 정의 할 수 있습니다. 이러한 정책은 언제 확장 또는 아래로 확장 해야하는지 결정합니다. DeepSeek-R1 모델의 경우 일반적인 메트릭에는 엔드 투 엔드 대기 시간, 처리량 토큰, 첫 토큰까지의 시간 및 고정 대기 시간이 포함될 수 있습니다.

3. 동시성 및 인스턴스 유형 : DeepSeek-R1 모델은 각각 다른 GPU 구성 (예 : 인스턴스 당 1, 4 또는 8 GPU)을 갖는 다양한 인스턴스 유형에 배포 할 수 있습니다. 인스턴스 유형의 선택은 모델의 성능 및 확장 성에 영향을 미칩니다. 적절한 인스턴스 유형을 선택하고 동시성 수준을 구성함으로써 사용자는 모델의 응답 성과 효율성을 최적화 할 수 있습니다.

배포 프로세스

Sagemaker에서 자동 스케일링으로 DeepSeek-R1 모델을 배포하려면 일반적으로 다음 단계를 수행합니다.

-모델 선택 : 성능과 효율성 사이의 균형을 제공하는 증류 버전 (예 : DeepSeek-R1-Distill-Llama-8B)과 같은 적절한 DeepSeek-R1 모델 변형을 선택하십시오.

- 엔드 포인트 구성 : 선택한 모델로 Sagemaker 엔드 포인트를 설정합니다. 여기에는 모델의 위치 (예 : 포옹 페이스 허브 또는 개인 S3 버킷), 환경 변수 구성 및 인스턴스 유형 및 초기 인스턴스 수를 정의하는 것이 포함됩니다.

-자동 스케일링 구성 : 원하는 메트릭 (예 : CPU 사용)을 기반으로 자동 스케일링 정책을 정의합니다. 이를 통해 작업량의 변화에 따라 엔드 포인트 스케일이 동적으로 스케일되도록합니다.

- 모니터링 및 최적화 : 최적의 성능 및 비용 효율성을 유지하기 위해 필요한 경우 엔드 포인트의 성능을 지속적으로 모니터링하고 조정 정책을 조정합니다.

DeepSeek-R1의 자동 스케일링의 이점

- 비용 효율성 : 수요가 적은 기간 동안 스케일링하여 조직은 대형 언어 모델 실행과 관련된 비용을 크게 줄일 수 있습니다.
- 응답 개선 성 : 자동 스케일링은 높은 부하 조건에서도 모델이 반응 형을 유지하여 사용자 경험을 향상시킵니다.
- 단순화 된 관리 : Sagemaker의 관리 인프라는 배포 및 스케일링 프로세스를 단순화하여 개발자가 인프라 관리보다는 모델 개발 및 애플리케이션 통합에 집중할 수 있습니다.

전반적으로 Sagemaker의 DeepSeek-R1 모델에 대한 자동 스케일링은 고급 언어 모델을 배포하는 강력하고 효율적인 방법을 제공하여 고성능 및 비용 효율성을 유지하면서 다양한 워크로드를 처리 할 수 있도록합니다.

인용 :
[1] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[2] https://blogs.cisco.com/security/evaluating-security-nepeepseek-nother-frontier-models
[3] https://repost.aws/questions?view=lall&sort=recent&page=eyj2ijoylcjuiMxfkulbzbgfwotbz QXFGAKL5NZBXUT09IIIWIDCI6ILFJBXDXDLPTBTRGZKNHZKVPRJLWSSTZA2HSMDGYMUTJWE1RDHKZSE5SNFK9IN0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=lall&sort=recent&page=eyj2ijoylcjuiiqup4cuorys9pt29q aehntjh6ndy09iiiwidci6innvcunvrmfimfq0otluc1v5mkftawjpwmjvthlkofjmttrxd3yvyzrtcmc9in0
[7] https://www.oneclickitsolution.com/centerofexcellence/aiml/deploy-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-o-aws-bedrock/
[9] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leveraging-deepseek-r1-on-oaws?lang=en

Sagemaker의 DeepSeek-R1의 자동 스케일링은 어떻게 작동합니까?

자동 스케일링 개요

자동 스케일링의 주요 구성 요소

배포 프로세스

DeepSeek-R1의 자동 스케일링의 이점