DeepSeek-R1을 사용한 자동 스케일링은 특히 Amazon Sagemaker와 같은 플랫폼에 배포 될 때 다양한 유형의 요청 또는 시나리오를 처리하도록 사용자 정의 할 수 있습니다. SAGEMAKER ENDPOINTS는 자동 스케일링을 지원하므로 DeepSeek-R1이 들어오는 요청 볼에 따라 수평으로 확장 할 수 있습니다. 이는 모델이 다양한 부하를 관리하기 위해 리소스를 동적으로 조정하여 다양한 조건에서 효율적인 성능을 보장 할 수 있음을 의미합니다.
자동 스케일링의 사용자 정의
1. 요청 볼륨 : 들어오는 요청의 양에 따라 자동 스케일링을 트리거 할 수 있습니다. 예를 들어, 모델이 많은 수의 쿼리를 동시에 처리하는 경우, 성능을 손상시키지 않고 모든 요청을 즉시 처리 할 수 있도록 자동으로 확장 할 수 있습니다.
2. 요청 유형 : 요청 유형 (예 : 복잡한 추론 작업 대 간단한 쿼리)을 기반으로 자동 스케일링의 특정 사용자 정의는 상자 외부에서 직접 지원되지 않을 수 있지만 요청 유형을 구별하기 위해 사용자 정의 로직을 구현할 수 있습니다. 여기에는 자체 스케일링 규칙이있는 다양한 유형의 요청에 대한 별도의 엔드 포인트 또는 큐를 설정하는 것이 포함될 수 있습니다.
3. 시나리오 기반 스케일링 : 피크 시간 또는 특정 이벤트와 같은 다양한 시나리오의 경우 규모 확장 규칙을 사전 구성하여 수요 증가를 예상 할 수 있습니다. 이 사전 예방 적 접근 방식은 모델이 트래픽에서 예상 스파이크를 처리 할 수 있도록 적절하게 자원을 제공합니다.
플랫폼에서구현
-Amazon Sagemaker : 사전 구축 된 미세 조정 워크 플로우를 제공하고 DeepSeek-R1 증류 모델의 자동 스케일링을 지원합니다. Sagemaker Hyperpod 레시피를 사용하여 모델 사용자 정의 및 스케일링 프로세스를 단순화 할 수 있습니다 [5] [7].
- 함께 AI : DeepSeek-R1에 대한 서버리스 배포 옵션을 제공하며, 이는 요청 볼륨을 기반으로 동적 스케일링을 지원합니다. 그러나 다른 요청 유형에 대한 특정 사용자 정의에는 추가 설정 또는 사용자 정의 로직 통합이 필요할 수 있습니다 [2].
결론
DeepSeek-R1의 자동 스케일링 기능은 특히 Sagemaker와 같은 플랫폼에서 강력하지만 다양한 유형의 요청 또는 시나리오에 대해 이러한 기능을 사용자 정의하려면 추가 설정 또는 사용자 정의 로직 통합이 필요할 수 있습니다. 여기에는 요청 유형이나 시나리오를 구별하기 위해 플랫폼의 기능을 활용하고 그에 따라 스케일링 규칙을 구성하는 것이 포함됩니다.
인용 :
[1] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-rouseing-model
[2] https://www.together.ai/models/deepseek-r1
[3] https://www.pixelstech.net/article/1739167426-Deepseek-r1-locally-with-a-custom-rag- knowledge-data-base
[4] https://www.kdnuggets.com/how-to-fine-tune-deepseek-r1-custom-dataset
[5] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[6] https://www.endorlabs.com/learn/deepseek-r1-whatecurity-teams-need-to- know? 42a57130_page=2
[7] https://aws.amazon.com/blogs/machine-learning/customize-deepseek-r1-distilled-models-using-amazon-sagemaker-hyperpod-recipes-part-1/
[8] https://campustechnology.com/articles/2025/03/14/aws- offers-deepseek-r1-as-ly-ly-ly-ly-ly-ly-ly-ly-manging-serverless-model-guardrails.aspx