SPOT 인스턴스 인터럽트의 영향을 최소화하는 데 DeepSeek-R1에 대한 결함이 강한 아키텍처 설계, AWS 기능을 활용하며 리소스 할당 최적화에 중점을 둔 몇 가지 전략이 필요합니다. 다음은이를 달성하기위한 자세한 접근법입니다.
1. 결함 내성 아키텍처 **
인스턴스 실패를 우아하게 처리하도록 시스템을 설계하십시오. 여기에는 여러 인스턴스에 걸쳐 워크로드를 배포하고로드 밸런서를 사용하여 트래픽을 사용 가능한 노드로 리디렉션합니다. A100 또는 H100과 같은 GPU 인스턴스에 종종 배포되는 DeepSeek-R1의 경우 애플리케이션이 체크 포인트에서 재개되거나 Amazon S3 또는 EFS와 같은 지속적인 스토리지로 스토리지를 저장할 수 있는지 확인하십시오 [4] [7].2. 인스턴스 유형의 다각화 **
다양한 인스턴스 유형을 혼합하여 동시 중단 가능성을 줄입니다. 예를 들어, A100을 사용하는 경우 수영장에 H100 또는 다른 호환 GPU 유형도 포함됩니다. 이 다각화는 한 유형이 중단되면 다른 유형이 계속 실행될 수 있도록 도와줍니다 [1] [3].3. 용량 최적화 할당 전략 **
스팟 인스턴스를 시작할 때 용량 최적화 할당 전략을 사용하십시오. 이 전략은 인스턴스 유형 및 가용성 영역 (AZ)을 중단 가능성이 가장 낮고 가동 시간을 극대화합니다 [3] [7].4. 여러 가용성 영역 (AZS) 사용 **
중단의 영향을 줄이기 위해 여러 AZ에 인스턴스를 전파하십시오. 한 AZ가 정전 또는 높은 수요를 경험하면 다른 AZ의 사례는 계속 작동 할 수 있습니다 [3] [7].5. 스팟 인스턴스 인터럽트 통지 **
Eventbridge 및 Lambda와 같은 AWS 서비스를 활용하여 인스턴스 인터럽트 통지를 모니터링하고 응답하십시오. 이 통지는 인스턴스가 종료되기 전에 2 분 경고를 제공하여 작업 상태, 배수 연결 또는 재조정 워크로드를 저장할 수 있습니다 [4] [7].6. 자동 스케일링 및 재조정 **
방해가 발생하면 AWS 자동 스케일링 그룹을 구성하여 교체 인스턴스를 자동으로 시작하도록 구성하십시오. 이를 통해 최소한의 가동 중지 시간으로 작업량이 작동 상태로 유지됩니다. 또한 용량 재조정 기능을 사용하여 중단 위험이 낮은 인스턴스로 작업량을 사전에 이동시킵니다 [4] [7].7. 주문형 및 스팟 인스턴스의 조합 **
중요하지 않은 작업에 대한 스팟 인스턴스로 스케일링하는 동안 중요한 워크로드에 대한 주문형 인스턴스의 기준을 유지하십시오. 이 하이브리드 접근 방식은 필수 서비스가 중단되지 않도록 보장하면서도 여전히 스팟 인스턴스 비용 절감으로부터 혜택을 받는다 [1] [3].8. 모니터링 및 자동화 **
CloudWatch와 같은 모니터링 도구를 구현하여 인스턴스 성능을 추적하고 중단에 대한 응답을 자동화합니다. 여기에는 상태 변경에 대한 경보 설정 및 AWS Lambda 기능을 사용하여 종료 프로세스를 우아하게 처리하는 것이 포함됩니다 [7].이러한 전략을 구현함으로써 SPOT 인스턴스 중단이 DeepSeek-R1 배포에 미치는 영향을 효과적으로 최소화하여 STON 인스턴스의 비용 이점을 활용하면서 신뢰할 수있는 작동을 보장 할 수 있습니다.
인용 :
[1] https://www.reddit.com/r/aws/comments/18ki0am/how_you_are_using_aws_spot_instance_with_minimum/
[2] https://northflank.com/blog/self-host-deepseek-r1-on-aws-gcp-azure-n-k8s-in-three-easy-steps
[3] https://www.reddit.com/r/aws/comments/15b6wpv/spot_users_how_often_are_your_instances/
[4] https://docs.aws.amazon.com/whitepapers/latest/cost-optimization-leveraging-ec2-spot-instances/managing-instance-nertination.html
[5] https://docs.skypilot.co/en/latest/examples/models/deepseek-r1.html
[6] https://www.amazonaws.cn/en/ec2/spot-instances/faqs/
[7] https://memverge.com/blog/what-to-do-during-a-spot-instance-interruption/
[8] https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-oaws/