Amazon Sagemaker에서 DeepSeek-R1 모델의 성능을 평가할 때 효율성과 효과를 평가하기 위해 몇 가지 주요 메트릭이 사용됩니다. 이러한 메트릭은 실제 응용 프로그램, 특히 대응 성, 확장 성 및 비용 효율성 측면에서 모델이 얼마나 잘 수행되는지 이해하는 데 중요합니다.
키 성능 지표
1. 엔드 투 엔드 대기 시간 :이 메트릭은 응답 수신에 요청을 보내는 데 걸리는 총 시간을 측정합니다. 모델이 적시 출력을 제공하는 것이 필수적이며, 이는 사용자 경험과 시스템 대응성에 직접 영향을 미칩니다 [1] [4].
2. 처리량 (초당 토큰) : 처리량은 초당 처리 된 토큰 수를 나타냅니다. 모델이 대량의 데이터를 얼마나 효율적으로 처리 할 수 있는지를 나타냅니다. 이는 고속 처리가 필요한 응용 프로그램에 필수적입니다 [1] [4].
3. 첫 토큰 시간 :이 메트릭은 입력을 수신 한 후 모델이 첫 번째 출력 토큰을 생성하는 데 걸리는 시간을 측정합니다. 즉각적인 피드백이 필요한 응용 프로그램에 중요합니다 [1] [4].
4. 간호 대기 시간 : 이것은 연속 토큰 생성 사이의 시간을 측정합니다. 모델의 전반적인 속도와 응답 성, 특히 실시간 응용 분야에서 [1] [4]에 영향을 미칩니다.
평가 시나리오
- 입력 토큰 길이 : 평가는 일반적으로 다양한 입력 토큰 길이를 사용하여 수행하여 다양한 실제 시나리오를 시뮬레이션합니다. 예를 들어, 테스트는 짧은 길이의 입력 (512 토큰)과 중간 길이의 입력 (3072 토큰)을 사용하여 다양한 조건에서 성능을 평가할 수 있습니다 [1] [4].
- 동시성 : 테스트는 종종 여러 사용자 또는 요청을 동시에 시뮬레이션하기 위해 동시성으로 실행됩니다. 이를 통해 모델이 성능을 손상시키지 않으면 서 부하 증가를 얼마나 잘 처리하는지 평가하는 데 도움이됩니다 [1] [4].
- 하드웨어 변동성 : 성능은 여러 GPU가있는 인스턴스를 포함하여 다양한 하드웨어 구성에 걸쳐 평가되어 다양한 계산 리소스로 모델이 어떻게 확장되는지 이해합니다 [1] [4].
평가의 중요성
이러한 메트릭을 평가하는 것은 Sagemaker에서 DeepSeek-R1 모델의 배포를 최적화하는 데 중요합니다. 개발자는 다양한 조건에서 모델의 수행 방식을 이해함으로써 구성을 미세 조정하여 더 나은 응답 성, 확장 성 및 비용 효율성을 달성 할 수 있습니다. 이 과정에는 모델이 특정 응용 프로그램 요구 사항을 충족하도록하기 위해 반복 테스트 및 최적화가 포함됩니다 [2] [4].
추가 고려 사항
위의 메트릭은 모델의 기술 성능에 중점을 두지 만 보안 위험 및 윤리적 고려 사항과 같은 다른 측면도 평가해야합니다. 예를 들어, 생산 환경에서 안전한 배포를 보장하기 위해 모델의 잠재적 취약성을 평가하는 것이 중요합니다 [6]. 또한 Sagemaker의 모델 모니터 및 디버거와 같은 도구를 활용하면 모델 개발 및 배포 중에 문제를 식별하고 해결하는 데 도움이 될 수 있습니다 [2].
인용 :
[1] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[2] https://www.bdrsuite.com/blog/model-evaluation-with-amazon-sagemaker/
[3] https://www.popai.pro/templatesasset/resources/everything-about-deepseek/
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor-model-quality-metrics.html
[6] https://blogs.cisco.com/security/evaluating-security-nepeepseek-nother-frontier-models
[7] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/performance-evaluation/deepseek-r1-distild/deepseek-distilled-performance-evaluation-report.ipynb
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html