Monitorování a hodnocení výkonnosti DeepSeek-R1 v instancích AWS GPU

Jak mohu sledovat a vyhodnotit výkon DeepSeek-R1 v AWS GPU instans

Sledování a hodnocení výkonu DeepSeek-R1 v instancích GPU AWS zahrnuje několik kroků a nástrojů. Zde je podrobný průvodce, jak to udělat efektivně:

Monitorovací nástroje a metriky

Amazon CloudWatch

Amazon CloudWatch je klíčovým nástrojem pro monitorování zdrojů AWS, včetně instancí GPU. Shromažďuje a zpracovává surová data do čitelných metrik v reálném čase. Pro instance GPU můžete sledovat metriky, jako jsou:
- Využití GPU: Procento přidělených GPU, které se aktuálně používají.
- GPUmemoryTutilizace: Procento celkové používané paměti GPU.
- CPUUTILIZACE: Procento přidělených výpočetních jednotek EC2.
- Paměťulizace: Procento paměti použité během období vzorku.

Chcete -li povolit metriky využití GPU, musíte do svých instancí nainstalovat agent CloudWatch a nakonfigurovat jej tak, aby shromažďoval metriky GPU NVIDIA [2] [8].

Nvidia Metrics

Kromě metrik CloudWatch můžete použít příkaz „Nvidia-SMI“ ke sledování výkonu GPU v reálném čase. Tento příkaz poskytuje podrobné informace o využití GPU, využití paměti a teplotě [5].

Metriky hodnocení výkonu pro DeepSeek-R1

Při hodnocení výkonu modelů DeepSeek-R1 se zaměřte na následující metriky:
-Latence end-to-end: Čas mezi odesláním požadavku a přijetím odpovědi.
- Propustnost (žetony za sekundu): Počet tokenů zpracovaných za sekundu.
- Čas do prvního tokenu: Čas potřebný k vytvoření prvního tokenu v odpovědi.
- Meziopojovací latence: Čas mezi generováním každého tokenu v reakci [1] [4].

Scénáře pro testování

Chcete-li efektivně vyhodnotit výkon DeepSeek-R1, zvažte testování různých scénářů:
- Délka vstupních tokenů: Test s krátkými (např. 512 tokeny) a médium (např. 3072 tokenů) vstupních délek, aby se posoudilo, jak model zpracovává měnící se velikost vstupů.
- Úrovně souběžnosti: Vyhodnoťte výkon za různých úrovní souběžnosti (např. 1, 10), abyste posoudili škálovatelnost.
- Konfigurace hardwaru: Použijte různé typy instancí GPU (např. P4D, G5, G6) s různým počtem GPU a najdete optimální konfiguraci pro vaše pracovní zátěž [1] [4].

osvědčené postupy pro monitorování a hodnocení

- Použijte Amazon SageMaker: Nasaďte modely DeepSeek-R1 využívající SAGEMaker k využití schopností spravované infrastruktury a monitorování výkonu.
- Vlastní testování: Proveďte vlastní testování s vašimi konkrétními datovými sadami a případy použití, abyste zajistili, že výsledky jsou relevantní pro vaši aplikaci.
- Nepřetržité monitorování: Pravidelně sledujte metriky výkonu pro identifikaci úzkých míst a optimalizaci využití zdrojů [4] [7].

Dodržováním těchto kroků a používáním správných nástrojů můžete efektivně sledovat a vyhodnotit výkon DeepSeek-R1 v instancích AWS GPU.

Citace:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-face-tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseeKr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-erformance-use-sases-and-cost-optimalizace/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distilled/deepseek-rIstIlled-Performance-evaluation-report.iPynb
[7] https://virtualizationreview.com/articles/2025/03/11/aws--cloud-to-ferfer-deepseek-r1-As-Asfuls-Serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-alful-aged-amazon-hedrock/