„Deepseek-R1“ veikimo stebėjimas ir įvertinimas AWS GPU egzemplioriuose apima kelis veiksmus ir įrankius. Čia yra išsamus vadovas, kaip tai padaryti efektyviai:
Stebėjimo įrankiai ir metrika
„Amazon CloudWatch“
„Amazon CloudWatch“ yra pagrindinis AWS išteklių stebėjimo įrankis, įskaitant GPU egzempliorius. Jis renka ir apdoroja neapdorotus duomenis į skaitomą, beveik realiojo laiko metriką. GPU atvejų galite stebėti tokią metriką kaip:- GPU panaudojimas: šiuo metu naudojamo GPU procentas.
- GPUMEMORYUTILIZAVIMAS: Naudojamos bendrosios GPU atminties procentas.
- Cpuutilizavimas: paskirtų EC2 skaičiavimo vienetų procentas.
- Atminties nustatymas: imties laikotarpio metu naudojamos atminties procentas.
Norėdami įjungti GPU panaudojimo metriką, turite įdiegti „Cloudwatch“ agentą savo egzemplioriuose ir sukonfigūruoti jį rinkti NVIDIA GPU metriką [2] [8].
„Nvidia“ metrika
Be „CloudWatch“ metrikos, galite naudoti komandą „NVIDIA-SMI“, norėdami stebėti GPU našumą realiuoju laiku. Ši komanda pateikia išsamią informaciją apie GPU panaudojimą, atminties naudojimą ir temperatūrą [5].„DeepSeek-R1“ veiklos įvertinimo metrika
Įvertindami „Deepseeek-R1“ modelių veikimą, sutelkite dėmesį į šią metriką:
-Latentinis vėlavimas: laikas nuo užklausos siuntimo ir atsakymo gavimo.
- pralaidumas (žetonai per sekundę): žetonų, apdorotų per sekundę, skaičius.
- Laikas iki pirmojo prieigos rakto: laikas, kurį reikia sugeneruoti pirmąjį prieigos raktą atsakant.
- Inter-Token Latency: laikas tarp kiekvieno žetono generavimo atsakyme [1] [4].
Scenarijai testavimui
Norėdami efektyviai įvertinti „Deepseek-R1“ našumą, apsvarstykite galimybę išbandyti skirtingus scenarijus:- Įvesties žetonų ilgis: Testuokite su trumpais (pvz., 512 žetonų) ir vidutinio (pvz., 3072 žetonų) įvesties ilgiu, kad įvertintumėte, kaip modelis tvarko skirtingus įvesties dydžius.
- Lygiavertės lygiai: įvertinkite veikimą pagal skirtingus suderinamumo lygius (pvz., 1, 10), kad įvertintumėte mastelį.
- Aparatūros konfigūracijos: naudokite įvairius GPU egzempliorių tipus (pvz., P4D, G5, G6) su skirtingais GPU skaičiais, kad rastumėte optimalią jūsų darbo krūvio konfigūraciją [1] [4].
geriausia stebėjimo ir vertinimo praktika
- Naudokite „Amazon Sagemaker“: diegkite „Deepseek-R1“ modelius, naudodami „Sagemaker“, kad pasinaudotumėte savo valdomomis infrastruktūros ir našumo stebėjimo galimybėmis.- Individualizuotas testavimas: atlikite pasirinktinį testavimą naudodamiesi konkrečiais duomenų rinkiniais ir naudokite atvejus, kad užtikrintumėte, jog rezultatai yra svarbūs jūsų programoje.
- Nuolatinis stebėjimas: reguliariai stebėkite našumo metriką, kad nustatytumėte kliūčių ir optimizuotų išteklių panaudojimą [4] [7].
Atlikdami šiuos veiksmus ir naudodamiesi tinkamais įrankiais, galite efektyviai stebėti ir įvertinti „Deepseek-R1“ veikimą AWS GPU egzemplioriuose.
Citatos:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-performance-use-cess-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/Blob/main/llm-performance-evaluation/deepseek-r1-distilled/deepseek-r1-distilled-performance-evaluation-report.ipynb
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-toffer-se-deepseek-r1-as-ainage-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-ulpuls-sangeaged-amazon-bedrock/