Vertinant „Deepseeek-R1“ modelių veikimą „Amazon Sagemaker“, jų efektyvumui ir efektyvumui įvertinti naudojami keli pagrindiniai metrikos. Ši metrika yra labai svarbi norint suprasti, kaip modeliai veikia realaus pasaulio programose, ypač atsižvelgiant į reagavimą, mastelio keitimą ir ekonomiškumą.
Pagrindinės veiklos metrika
1. Velstis iki galo: Ši metrika išmatuoja visą laiką, paimtą nuo prašymo siuntimo iki atsakymo gavimo. Labai svarbu užtikrinti, kad modelis pateiktų laiku pateiktus rezultatus, o tai daro tiesioginę įtaką vartotojo patirčiai ir sistemos reagavimui [1] [4].
2. Pralaidumas (žetonai per sekundę): pralaidumas reiškia žetonų, apdorotų per sekundę, skaičių. Tai rodo, kaip efektyviai modelis gali tvarkyti didelius duomenų kiekius, kurie yra gyvybiškai svarbūs programoms, kurioms reikalingas greitas apdorojimas [1] [4].
3. Laikas iki pirmojo prieigos rakto: Ši metrika matuoja laiką, kurį modelis sugeneruoja pirmąjį išvesties žetoną gavus įvestį. Svarbu pritaikyti programas, kai reikia nedelsiant grįžtamasis ryšys [1] [4].
4. Tarpakinis latentinis latentinis latentinis: tai matuoja laiką tarp iš eilės einančių žetonų generavimo. Tai daro įtaką bendram modelio greičiui ir reagavimui, ypač realiojo laiko programose [1] [4].
Vertinimo scenarijai
- Įvesties žetonų ilgis: Įvertinimai paprastai atliekami naudojant skirtingus įvesties žetonų ilgį, kad būtų galima modeliuoti įvairius realaus pasaulio scenarijus. Pvz., Testuose gali būti naudojami trumpo ilgio įėjimai (512 žetonai) ir vidutinio ilgio įėjimai (3072 žetonai), kad būtų galima įvertinti našumą skirtingomis sąlygomis [1] [4].
- Lygiagretė: testai dažnai vykdomi kartu su tuo pačiu metu modeliuojant kelis vartotojus ar užklausas. Tai padeda įvertinti, kaip gerai modelis tvarko padidintą apkrovą nepakenkiant našumui [1] [4].
- Aparatūros kintamumas: Našumas įvertinamas įvairiose aparatinės įrangos konfigūracijose, įskaitant egzempliorius su keliais GPU, siekiant suprasti, kaip modelis mastelio keitimas su skirtingais skaičiavimo ištekliais [1] [4].
Vertinimo svarba
Šių metrikų vertinimas yra labai svarbus norint optimizuoti „Deepseeek-R1“ modelių diegimą „Sagemaker“. Supratę, kaip modelis veikia skirtingomis sąlygomis, kūrėjai gali tiksliai sureguliuoti konfigūracijas, kad pasiektų geresnį reagavimą, mastelį ir ekonominį efektyvumą. Šis procesas apima iteracinį testavimą ir optimizavimą, siekiant užtikrinti, kad modelis atitiktų konkrečius taikymo reikalavimus [2] [4].
Papildomi svarstymai
Nors aukščiau pateiktoje metrikoje pagrindinis dėmesys skiriamas techniniam modelio veikimui, taip pat reikėtų įvertinti ir kitus aspektus, tokius kaip saugumo rizika ir etiniai svarstymai. Pavyzdžiui, norint užtikrinti saugų diegimą gamybos aplinkoje, svarbu įvertinti galimą modelio pažeidžiamumą [6]. Be to, tokios priemonės kaip „Sagemaker“ modelio monitorius ir derinimo priemonė gali padėti nustatyti ir spręsti problemas kuriant modelį ir diegti [2].
Citatos:
[1] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[2] https://www.bdrsuite.com/blog/model-evaluation-with-amazon-sagemaker/
[3] https://www.popai.pro/templatesasset/resources/everything-about-deepseek/
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor-model-quality-metrics.html
[6] https://blogs.cisco.com/security/evaluating-security -risk-in-deepseek-and-ther-frontier-reasoning-models
[7] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distilled/deepseek-r1-distilled-performance-evaluation-report.ipynb
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html