Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ako sa automatické rozsahy zlepšuje výkonnosť Deepseek-R1 na Sagemaker


Ako sa automatické rozsahy zlepšuje výkonnosť Deepseek-R1 na Sagemaker


Automatické rozsahovanie významne zvyšuje výkonnosť modelov DeepSeek-R1 na Amazon Sagemaker dynamickým úpravou počtu inštancií a kópií na základe dopytu v reálnom čase. Táto schopnosť zaisťuje, že model dokáže efektívne zvládnuť kolísanie pracovného zaťaženia, pričom poskytuje bezproblémovú používateľskú skúsenosť a zároveň optimalizuje využitie zdrojov a náklady.

Kľúčové výhody automatického rozsahu pre Deepseek-R1 na Sagemaker

1. Dynamické prideľovanie zdrojov: Automatické škála umožňuje spoločnosti SageMaker poskytovať ďalšie inštancie a nasadiť viac kópií modelu, keď sa zvyšuje prenos, čím sa zabezpečí, že model dokáže zvládnuť vyšší objem žiadostí bez ohrozenia výkonu. Naopak, keď sa prevádzka znižuje, zbytočné prípady sa odstránia, čím sa znížia náklady tým, že sa vyhýbajú nečinným zdrojom [1] [2] [5].

2. Zlepšená citlivosť: Rozšírenie tak, aby uspokojili zvýšený dopyt, automatické škála pomáha udržiavať nízku latenciu a vysokú priepustnosť. Toto je obzvlášť dôležité pre generatívne modely AI, ako je Deepseek-R1, kde responzívnosť priamo ovplyvňuje skúsenosti používateľov [2] [8].

3. Nákladová efektívnosť: Automatické rozsahy zaisťuje efektívne využívanie zdrojov. Počas hodín, ktoré nie sú špičkami, môže koncový bod znížiť na nulu, optimalizovať využitie zdrojov a nákladovú efektívnosť. Táto funkcia je obzvlášť prospešná pre aplikácie s variabilnými modelmi prenosu [1] [5].

4. Adaptívne škálovanie: Funkcie automatického rozsahu Sagemaker sú navrhnuté tak, aby sa prispôsobili špecifickým potrebám generatívnych modelov AI, ako je Deepseek-R1. Využitím metrií s vysokým rozlíšením, ako sú súbežné requestspermodely a súbežná requestsperkopia, môže systém robiť presné rozhodnutia o škálovaní, čím sa zabezpečí, že model zostane responzívny a nákladovo efektívny [2] [8].

5. Integrácia s vyrovnávaním záťaže: Automatické škálovanie funguje plynulo s elastickým vyrovnávaním záťaže, aby sa efektívne distribuovala prichádzajúce požiadavky naprieč škálovanými zdrojmi. Táto integrácia zaisťuje, že žiadna jednotlivá inštancia nie je ohromená, pričom udržiava konzistentný výkon vo všetkých požiadavkách [1] [8].

Nasadenie a hodnotenie výkonnosti

Modely Deepseek-R1 môžu byť nasadené na Sagemaker pomocou inferencie Genering Genery Face Generation Generation (TGI), ktorá podporuje automatické škálovanie. Výkon týchto modelov sa hodnotí na základe metrík, ako je latencia end-to-end, priepustnosť, čas do prvého tokenu a latencia medzi tokanmi. Zatiaľ čo poskytnuté hodnotenia ponúkajú informácie o relatívnom výkone, používatelia sa odporúča vykonať svoje vlastné testovanie, aby optimalizovali výkon pre konkrétne prípady použitia a hardvérové ​​konfigurácie [1] [4].

Stručne povedané, automatické rozsahy na Sagemaker zvyšuje výkon Deepseek-R1 zabezpečením dynamického rozdelenia zdrojov, zlepšením citlivosti, optimalizáciou nákladov a prispôsobením sa meniacim sa požiadavkám, a to všetko pri zachovaní vysoko kvalitných schopností jazykového modelu.

Citácie:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distille-models-with-hugging-for-tgi-on-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?View=all&sort=Recent&page=yj2ijoylcjUijoizgtmyktumdf0wuzn KLIVELIVETYNIVELSBYNIVEL -KLIVE -KLIVETIONAL -WIRGRIVETHKxCgrVi.CgrVId -Contingt Krvicel Advicelt0VrVIdCgrVItWvKgrBitwVItwvZBwVI. y1dMahkxcgrVItwvzi2m0clz.01Zi2M01Zi2M01ZI2M01ZI.05ZKlZBLZBWGZT0VKZBWGZT0VKZBWVZILIM05ZKLZBWGZT01NIVYTIVICALECILESTIVELE ALEMÁNAL ALEBOLOVÝCH
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distille-models-on-on-amazon-sagemaker-using-using-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws-ffers-deepseek-r1-as-flute-managed-serverless-model-remends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-arning/AMAZON-SAGEMAKER-ININGINGE-LAUNCHES-FRASTER-AUTO-SCALING-FORGENATIVE-AIAI-MODELS/