Auton scaling elastisella kuorman tasapainotuksella (ELB) Amazon Sagemakerissa sisältää dynaamisesti säätävien tapausten määrää työmäärän vaatimusten perusteella jakaen samalla saapuvan liikenteen jakautuneena näihin tapauksiin. Tässä on yksityiskohtainen yleiskatsaus tämän integraation toiminnasta:
Automaattinen scaling in Sagemaker
Amazon Sagemaker tukee automaattisen scalointia reaaliaikaisten päätepisteiden suhteen, jolloin järjestelmä voi dynaamisesti säätää mallia, joka on annettu mallille vastauksena päätelmän työmäärän muutoksiin [3] [7]. Tämä ominaisuus varmistaa, että resurssit optimoidaan skaalaamalla pois ruuhka-aikoina ja skaalaamalla vähäisen kysynnän aikana, pitäen siten optimaalista suorituskykyä minimoimalla kustannukset [1] [3].
SAGEMAKER tarjoaa useita automaattisen scaling-vaihtoehtoja, mukaan lukien tavoitteiden seurannan skaalaus, vaiheen skaalaus ja suunniteltu skaalaus. Kohteen seurantaa käytetään yleisesti, jossa asetat kohdemittarit (esim. CPU: n käyttö) ja SAGEMAKER säätää ilmentymän määrän ylläpitämään tätä kohdetta [3] [5].
Elastinen kuorman tasapainotus (ELB) integraatio
Vaikka Sagemakerin automaattinen scaling keskittyy ensisijaisesti esiintymän säätämiseen, joka perustuu työmäärän mittareihin, integroituminen elastiseen kuorman tasapainottamiseen parantaa liikenteen jakautumista näissä tapauksissa. ELB varmistaa, että saapuvat pyynnöt reititetään optimaalisesti käytettävissä oleviin tapauksiin, parantamalla reagointia ja vähentämällä pullonkauloja [9].
Tyypillisessä asennuksessa ELB rekisteröi esiintymät automaattisessa skaalausryhmässä ja jakaa liikennettä niiden yli. Kun esiintymät lisätään tai poistetaan automaattisesti, ELB säätää kokoonpanoaan automaattisesti näiden tapausten sisällyttämiseksi tai sulkemiseksi pois varmistaen, että liikenne on aina suunnattu aktiivisiin tapauksiin [9].
Kuinka automaattinen scaling toimii ELB: n kanssa Sagemakerissa
1. Työmäärän seuranta: Sagemaker tarkkailee työmäärän mittareita, kuten suorittimen käyttöä tai samanaikaisia pyyntöjä tapausta kohti. Jos nämä mittarit ylittävät ennalta määritetyt kynnysarvot, automaattisen scaling-käytäntö käynnistyy [2] [3].
2. ELB rekisteröi nämä uudet tapaukset automaattisesti ja alkaa levittää liikennettä heille. Päinvastoin, kun työmäärä laskee, Sagemaker asteikot poistamalla tarpeettomat tapaukset ja ELB -purkautumiset nämä tapaukset estääkseen niitä saamasta liikennettä [2] [9].
3. Liikenteenjakelu: Koko tämän prosessin ajan ELB varmistaa, että saapuvat pyynnöt jakautuvat tehokkaasti aktiivisiin tapauksiin. Tämä ei vain paranna suorituskykyä, vaan auttaa myös ylläpitämään jatkuvaa käyttökokemusta minimoimalla vastausajat ja välttämällä pullonkauloja [9].
4. Kustannusten optimointi: Skaalaamalla esiintymiä todellisen kysynnän perusteella ja ELB: n avulla liikenteen jakelun hallintaan organisaatiot voivat optimoida kustannuksensa. He maksavat vain käyttämistä resursseista, mikä vähentää tarpeettomia kuluja alhaisen kysynnän aikana [3] [7].
Yhteenvetona voidaan todeta, että automaattisen scalingin integrointi joustavan kuormituksen tasapainottamiseen Sagemakeriin tarjoaa vankan ja tehokkaan tavan hallita reaaliaikaisia päätelmiä. Se varmistaa, että resursseja on dynaamisesti mukautettu vastaamaan muuttuvia vaatimuksia säilyttäen samalla optimaalisen suorituskyvyn ja kustannustehokkuuden.
Viittaukset:
.
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
.
.
.
.
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/