Treningstidssammenligningen mellom myk aktør-kritisk (SAC) og dypt Q-nettverk (DQN) i Openai Gym-miljøer avhenger av flere faktorer, inkludert miljøets natur, kompleksiteten i tilstanden og handlingsrommet, og de algoritmiske forskjellene mellom SAC og DQN.
Myk skuespillerkritisk (SAC) er en off-policy-algoritme som optimaliserer en stokastisk politikk ved bruk av maksimal entropiforsterkningslæring, som tar sikte på å maksimere både forventet avkastning og entropien i politikken, og fremme utforskning. SAC er designet for å fungere godt i kontinuerlige handlingsrom. Den bruker vanligvis to Q-funksjoner (for å redusere overvurderingsskjevhet), en stokastisk aktør og en temperaturparameter som justerer avveiningen mellom utforskning og utnyttelse. SAC oppdaterer policy- og verdinettverkene basert på partier som er samplet fra en replaybuffer og bruker vanligvis nevrale nettverk med mellomlag for funksjonstilnærming. Treningsoppdateringene inkluderer backpropagation -trinn som oppdaterer nettverksvekten hvert fast antall trinn. SAC er kjent for sin stabile læring og robusthet, men den iboende kompleksiteten og bruken av to Q-nettverk sammen med den stokastiske politikken betyr ofte at SAC trenger mer beregningsinnsats per trinn enn enklere algoritmer.
DQN er derimot en off-policy-metode designet hovedsakelig for diskrete handlingsrom. Den tilnærmer handlingsverdifunksjonen q (s, a) av et nevralt nettverk og bruker opplevelsesreplay og målnettverk for å stabilisere trening. DQN-agenten velger handlinger ved å maksimere Q-verdiene og oppdaterer Q-nettverket ved å minimere et tidsmessig forskjellstap ved å bruke minikatser fra replaybufferen med faste intervaller under trening. Sammenlignet med SAC har DQN generelt en enklere arkitektur siden den bare involverer ett Q-nettverk og en deterministisk politikk avledet fra Q-verdiene.
Når det gjelder treningstid, indikerer studier og eksperimenter rapportert av utøvere og forskning at:
1. DQN er ofte raskere per treningstrinn enn SAC på grunn av sin enklere arkitektur ** Â Bare et enkelt Q-nettverk er trent og policyen er deterministisk, så det krever færre beregninger enn de stokastiske policyoppdateringene og flere nettverk i SAC. Dette betyr vanligvis lavere veggklokke tid per iterasjon for DQN.
2. Imidlertid krever SAC ofte mer data- og treningstrinn for å oppnå sammenlignbare ytelser, spesielt i miljøer med kontinuerlige handlingsrom der DQN ikke er aktuelt eller mindre effektivt. SAC drar nytte av bedre utforskning via entropi -maksimering, noe som kan forlenge treningstiden, men fører til mer robuste politikker.
3. I diskrete handlingsmiljøer som er tilgjengelige i Openai Gym, kan DQN ofte overgå SAC når det gjelder innledende læringshastighet på grunn av sin enklere politikk og estimering av raskere verdi. Men SACs ytelse skalerer typisk bedre i komplekse miljøer, spesielt kontinuerlige, der prøvetakingseffektivitet og politiske robusthet er kritiske.
4. I følge noen sammenlignende rapporter, betyr DQNs enklere treningsrørledning og færre nettverksoppdateringer per trinn at det ofte fullfører trening i mindre veggklokke tid sammenlignet med SAC når begge blir brukt på diskrete handlingsoppgaver. SACs treningstid skyldes å beregne gradienter for flere nettverk, temperaturjustering for entropi og prøvetaking fra replaybuffere som kan kreve større batchstørrelser.
5. Forskningsartikler og implementeringer viser at SAC-treningsøkter i miljøer som Reacher-V2 (et kontinuerlig kontroll av Openai Gym-miljøet) har en tendens til å vare betydelig lenger i beregningstiden sammenlignet med DQN-kjøringer i diskrete oppgaver som Atari-spill eller Cartpole, fordi SAC-tog toget politikk og verdiskettverk mer intensivt per iterasjon.
6. Empiriske benchmarks illustrerer at i miljøer som Openai Gyms Mujoco kontinuerlige kontrolloppgaver, foretrekkes SAC til tross for lengre treningstider fordi den oppnår politikk av høyere kvalitet og bedre generalisering. Derimot, for enklere diskrete kontrollmiljøer, trener DQN ofte raskere og når akseptabel ytelse raskere på grunn av designens enkelhet.
Oppsummert, for Openai Gym -miljøer:
- DQN er vanligvis raskere for å trene per trinn og krever færre beregningsressurser for diskrete handlingsrom.
- SAC krever lengre treningstider på grunn av dets doble Q-nettverk, stokastisk politikklæring og entropi-maksimering, men gir ofte sterkere politikk, spesielt i kontinuerlige handlingsdomener.
-SAC kan trenge flere treningstrinn og veggklokke tid enn DQN når de brukes på sammenlignbare miljøer, men det oppnår bedre politikkens robusthet og leting avveininger.
- Valget mellom de to avhenger av miljøegenskaper (kontinuerlige kontra diskrete handlinger), ønsket politisk robusthet og beregningsbudsjett.