Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hvordan sammenligner træningstiden for blød skuespiller-kritisk med DQN i Openai Gym-miljøer


Hvordan sammenligner træningstiden for blød skuespiller-kritisk med DQN i Openai Gym-miljøer


Sammenligning af træningstid mellem blød skuespiller-kritisk (SAC) og dybt Q-netværk (DQN) i Openai Gym-miljøer afhænger af flere faktorer, herunder miljøets art, kompleksiteten af ​​staten og handlingsrummet og de algoritmiske forskelle mellem SAC og DQN.

Soft skuespiller-kritisk (SAC) er en off-policy algoritme, der optimerer en stokastisk politik ved hjælp af maksimal entropi-forstærkningslæring, der sigter mod at maksimere både det forventede afkast og entropien af ​​politikken og fremme efterforskning. SAC er designet til at fungere godt i kontinuerlige actionrum. Det anvender typisk to Q-funktioner (for at reducere overvurderingsbias), en stokastisk skuespiller og en temperaturparameter, der justerer afvejen mellem efterforskning og udnyttelse. SAC opdaterer politik- og værdienetværk baseret på batches, der er samplet fra en gentagelsesbuffer og bruger typisk neurale netværk med mellemliggende lag til funktions tilnærmelse. Uddannelsesopdateringerne inkluderer backpropagationstrin, der opdaterer netværksvægte hvert fast antal trin. SAC er kendt for sin stabile læring og robusthed, men den iboende kompleksitet og brugen af ​​to Q-Networks sammen med den stokastiske politik betyder ofte, at SAC har brug for mere beregningsindsats pr. Trin end enklere algoritmer.

DQN er på den anden side en off-policy-metode designet hovedsageligt til diskrete handlingsrum. Det tilnærmer sig handlingsværdifunktionen Q (S, A) af et neuralt netværk og bruger erfaring med replay og målnetværk til at stabilisere træning. DQN-agenten vælger handlinger ved at maksimere Q-værdier og opdaterer sit Q-netværk ved at minimere et tidsmæssigt forskelstab ved hjælp af mini-batches fra replay-bufferen med faste intervaller under træning. Sammenlignet med SAC har DQN generelt en enklere arkitektur, da den kun involverer et Q-netværk og en deterministisk politik, der stammer fra Q-værdierne.

Med hensyn til træningstid indikerer undersøgelser og eksperimenter rapporteret af praktikere og forskning, at:

1. DQN er ofte hurtigere pr. Træningstrin end SAC på grund af sin enklere arkitektur ** Â Kun et enkelt Q-netværk er trænet, og politikken er deterministisk, så den kræver færre beregninger end de stokastiske politiske opdateringer og flere netværk i SAC. Dette oversættes normalt til lavere væg-klokketid pr. Iteration for DQN.

2.. SAC kræver dog ofte flere data- og træningstrin for at nå sammenlignelige ydelser, især i miljøer med kontinuerlige actionrum, hvor DQN ikke er relevant eller mindre effektiv. SAC drager fordel af bedre efterforskning via maksimering af entropi, som kan forlænge træningstiden, men fører til mere robuste politikker.

3. I diskrete handlingsmiljøer, der er tilgængelige i Openai Gym, kan DQN ofte overgå SAC med hensyn til den første læringshastighed på grund af dens enklere politik og hurtigere værdiestimering. Men SACs præstation skalerer typisk bedre i komplekse miljøer, især kontinuerlige, hvor prøveudtagningseffektivitet og politik robusthed er kritisk.

4. ifølge nogle komparative rapporter, betyder DQNs enklere træningsrørledning og færre netværksopdateringer pr. Trin, at det ofte afslutter træning i mindre vægklokkemiddel sammenlignet med SAC, når begge anvendes til diskrete handlingsopgaver. SACs træningstid skyldes længere beregning af gradienter til flere netværk, temperaturjustering for entropi og prøveudtagning fra gentagelsesbuffere, der kan kræve større batchstørrelser.

5. Forskningsartikler og implementeringer viser, at SAC-træningssessioner i miljøer som Reacher-V2 (et kontinuerligt kontrol af åbenti-gymnastiksal) har en tendens til at vare betydeligt længere i beregningstiden sammenlignet med DQN-kørsler i diskrete opgaver som Atari-spil eller Cartpole, fordi SAC træner både politik og værdienetværk mere intensivt pr. Iteration.

6. Empiriske benchmarks illustrerer, at SAC i miljøer som Openai Gyms Mujoco kontinuerlige kontrolopgaver foretrækkes på trods af længere træningstider, fordi det opnår politikker af højere kvalitet og bedre generalisering. I modsætning hertil træner DQN for enklere diskrete kontrolmiljøer ofte hurtigere og når acceptabel ydelse hurtigere på grund af dets design enkelhed.

Sammenfattende for Openai gymnastikmiljøer:
- DQN er typisk hurtigere at træne pr. Trin og kræver færre beregningsressourcer til diskrete handlingsrum.
- SAC kræver længere træningstider på grund af dets dobbelte Q-netværk, stokastisk politisk læring og entropi-maksimering, men giver ofte stærkere politikker, især inden for kontinuerlige handlingsdomæner.
-SAC har muligvis brug for flere træningstrin og vægklokke end DQN, når det anvendes til sammenlignelige miljøer, men det opnår bedre politik for robusthed og efterforskning.
- Valget mellem de to afhænger af miljøegenskaber (kontinuerlige vs. diskrete handlinger), ønsket politik robusthed og beregningsbudget.

Således er træningstiden for blød skuespiller-kritisk generelt længere end DQN'er i Openai Gym-miljøer, især fordi SAC bruger mere komplekse arkitekturer, kræver flere beregninger pr. Opdatering og er skræddersyet til kontinuerlige handlingsrum, hvor efterforskning forbedres ved entropimaksimering. DQN er beregningsmæssigt billigere og dermed hurtigere i typiske diskrete action -gymnastikopgaver, men kan underprestere, hvor kontinuerlig kontrol eller høj politik robusthed er nødvendig.