De trainingstijdvergelijking tussen zachte actor-critic (SAC) en diep Q-netwerk (DQN) in OpenAI-gymomgevingen hangt af van verschillende factoren, waaronder de aard van de omgeving, de complexiteit van de staats- en actieruimtes en de algoritmische verschillen tussen SAC en DQN.
Soft Actor-Critic (SAC) is een off-policy algoritme dat een stochastisch beleid optimaliseert met behulp van maximaal entropiewapening leren, dat tot doel heeft zowel het verwachte rendement als de entropie van het beleid te maximaliseren, ter bevordering van exploratie. SAC is ontworpen om goed te werken in continue actieruimtes. Het maakt meestal gebruik van twee Q-functies (om vooringenomenheid te verminderen), een stochastische acteur en een temperatuurparameter die de afweging tussen exploratie en exploitatie aanpast. SAC werkt de beleids- en waarde -netwerken bij op basis van batches die zijn bemonsterd uit een replay -buffer en gebruikt doorgaans neurale netwerken met tussenlagen voor functie -benadering. De trainingsupdates omvatten backpropagatiestappen die het netwerkgewicht bijwerken, elk vast aantal stappen. SAC staat bekend om zijn stabiele leren en robuustheid, maar de inherente complexiteit en het gebruik van twee Q-Networks samen met het stochastische beleid betekent vaak dat SAC meer computationele inspanning per stap nodig heeft dan eenvoudiger algoritmen.
DQN daarentegen is een off-polic-methode die voornamelijk is ontworpen voor discrete actieruimtes. Het benadert de actie-waarde-functie q (s, a) door een neuraal netwerk en maakt gebruik van herhaling van ervarings- en doelnetwerken om training te stabiliseren. De DQN-agent selecteert acties door de Q-waarden te maximaliseren en bij te werken zijn Q-netwerk door een tijdelijk verschilverlies te minimaliseren met mini-batches uit de opnieuw afspeelbuffer met vaste intervallen tijdens de training. In vergelijking met SAC heeft DQN over het algemeen een eenvoudigere architectuur, omdat het slechts één Q-netwerk en een deterministisch beleid van de Q-waarden omvat.
Wat betreft trainingstijd, studies en experimenten die door beoefenaars en onderzoek zijn gerapporteerd, geven aan dat:
1. DQN is vaak sneller per trainingsstap dan SAC vanwege de eenvoudiger architectuur ** Â Slechts één Q-netwerk wordt getraind en het beleid is deterministisch, dus het vereist minder berekeningen dan de stochastische beleidsupdates en meerdere netwerken in SAC. Dit vertaalt zich meestal in de lagere wand-kloktijd per iteratie voor DQN.
2. SAC vereist echter vaak meer gegevens- en trainingsstappen om vergelijkbare prestaties te bereiken, met name in omgevingen met continue actieruimtes waar DQN niet van toepassing is of minder efficiënt is. SAC profiteert van een betere verkenning via entropie -maximalisatie, wat de trainingstijd kan verlengen, maar leidt tot robuuster beleid.
3. In discrete actieomgevingen die beschikbaar zijn in OpenAI -gym, kan DQN de SAC vaak beter presteren in termen van de initiële leersnelheid vanwege het eenvoudiger beleid en de snellere waardeschatting. Maar de prestaties van SAC schalen meestal beter in complexe omgevingen, vooral continue omgevingen, waar bemonsteringsefficiëntie en robuustheid van het beleid van cruciaal belang zijn.
4. Volgens sommige vergelijkende rapporten betekent DQN's eenvoudigere trainingspijplijn en minder netwerkupdates per stap dat het vaak de training voltooit in minder wandkloktijd in vergelijking met SAC wanneer beide worden toegepast op discrete actietaken. De trainingstijd van SAC is langer vanwege het berekenen van gradiënten voor meerdere netwerken, temperatuuraanpassing voor entropie en bemonstering van replay -buffers die mogelijk grotere batchgroottes vereisen.
5. Onderzoeksdocumenten en implementaties tonen aan dat SAC-trainingssessies in omgevingen zoals Reacher-V2 (een continue controle Openai Gym-omgeving) de neiging hebben om aanzienlijk langer te duren in de berekeningstijd in vergelijking met DQN-runs in discrete taken zoals Atari Games of Cartpole, omdat SAC zowel beleids- als waardenetwerken intensiever per iteratie traint.
6. Empirische benchmarks illustreren dat in omgevingen zoals de Mujoco -continue controletaken van Openai Gym, SAC de voorkeur heeft ondanks langere trainingstijden omdat het beleid van hogere kwaliteit en betere generalisatie bereikt. Voor eenvoudiger discrete bedieningsomgevingen daarentegen traint DQN vaak sneller en bereikt hij acceptabele prestaties sneller vanwege de eenvoud van het ontwerp.
Samenvattend, voor Openai Gym -omgevingen:
- DQN is meestal sneller om per stap te trainen en vereist minder rekenbronnen voor discrete actieruimtes.
- SAC vereist langere trainingstijden vanwege zijn dubbele Q-Networks, stochastische beleidsleren en entropiemaximalisatie, maar levert vaak een sterker beleid op, vooral in continue actiedomeinen.
-SAC heeft mogelijk meer trainingsstappen en wand-kloktijd nodig dan DQN wanneer toegepast op vergelijkbare omgevingen, maar het bereikt een betere beleidsrobuste en verkenningsafwegingen.
- De keuze tussen de twee hangt af van omgevingskenmerken (continu versus discrete acties), gewenste robuustheid van het beleid en de rekenbudget.