Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hur jämför träningstiden för mjuk skådespelare-kritik med DQN i OpenAI Gymmiljöer


Hur jämför träningstiden för mjuk skådespelare-kritik med DQN i OpenAI Gymmiljöer


Träningstidsjämförelsen mellan mjuk skådespelare-kritiker (SAC) och djupt Q-nätverk (DQN) i OpenAI-gymmiljöer beror på flera faktorer inklusive miljöns natur, komplexiteten i tillståndet och handlingsutrymmen och de algoritmiska skillnaderna mellan SAC och DQN.

Soft Actor-Critic (SAC) är en algoritm av polgoritm som optimerar en stokastisk policy med hjälp av maximal entropiförstärkningslärande, som syftar till att maximera både den förväntade avkastningen och entropin av policyn och främja utforskning. SAC är utformad för att fungera bra i kontinuerliga actionutrymmen. Det använder vanligtvis två Q-funktioner (för att minska överskattningsförskjutningen), en stokastisk skådespelare och en temperaturparameter som justerar avvägningen mellan utforskning och exploatering. SAC uppdaterar policy- och värdetätverk baserat på satser som samplas från en replaybuffert och använder vanligtvis neurala nätverk med mellanlager för funktionsprogram. Utbildningsuppdateringarna inkluderar backpropagationssteg som uppdaterar nätverksvikt varje fast antal steg. SAC är känd för sitt stabila inlärning och robusthet, men den inneboende komplexiteten och användningen av två Q-nätverk tillsammans med den stokastiska politiken innebär ofta att SAC behöver mer beräkningsinsats per steg än enklare algoritmer.

DQN är å andra sidan en metod som är utformad huvudsakligen utformad för diskreta handlingsutrymmen. Det approximerar handlingsvärdefunktionen Q (S, A) av ett neuralt nätverk och använder upplevelse omspelning och målnätverk för att stabilisera träning. DQN-agenten väljer åtgärder genom att maximera Q-värdena och uppdatera sitt Q-nätverk genom att minimera en temporär skillnadsförlust med hjälp av mini-batchar från replaybufferten med fasta intervaller under träningen. Jämfört med SAC har DQN i allmänhet en enklare arkitektur eftersom den bara innebär ett Q-nätverk och en deterministisk politik härrörande från Q-värdena.

När det gäller träningstid indikerar studier och experiment rapporterade av utövare och forskning att:

1. DQN är ofta snabbare per träningssteg än SAC på grund av dess enklare arkitektur ** Â Endast ett enda Q-nätverk utbildas och policyn är deterministisk, så det kräver färre beräkningar än de stokastiska policyuppdateringarna och flera nätverk i SAC. Detta översätter vanligtvis till lägre väggklockningstid per iteration för DQN.

2. SAC kräver emellertid ofta mer data- och träningssteg för att nå jämförbara prestanda, särskilt i miljöer med kontinuerliga actionutrymmen där DQN inte är tillämpligt eller mindre effektivt. SAC drar nytta av bättre utforskning via entropi -maximering, vilket kan förlänga träningstiden men leder till mer robust politik.

3. I diskreta handlingsmiljöer som finns tillgängliga i OpenAI Gym kan DQN ofta överträffa SAC när det gäller initial inlärningshastighet på grund av dess enklare policy och snabbare uppskattning av värde. Men SAC: s prestanda skalar vanligtvis bättre i komplexa miljöer, särskilt kontinuerliga, där provtagningseffektivitet och politisk robusthet är kritiska.

4. Enligt vissa jämförande rapporter innebär DQN: s enklare träningspipeline och färre nätverksuppdateringar per steg att det ofta slutför träning i mindre väggklockningstid jämfört med SAC när båda tillämpas på diskreta handlingsuppgifter. SAC: s träningstid är längre på grund av beräkning av gradienter för flera nätverk, temperaturjustering för entropi och provtagning från replaybuffertar som kan kräva större batchstorlekar.

5. Forskningsuppsatser och implementeringar visar att SAC-träningspass i miljöer som Reacher-V2 (en kontinuerlig kontroll OpenAI-gymmiljö) tenderar att vara betydligt längre i beräkningstiden jämfört med DQN-körningar i diskreta uppgifter som Atari-spel eller Cartpole, eftersom SAC tränar både policy och värdetätverk mer intensivt per iteration.

6. Empiriska riktmärken illustrerar att i miljöer som OpenAI Gyms Mujoco kontinuerliga kontrolluppgifter föredras SAC trots längre träningstider eftersom det uppnår policyer av högre kvalitet och bättre generalisering. Däremot, för enklare diskreta kontrollmiljöer, tränar DQN ofta snabbare och når acceptabla prestanda snabbare på grund av dess design enkelhet.

Sammanfattningsvis för OpenAI Gym -miljöer:
- DQN är vanligtvis snabbare att träna per steg och kräver färre beräkningsresurser för diskreta actionutrymmen.
- SAC kräver längre träningstider på grund av dess dubbla Q-nätverk, stokastiskt politiskt lärande och maximering av entropi men ger ofta starkare policyer, särskilt inom kontinuerliga handlingsdomäner.
-SAC kan behöva mer träningssteg och väggklockningstid än DQN när den appliceras på jämförbara miljöer, men det uppnår bättre politik robusthet och utforskningsavvägningar.
- Valet mellan de två beror på miljöegenskaper (kontinuerliga kontra diskreta åtgärder), önskad politisk robusthet och beräkningsbudget.

Således är träningstiden för mjuk skådespelare i allmänhet längre än DQN: er i OpenAI-gymmiljöer, särskilt eftersom SAC använder mer komplexa arkitekturer, kräver mer beräkningar per uppdatering och är skräddarsydd för kontinuerliga actionutrymmen där utforskning förbättras genom entropimaximering. DQN är beräkningsmässigt billigare och därmed snabbare i typiska diskreta handlingsgymuppgifter men kan underprestera där kontinuerlig kontroll eller hög politisk robusthet är nödvändig.