Primerjava časa usposabljanja med mehkimi igralci-kritiki (SAC) in globoko Q-omrežjem (DQN) v telovadnici OpenAI je odvisna od več dejavnikov, vključno z naravo okolja, kompleksnostjo državnih in akcijskih prostorov ter algoritmičnimi razlikami med SAC in DQN.
Mehki akter-kritični (SAC) je algoritem zunaj politike, ki optimizira stohastično politiko z uporabo največjega učnega učnega okrepitve, katerega cilj je povečati tako pričakovani donos kot entropijo politike, ki spodbuja raziskovanje. SAC je zasnovan tako, da dobro deluje v neprekinjenih akcijskih prostorih. Običajno uporablja dve funkciji Q (za zmanjšanje precenjevanja pristranskosti), stohastičnega igralca in temperaturnega parametra, ki prilagodi kompromis med raziskovanjem in izkoriščanjem. SAC posodablja politiko in vrednostna omrežja, ki temeljijo na serijah, vzorčenih iz medpomnilnika za predvajanje in običajno uporablja nevronske omrežja z vmesnimi plastmi za približevanje funkcije. Posodobitve za usposabljanje vključujejo korake za nazaj, ki posodabljajo omrežje vsako fiksno število korakov. SAC je znan po stabilnem učenju in robustnosti, vendar je povezana zapletenost in uporaba dveh Q-omrežij skupaj s stohastično politiko pogosto pomenila, da SAC potrebuje več računalniškega napora na korak kot preprostejši algoritmi.
DQN je po drugi strani metoda zunaj politike, zasnovana predvsem za diskretne akcijske prostore. Približno funkcijo akcijske vrednosti Q (S, A) s pomočjo nevronske mreže in uporablja izkušnje s predvajanjem in ciljnimi omrežji za stabilizacijo usposabljanja. Agent DQN izbere dejanja tako, da maksimira Q-vrednosti in posodobi svojo Q-omrežje, tako da zmanjša izgubo časovne razlike z uporabo mini serij iz medpomnilnika predvajanja v fiksnih intervalih med treningom. V primerjavi s SAC ima DQN na splošno preprostejšo arhitekturo, saj vključuje le eno Q-omrežje in deterministično politiko, ki izhaja iz Q-vrednosti.
Kar zadeva čas usposabljanja, študije in poskuse, o katerih poročajo praktiki in raziskave, kažejo, da:
1. DQN je pogosto hitrejši na korak usposabljanja kot SAC zaradi svoje enostavnejše arhitekture ** Â Usposobljeno je samo en Q-omrežja, politika pa je determinirana, zato zahteva manj izračunov kot stohastične posodobitve politike in več omrežij v SAC. To ponavadi pomeni spodnji čas stene na iteracijo za DQN.
2. Vendar SAC pogosto potrebuje več podatkov in korakov usposabljanja, da doseže primerljive zmogljivosti, zlasti v okoljih z neprekinjenimi akcijskimi prostori, kjer DQN ni uporaben ali manj učinkovit. SAC ima koristi od boljšega raziskovanja z maksimizacijo entropije, kar lahko podaljša čas treninga, vendar vodi do močnejših politik.
3. V diskretnih akcijskih okoljih, ki so na voljo v telovadnici OpenAI, lahko DQN zaradi svoje enostavnejše politike in hitrejše ocene vrednosti pogosto presega SAC v smislu začetne hitrosti učenja. Toda uspešnost SAC -ja običajno bolje meri v zapletenih okoljih, zlasti neprekinjenih, kjer sta učinkovitost vzorčenja in robustnost politike ključnega pomena.
4. Po nekaterih primerjalnih poročilih DQN-ov preprostejši usposabljanje in manj omrežnih posodobitev na korak pomeni, da pogosto zaključuje usposabljanje v manj časa za steno v primerjavi s SAC, ko se oba uporabljata za diskretne akcijske naloge. Čas treninga SAC je daljši zaradi izračuna gradientov za več omrežij, nastavitev temperature za entropijo in vzorčenje iz predvajanja medpomnilnikov, ki bodo morda potrebne večje velikosti serije.
5. Raziskovalni prispevki in izvedbe kažejo, da seje za usposabljanje SAC v okoljih, kot je Reacher-V2 (nenehno nadzorno okolje OpenAI Gym), ponavadi trajajo precej dlje v času računanja v primerjavi z DQN v diskretnih nalogah, kot so Atari Games ali CartPole, saj SAC bolj intenzivno usposablja omrežja in vrednote.
6. empirična merila kažejo, da je SAC kljub daljšem času treninga, ker dosega večjo kakovostno politiko in boljšo posplošitev. Nasprotno pa za enostavnejša diskretna kontrolna okolja DQN pogosto trenira hitreje in zaradi svoje oblikovalske preprostosti doseže sprejemljive zmogljivosti.
Če povzamemo, za OpenAI telovadna okolja:
- DQN je običajno hitrejši za usposabljanje po koraku in zahteva manj računskih virov za diskretne akcijske prostore.
- SAC zahteva daljši čas usposabljanja zaradi dvojnih Q-omrežij, stohastičnega učenja politike in maksimizacije entropije, vendar pogosto daje močnejše politike, zlasti na področjih neprekinjenih akcij.
-SAC bo morda potreboval več korakov treninga in časa za steno kot DQN, če se uporablja za primerljiva okolja, vendar dosega boljšo politično robustnost in kompromise za raziskovanje.
- Izbira med obema je odvisna od okoljskih značilnosti (neprekinjenih in diskretnih ukrepov), želene robustnosti politike in računskega proračuna.