A SAC vs. DQN képzési ideje és teljesítménye az Openai tornateremben

Az Openai tornaterem környezetében a lágy színész-kritikus (SAC) és a mély Q-hálózat (DQN) képzési idő-összehasonlítása számos tényezőtől függ, beleértve a környezet természetét, az állam és az akcióterek összetettségét, valamint a SAC és a DQN közötti algoritmikus különbségektől.

A puha színészkritikus (SAC) egy nem politikai algoritmus, amely optimalizálja a sztochasztikus politikát a maximális entrópia megerősítési tanulással, amelynek célja a politika várható hozamának és entrópiájának maximalizálása, a feltárás előmozdítása. A SAC -t úgy tervezték, hogy jól működjön a folyamatos akcióhelyekben. Általában két Q-funkciót alkalmaz (a túlbecslés torzításának csökkentése érdekében), egy sztochasztikus színészt és egy hőmérsékleti paramétert, amely kiigazítja a feltárás és a kizsákmányolás közötti kompromisszumot. Az SAC frissíti a házirend és az értékhálózatokat egy visszajátszási pufferből mintát vett tételek alapján, és általában a köztes rétegekkel rendelkező neurális hálózatokat használja a funkció közelítéséhez. A képzési frissítések tartalmazzák a háttérpropagációs lépéseket, amelyek frissítik a hálózati súlyokat minden rögzített számú lépést. A SAC stabil tanulásáról és robusztusságáról ismert, de a velejáró bonyolultság és a két Q-hálózat használata, valamint a sztochasztikus politika, gyakran azt jelenti, hogy a SAC-nak lépésenként több számítási erőfeszítést igényel, mint az egyszerűbb algoritmusok.

A DQN viszont egy nem politikai módszer, amelyet elsősorban a diszkrét akcióterületekre terveztek. A Q (S, A) akció-érték függvényt egy neurális hálózattal közelíti meg, és az edzés stabilizálására használja a tapasztalati visszajátszási és célhálózatokat. A DQN ügynök kiválasztja a műveleteket a Q-értékek maximalizálásával, és frissíti a Q-hálózatát azáltal, hogy minimalizálja az időbeli különbségvesztést a visszajátszási puffer mini-tételeivel rögzített időközönként edzés közben. A SAC-hoz képest a DQN általában egyszerűbb architektúrával rendelkezik, mivel csak egy Q-hálózatot és a Q-értékekből származó determinisztikus politikát foglal magában.

A képzési időt illetően a szakemberek által bejelentett tanulmányok és kísérletek azt mutatják, hogy:

1. A DQN edzésenként gyakran gyorsabb, mint a SAC, az egyszerűbb architektúrája miatt ** Â Csak egyetlen Q-hálózatot képeznek, és a politika determinisztikus, tehát kevesebb számításra van szükség, mint a sztochasztikus házirend-frissítések és a SAC több hálózata. Ez általában a DQN iterációjának alacsonyabb fali időtartamára utal.

2 .A SAC azonban gyakran több adatot és edzési lépést igényel az összehasonlítható teljesítmény eléréséhez, különösen olyan környezetben, ahol folyamatos akcióterület van, ahol a DQN nem alkalmazható vagy kevésbé hatékony. A SAC előnyei vannak a jobb felfedezésből az entrópia maximalizálásával, amely meghosszabbíthatja az edzési időt, de robusztusabb politikákhoz vezet.

3. Az Openai Gym -ben elérhető diszkrét cselekvési környezetben a DQN gyakran felülmúlhatja a SAC -t a kezdeti tanulási sebesség szempontjából, az egyszerűbb politika és a gyorsabb értékbecslés miatt. De az SAC teljesítménye általában jobban skálázódik az összetett környezetben, különösen a folyamatos környezetben, ahol a mintavételi hatékonyság és a politika robusztussága kritikus jelentőségű.

4. Néhány összehasonlító jelentés szerint a DQN egyszerűbb edzési csővezetéke és kevesebb hálózati frissítés lépésenként azt jelenti, hogy gyakran befejezi az edzést a kevésbé fali időtartamban, összehasonlítva a SAC-hoz képest, ha mindkettőt alkalmazzák a diszkrét cselekvési feladatokra. Az SAC edzési ideje hosszabb, mivel a több hálózatra kiszámító gradienseket, az entrópia hőmérséklet -beállítását és a visszajátszási pufferekből származó mintavételt igényli, amelyek nagyobb kötegelt méretűek lehetnek.

5. A kutatási dokumentumok és a megvalósítások azt mutatják, hogy a SAC edzések olyan környezetben, mint a Reacher-V2 (folyamatos vezérlésű Openai tornatermi környezet), a számítási időtartamban általában hosszabb ideig tartanak, összehasonlítva a DQN futtatásával, mint például az Atari Games vagy a Cartpole, mivel a SAC mind a házirendeket, mind az értékhálózatokat intenzitásúbb iterációnként képezi.

6. Az empirikus referenciaértékek szemléltetik, hogy olyan környezetekben, mint az Openai Gym Mujoco folyamatos kontroll feladata, a SAC a hosszabb edzési idők ellenére részesül előnyben, mivel magasabb minőségű politikákat és jobb általánosítást ér el. Ezzel szemben az egyszerűbb diszkrét kontroll környezetek esetén a DQN gyakran gyorsabban edz, és a tervezési egyszerűség miatt gyorsabban eléri az elfogadható teljesítményt.

Összefoglalva: az Openai tornatermi környezetekhez:
- A DQN általában gyorsabb edzésenként, és kevesebb számítási erőforrást igényel a diszkrét akcióterületekhez.
- A SAC hosszabb edzési időket igényel a kettős Q-networks, a sztochasztikus politikai tanulás és az entrópia maximalizálása miatt, de gyakran erősebb politikákat eredményez, különösen a folyamatos cselekvési területeken.
-A SAC-nak több edzési lépésre és fali órára lehet szükség, mint a DQN, ha összehasonlítható környezetre alkalmazzák, de jobb politikai robusztusságot és kutatási kompromisszumokat ér el.
- A kettő közötti választás a környezeti jellemzőktől (folyamatos vs. diszkrét cselekedetektől), a kívánt politika robusztusságától és a számítási költségvetéstől függ.

Így a puha színészkritikus képzési ideje általában hosszabb, mint a DQN-k, mint az Openai Gym Környezetekben, különösen azért, mert a SAC összetettebb architektúrákat használ, frissítésenként több számítást igényel, és olyan folyamatos akcióképekhez igazítják, ahol a feltárást az entrópia maximalizálása javítja. A DQN számítási szempontból olcsóbb, és így gyorsabb a tipikus diszkrét cselekvési tornatermi feladatokban, de alulteljesítheti a folyamatos ellenőrzés vagy a magas politika robusztusságát.

Hogyan hasonlít a puha színészkritikus képzési ideje a DQN-hez az Openai tornatermi környezetekben?