Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuinka pehmeän näyttelijän kritiikan harjoitteluaika vertaa DQN: ään Openai-kuntosalin ympäristöissä


Kuinka pehmeän näyttelijän kritiikan harjoitteluaika vertaa DQN: ään Openai-kuntosalin ympäristöissä


Koulutusajan vertailu pehmeän näyttelijän-kriittin (SAC) ja Deep Q-Network (DQN) välillä OpenAi-kuntosalin ympäristöissä riippuu useista tekijöistä, mukaan lukien ympäristön luonne, valtion ja toimintatilojen monimutkaisuus sekä SAC: n ja DQN: n algoritmiset erot.

Pehmeä näyttelijä-kritiikki (SAC) on poliittisen algoritmi, joka optimoi stokastisen politiikan käyttämällä entropian entropian vahvistusoppimista, jonka tavoitteena on maksimoida sekä odotettu tuotto että politiikan entropia, edistämällä etsintää. SAC on suunniteltu toimimaan hyvin jatkuvissa toimintatiloissa. Siinä käytetään tyypillisesti kahta Q-funktiota (yliarviointipoikkeaman vähentämiseksi), stokastinen toimittaja ja lämpötilaparametri, joka säätää kompromissia etsinnän ja hyväksikäytön välillä. SAC päivittää politiikka- ja arvoverkot, jotka perustuvat toistopuskurista otetuihin eriin ja käyttää tyypillisesti hermoverkkoja välikerroksilla toimintojen lähentämistä varten. Koulutuspäivitykset sisältävät backPropagation -vaiheet, jotka päivittävät verkon painoon jokaisen kiinteän määrän vaiheita. SAC tunnetaan vakaasta oppimisestaan ​​ja tukevuudestaan, mutta kahden Q-verkon luontaisesta monimutkaisuudesta ja käytöstä stokastisen politiikan kanssa tarkoittavat usein, että SAC vaatii usein enemmän laskennallista ponnistelua askelta kohden kuin yksinkertaisemmat algoritmit.

DQN puolestaan ​​on poliittisen politiikan ulkopuolinen menetelmä, joka on suunniteltu pääasiassa erillisille toimintatiloille. Se lähestyy hermoverkon toiminta-arvo-funktiota Q (S, A) ja käyttää kokemuksen toisto- ja kohdeverkkoja koulutuksen vakauttamiseen. DQN-agentti valitsee toiminnot maksimoimalla Q-arvot ja päivittää Q-verkonsa minimoimalla ajallinen erotappio käyttämällä minieroja uusintapuskurista kiinteillä aikaväleillä harjoituksen aikana. SAC: iin verrattuna DQN: llä on yleensä yksinkertaisempi arkkitehtuuri, koska siihen sisältyy vain yksi Q-verkko ja Q-arvoista johdettu deterministinen politiikka.

Koulutusajan suhteen lääkäreiden ja tutkimuksen ilmoittamat tutkimukset ja kokeet osoittavat, että:

1. DQN on usein nopeampaa harjoitusvaihetta kohti kuin SAC yksinkertaisemman arkkitehtuurinsa vuoksi ** Â vain yksi Q-verkko on koulutettu ja politiikka on deterministinen, joten se vaatii vähemmän laskelmia kuin stokastiset politiikkapäivitykset ja useat verkot SAC: ssä. Tämä kääntyy yleensä alaheinämäkappaleena DQN: n iteraatiota kohti.

2. SAC vaatii kuitenkin usein enemmän tieto- ja koulutusvaiheita vertailukelpoisen suorituskyvyn saavuttamiseksi, etenkin ympäristöissä, joissa on jatkuvia toimintatiloja, joissa DQN ei ole sovellettavissa tai vähemmän tehokkaita. SAC hyötyy paremmasta tutkimuksesta entropian maksimoinnin kautta, mikä voi pidentää harjoitteluaikaa, mutta johtaa voimakkaampaan politiikkaan.

3. Openain kuntosalilla saatavilla olevissa erillisissä toimintaympäristöissä DQN voi usein ylittää SAC: n alkuperäisen oppimisnopeuden suhteen yksinkertaisemman politiikan ja nopeamman arvon arvioinnin vuoksi. Mutta SAC: n suorituskyky skaalaa yleensä paremmin monimutkaisissa ympäristöissä, etenkin jatkuvissa ympäristöissä, joissa näytteenottotehokkuus ja politiikan kestävyys ovat kriittisiä.

4. Joidenkin vertailevien raporttien mukaan DQN: n yksinkertaisempi koulutusputki ja vähemmän verkkopäivityksiä askelta kohden tarkoittavat, että se suorittaa usein harjoittelua pienemmässä seinäkelloissa verrattuna SAC: hen, kun molemmat sovelletaan erillisiin toimintatehtäviin. SAC: n harjoitteluaika johtuu pidempään useiden verkkojen kaltevuuksien laskemisesta, entropian lämpötilan säätämisestä ja näytteenotosta toistopuskureista, jotka saattavat vaatia suurempia eräkokoja.

5. Tutkimusasiakirjat ja toteutukset osoittavat, että SAC-koulutusistunnot ympäristöissä, kuten RAPPER-V2 (jatkuva hallinta Openai Gym -ympäristö) kestävät huomattavasti pidempään laskenta-aikana verrattuna DQN: iin erillisissä tehtävissä, kuten Atari-peleissä tai Cartpoleissa, koska SAC kouluttaa sekä politiikka- että arvoverkkoja toistumisessa.

6. Empiiriset vertailuarvot kuvaavat, että ympäristöissä, kuten Openain kuntosalin Mujocon jatkuvissa ohjaustehtävissä, SAC on suositeltava pidemmistä harjoitteluaikoista huolimatta, koska se saavuttaa korkeamman laatupolitiikan ja paremman yleistyksen. Sitä vastoin yksinkertaisemmille erillisille ohjausympäristöille DQN kouluttaa usein nopeammin ja saavuttaa hyväksyttävän suorituskyvyn nopeammin suunnittelun yksinkertaisuuden vuoksi.

Yhteenvetona voidaan todeta, että Openai -kuntosaliympäristöissä:
- DQN on tyypillisesti nopeampi harjoitella askelta ja vaatii vähemmän laskennallisia resursseja erillisille toimintatiloille.
- SAC vaatii pidempiä koulutusaikoja kaksois-Q-verkkojensa, stokastisen politiikan oppimisen ja entropian maksimoinnin vuoksi, mutta tuottaa usein vahvempia politiikkoja, etenkin jatkuvilla toimintaalueilla.
-SAC saattaa tarvita enemmän koulutusvaiheita ja seinäkelloista aikaa kuin DQN, kun sitä sovelletaan vertailukelpoisiin ympäristöihin, mutta se saavuttaa paremman politiikan kestävyyden ja tutkimuksen kompromissit.
- Valinta näiden kahden välillä riippuu ympäristöominaisuuksista (jatkuvat vs. erilliset toimet), halutun politiikan kestävyydestä ja laskennallisesta budjetista.

Siten pehmeän näyttelijän-kriittin harjoitteluaika on yleensä pidempi kuin DQN: n Openai-kuntosalin ympäristöissä, etenkin koska SAC käyttää monimutkaisempia arkkitehtuureja, vaatii enemmän laskelmia päivitystä kohti ja on räätälöity jatkuviin toimintatiloihin, joissa tutkimusta parantaa entropian maksimointi. DQN on laskennallisesti halvempi ja siten nopeampi tyypillisissä erillisissä toimenpiteissä kuntosalitehtävissä, mutta se voi heikentyä, jos jatkuvaa valvontaa tai korkean politiikan kestävyys on välttämätöntä.