Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuidas võrrelda pehme näitlejakriitilise treeninguaega DQN-iga OpenAi jõusaali keskkonnas


Kuidas võrrelda pehme näitlejakriitilise treeninguaega DQN-iga OpenAi jõusaali keskkonnas


Koolitusaja võrdlus pehme näitlejakriitiku (SAC) ja Deep Q-võrgu (DQN) vahel OpenAi jõusaali keskkonnas sõltub mitmest tegurist, sealhulgas keskkonna olemusest, riigi ja tegevusruumide keerukusest ning SAC ja DQN-i algoritmilistest erinevustest.

Pehme näitlejakriitiline (SAC) on poliitikaväline algoritm, mis optimeerib stohhastilist poliitikat, kasutades maksimaalset entroopia tugevdamise õppimist, mille eesmärk on maksimeerida nii eeldatavat tagasitulekut kui ka poliitika entroopiat, edendades uurimist. SAC on loodud toimimiseks pidevates tegevusruumides. Tavaliselt kasutab see kahte Q-funktsiooni (ülehindamise ülehindamise vähendamiseks), stohhastilist näitlejat ja temperatuuriparameetri, mis reguleerib kompromissi uurimise ja ekspluateerimise vahel. SAC värskendab poliitika- ja väärtusvõrke, mis põhinevad korduspuhvrist valimisse võetud partiide põhjal ja kasutab tavaliselt funktsiooni lähendamiseks närvivõrke koos vahekihtidega. Treeningvärskendused hõlmavad tagapropageerimise etappe, mis värskendavad võrkude kaalu iga fikseeritud arvu samme. SAC on tuntud oma stabiilse õppimise ja vastupidavuse poolest, kuid kahe Q-võrgu loomupärase keerukuse ja kasutamise ning stohhastilise poliitika kasutamine tähendavad sageli, et Sac vajab sammu kohta rohkem arvutuslikku pingutust kui lihtsamad algoritmid.

DQN seevastu on poliitikaväline meetod, mis on loodud peamiselt diskreetsete toimingute jaoks. See lähendab närvivõrgu abil tegevusväärtuse funktsiooni Q (S, a) ning kasutab koolituse stabiliseerimiseks kogemuste kordusmängu ja sihtvõrke. DQN-agent valib toimingud, maksimeerides Q-väärtusi ja värskendab oma Q-võrku, minimeerides ajalise erinevuse kaotuse, kasutades treeningu ajal fikseeritud intervallide järel mini-partiid korduspuhvrist. Võrreldes SAC-iga on DQN-il üldiselt lihtsam arhitektuur, kuna see hõlmab ainult ühte Q-võrku ja Q-väärtustest tulenevat deterministlikku poliitikat.

Koolitusaja osas näitavad praktikute ja uuringute teatatud uuringud ja katsed, et:

1. DQN on treeningsammu jooksul sageli kiirem kui SAC-i lihtsama arhitektuuri tõttu ** â koolitatakse ainult ühte Q-võrku ja poliitika on deterministlik, nii et see nõuab vähem arvutusi kui stohhastilisi poliitikauuendusi ja mitut võrku SAC-is. Tavaliselt tähendab see DQN-i iteratsiooni alumist seinapikkust.

2. SAC nõuab võrreldava jõudluse saavutamiseks sageli rohkem andmeid ja koolituse samme, eriti pidevate tegevusruumide keskkondades, kus DQN pole rakendatav või vähem tõhus. SAC on kasu paremast uurimisest entroopia maksimeerimise kaudu, mis võib treenimisaega pikendada, kuid see viib kindlama poliitikani.

3. OpenAi jõusaalis saadaolevates diskreetsetes tegevuskeskkondades võib DQN Sac -i esialgse õppimiskiiruse osas sageli ületada lihtsama poliitika ja kiirema väärtuse hindamise tõttu. Kuid SAC -i jõudlus skaleerib tavaliselt keerukates keskkondades, eriti pidevates keskkondades, kus proovivõtmise tõhusus ja poliitika vastupidavus on kriitilised.

4. Mõnede võrdlevate aruannete kohaselt tähendavad DQNi lihtsama treeningtorustiku ja vähem võrguuuendusi sammu kohta, et see lõpetab treenimise sageli vähem seinakella ajal, võrreldes SAC-iga, kui mõlemat rakendatakse diskreetsete tegevusülesannete täitmiseks. SAC -i treeningaeg on pikem, kuna arvutatakse mitme võrgu jaoks gradiente, entroopia temperatuuri reguleerimine ja korduspuhvrite proovivõtmine, mis võib vajada suuremaid partii suurusi.

5. Uurimistööd ja rakendused näitavad, et SAC-koolitused sellistes keskkondades nagu Reacher-V2 (pidev kontroll OpenAi jõusaali keskkond) kipuvad arvutusaja jooksul märkimisväärselt kauem kestma, võrreldes DQN-i diskreetsetes ülesannetes nagu Atari Games või Cartpole, kuna nii poliitika kui ka väärtusvõrgustikud intensiivsemalt ITERATIOON.

6. Empiirilised võrdlusalused illustreerivad, et sellistes keskkondades nagu OpenAi Gym'i pidevad kontrollülesanded on SAC -i eelistatav vaatamata pikematele treeningutele, kuna see saavutab kõrgema kvaliteediga poliitika ja parema üldistuse. Seevastu lihtsamate diskreetsete juhtimiskeskkondade jaoks treenib DQN sageli kiiremini ja jõuab oma disaini lihtsuse tõttu kiiremini vastuvõetavale jõudlusele.

Kokkuvõtlikult võib öelda, et OpenAi jõusaali keskkond:
- DQN on tavaliselt kiirem treenida sammu kohta ja nõuab diskreetsete toimingute jaoks vähem arvutusressursse.
- SAC nõuab pikemat koolitusaegu, mis on tingitud kahest Q-võrgust, stohhastilisest poliitilisest õppimisest ja entroopia maksimeerimisest, kuid annab sageli tugevama poliitika, eriti pidevates tegevuste valdkondades.
-SAC võib vajada rohkem treeningsamme ja seinakella aega kui DQN, kui seda rakendatakse võrreldavasse keskkonda, kuid see saavutab parema poliitilise vastupidavuse ja uurimistöö kompromissid.
- Valik nende kahe vahel sõltub keskkonnaomadustest (pidevad vs diskreetsed toimingud), soovitud poliitilise vastupidavuse ja arvutusliku eelarvest.

Seega on pehme näitlejakriitilise koolitusaeg üldiselt pikem kui DQN-id OpenAi jõusaali keskkonnas, eriti kuna SAC kasutab keerukamaid arhitektuure, nõuab värskenduse kohta rohkem arvutusi ja see on kohandatud pidevate toimingute ruumide jaoks, kus uurimist suurendab entroopia maksimeerimine. DQN on arvutuslikult odavam ja seega kiirem tüüpilistes diskreetsetes tegevusalaülesannetes, kuid võib olla ebaõnnestunud, kui vaja on pidevat kontrolli või kõrget poliitilist vastupidavust.