Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaip švelnaus aktoriaus-kritinio mokymo laikas yra lyginamas su DQN Openai sporto salės aplinkoje


Kaip švelnaus aktoriaus-kritinio mokymo laikas yra lyginamas su DQN Openai sporto salės aplinkoje


Mokomųjų aktorių kritinių (SAC) ir „Deep Q-Network“ (DQN) mokymo laiko palyginimas „Openai“ sporto salės aplinkoje priklauso nuo kelių veiksnių, įskaitant aplinkos pobūdį, valstybės ir veiksmų erdvių sudėtingumą bei algoritminius skirtumus tarp SAC ir DQN.

„Soft Actor-Kritic“ (SAC) yra ne politikos algoritmas, optimizuojantis stochastinę politiką, naudojant maksimalų entropijos stiprinimo mokymąsi, kurio tikslas-maksimaliai padidinti numatomą grąžą ir politikos entropiją, skatinančią tyrinėjimą. SAC yra skirtas gerai veikti nuolatiniuose veiksmo erdvėse. Paprastai jame naudojami dvi Q funkcijos (siekiant sumažinti pervertinimo paklaidą), stochastinį veikėją ir temperatūros parametrą, kuris koreguoja kompromisą tarp tyrinėjimo ir išnaudojimo. SAC atnaujina politikos ir vertės tinklus, pagrįstus partijomis, atrinktomis iš pakartojimo buferio, ir paprastai naudoja neuroninius tinklus su tarpiniais sluoksniais, kad būtų galima suderinti funkcijas. Mokymo atnaujinimai apima atgalinio perdavimo veiksmus, kurie atnaujina tinklo svorį kiekvieną fiksuotą žingsnių skaičių. SAC yra žinomas dėl stabilaus mokymosi ir patikimumo, tačiau būdingas sudėtingumas ir dviejų „Q-Networks“ naudojimas kartu su stochastine politika dažnai reiškia, kad SAC reikia daugiau skaičiavimo pastangų vienam žingsniui nei paprastesni algoritmai.

Kita vertus, DQN yra ne politikos metodas, daugiausia skirtas atskiroms veiksmų erdvėms. Tai apytiksliai suderina veiksmo vertės funkciją Q (S, A) nervų tinkle ir naudoja patirties pakartojimą ir tikslinius tinklus, kad stabilizuotų mokymą. DQN agentas pasirenka veiksmus, maksimaliai padidindamas Q vertes ir atnaujina jo „Q-Network“, sumažindamas laiko skirtumą, sumažindamas laiko skirtumą, naudodamas mini partijas iš pakartojimo buferio fiksuotais intervalais mokymo metu. Palyginti su SAC, DQN paprastai turi paprastesnę architektūrą, nes ji apima tik vieną Q tinklą ir deterministinę politiką, gautą iš Q verčių.

Kalbant apie mokymo laiką, tyrimus ir eksperimentus, kuriuos pranešė praktikai ir tyrimai, rodo:

1. DQN dažnai yra greitesnis mokymo etape nei SAC dėl paprastesnės architektūros **. Â Tik vienas „Q-Network“ yra mokomas, o politika yra determinuota, todėl jai reikia mažiau skaičiavimų nei stochastinės politikos atnaujinimai ir keli tinklai SAC. Paprastai tai reiškia, kad DQN iternatuoja mažesnį sienos pergalės laiką.

2. Tačiau SAC dažnai reikalauja daugiau duomenų ir mokymo veiksmų, kad būtų galima pasiekti palyginamą našumą, ypač aplinkoje su nuolatinėmis veikimo erdvėmis, kuriose DQN netaikomas arba mažiau efektyvus. SAC nauda iš geresnių tyrinėjimų per entropijos maksimizavimą, kuris gali prailginti mokymo laiką, tačiau lemia tvirtesnę politiką.

3. Atskirų veiksmų aplinkoje, kurią galima rasti „Openai“ sporto salėje, DQN dažnai gali pralenkti SAC pradinio mokymosi greičio atžvilgiu dėl paprastesnės politikos ir greitesnio vertės įvertinimo. Tačiau SAC našumas paprastai geriau padidėja sudėtingoje aplinkoje, ypač nepertraukiančiose aplinkose, kur mėginių ėmimo efektyvumas ir politikos tvirtumas yra kritinis.

4. Remiantis kai kuriomis palyginamosiomis ataskaitose, DQN paprastesnis mokymo vamzdynas ir mažiau tinklo atnaujinimų per vieną žingsnį reiškia, kad jis dažnai baigia mokymus mažiau sienų pergale, palyginti su SAC, kai abu taikomi diskrečioms veiksmų užduotims. SAC treniruočių laikas yra ilgesnis dėl kelių tinklų apskaičiavimo gradientų, entropijos temperatūros reguliavimo ir mėginių ėmimo iš pakartojimų buferių, kuriems gali prireikti didesnių partijų dydžių.

5. Moksliniai dokumentai ir įgyvendinimai rodo, kad SAC mokymo sesijos tokiose aplinkose kaip „Reacher-V2“ (nuolatinė kontrolės „Openai“ sporto salės aplinka) paprastai trunka žymiai ilgesnius skaičiavimo laiką, palyginti su DQN vykdymais atliekant atskiras užduotis, tokias kaip „Atari Games“ ar „Cartpole“, nes SAC moko tiek politiką, tiek vertę tinklus.

6. Empiriniai etalonai iliustruoja, kad tokiose aplinkose kaip „Openai“ sporto salės „Mujoco“ nuolatinės kontrolės užduotys, nepaisant ilgesnio mokymo laiko, teikiama pirmenybė SAC, nes ji pasiekia aukštesnės kokybės politiką ir geresnį apibendrinimą. Priešingai, paprastesnėje diskrečioje valdymo aplinkoje DQN dažnai treniruojasi greičiau ir greičiau pasiekia priimtiną našumą dėl savo projektavimo paprastumo.

Apibendrinant galima pasakyti, kad „Openai“ sporto salės aplinkai:
- DQN paprastai yra greitesnis treniruotis kiekvienam žingsniui ir reikalauja mažiau skaičiavimo išteklių atskiroms veiksmų erdvėms.
- SAC reikalauja ilgesnio mokymo laiko dėl savo dvigubų „Q-Networks“, stochastinio politikos mokymosi ir entropijos maksimizavimo, tačiau dažnai sukuria stipresnę politiką, ypač nuolatiniuose veiksmų srityse.
-SAC gali prireikti daugiau treniruočių žingsnių ir sienos pergalės laiko nei DQN, kai jis taikomas palyginamoje aplinkoje, tačiau jis pasiekia geresnį politikos tvirtumo ir tyrinėjimo kompromisus.
- Pasirinkimas tarp dviejų priklauso nuo aplinkos charakteristikų (nuolatinių ir diskrečiųjų veiksmų), norimo politikos tvirtumo ir skaičiavimo biudžeto.

Taigi minkštųjų aktorių kritikų mokymo laikas paprastai yra ilgesnis nei DQN „Openai“ sporto salės aplinkoje, ypač todėl, kad SAC naudoja sudėtingesnes architektūras, reikalauja daugiau skaičiavimų vienam atnaujinimui ir yra pritaikytas nuolatinėms veiksmų erdvėms, kur tyrinėjimus padidina entropijos maksimizavimas. DQN yra skaičiavimo požiūriu pigesnis ir todėl greičiau atliekant tipines diskretus veiksmo sporto salės užduotis, tačiau gali būti prastesnė, kai būtina nuolatinė kontrolė ar didelis politikos patikimumas.