Kuidas erineb Soft Actor-Criticu treeningaeg OpenAI Gym keskkondades DQN-iga?

Otsingutulemuste põhjal saab Soft Actor-Criticu (SAC) treeningaja ja jõudluse võrreldes Deep Q-Networksiga (DQN) OpenAI Gym'i keskkondades kokku võtta järgmiselt:

1. Treeningu aeg:
- Otsingutulemused ei võrdle otseselt SAC ja DQN treeninguaega. Siiski annavad nad mõningaid teadmisi:
- SAC-i spinning Up dokumentatsioonis mainitakse, et juurutamine ei toeta paralleelstamist, mis võib mõjutada treeninguaega võrreldes paralleelsete algoritmidega nagu DQN.
- Uurimistöös [4] esitatud võrdlevas uuringus leiti, et DQN-il ja A2C-l (poliitika gradiendi meetod) oli teatud närvivõrgu arhitektuuride puhul halb ja ebausaldusväärne jõudlus, samas kui algoritmid, nagu PPO, näitasid erinevate arhitektuuride puhul ühtlasemat jõudlust.
- See viitab sellele, et hüperparameetrite ja võrguarhitektuuri valik võib oluliselt mõjutada erinevate RL-algoritmide, sealhulgas SAC-i ja DQN-i koolitusaega ja jõudlust.

2. Toimivus:
- Otsingutulemused näitavad, et SAC ületab üldiselt DQN-i pidevate juhtimisülesannete puhul, nagu näiteks mägiautode pidev keskkond.
- Diskreetsetes tegevusruumides, nagu CartPole, toimib DQN paremini kui SAC.
- SAC-i Spinning Up dokumentatsioon märgib, et see on mõeldud pidevateks tegevusaladeks ja ei pruugi nii hästi toimida diskreetsetes tegevusruumides.
- Võrdlev uuring [5] leidis, et kuigi DQN paistab silma diskreetsetes tegevusruumides, sobib DDPG (SAC-i eelkäija) paremini pidevate juhtimisülesannete jaoks ja PPO näitab ühtlast jõudlust erinevates keskkondades.

Kokkuvõtteks võib öelda, et kuigi otsingutulemused ei anna otsest võrdlust SAC-i ja DQN-i treeningu aja kohta, viitavad need sellele, et nende algoritmide jõudlus võib erineda sõltuvalt konkreetsest keskkonnast ja ülesandest, samuti hüperparameetrite valikust ja võrguarhitektuurist. . SAC-il näib olevat eelis pidevate juhtimisülesannete puhul, samas kui DQN võib paremini toimida diskreetsetes tegevusruumides. Nende algoritmide treenimisaega võivad mõjutada ka sellised tegurid nagu paralleelsus ning keskkonna ja ülesande keerukus.

Tsitaadid:
[1] https://www.reddit.com/r/reinforcementlearning/comments/dr3u13/soft_actor_critic/
[2] https://spinningup.openai.com/en/latest/algorithms/sac.html
[3] https://www.researchgate.net/figure/Performance-of-DQN-PPO-and-their-reality-checks-on-an-extended-environment-combining_fig2_365056338
[4] https://www.diva-portal.org/smash/get/diva2:1702126/FULLTEXT01.pdf
[5] https://openscholarship.wustl.edu/cgi/viewcontent.cgi?article=1017&context=eseundergraduate_research