Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Як час навчання м'якого актора-критика порівнюється з DQN у середовищі OpenAI Gym


Як час навчання м'якого актора-критика порівнюється з DQN у середовищі OpenAI Gym


Порівняння часу тренувань між м'яким акторським критиком (SAC) та глибокою мережею Q (DQN) у середовищі OpenAI тренажерних залів залежить від декількох факторів, включаючи природу навколишнього середовища, складність стану та дієві простори та алгоритмічні відмінності між SAC та DQN.

М'який актор-критик (SAC)-це алгоритм поза поліції, який оптимізує стохастичну політику, використовуючи максимальне навчання підсилення ентропії, що має на меті максимізувати як очікувану віддачу, так і ентропію політики, сприяючи розвідці. SAC призначений для того, щоб добре працювати в просторах безперервних дій. Зазвичай він використовує дві функції Q (для зменшення завищення завищення), стохастичного актора та параметра температури, який коригує компроміс між розвідкою та експлуатацією. SAC оновлює політичні та ціннісні мережі на основі партії, відібраних із буфера -повторення, і зазвичай використовує нейронні мережі з проміжними шарами для наближення функцій. Оновлення тренувань включають кроки зворотного розповсюдження, які оновлюють ваги мережі кожної фіксованої кількості кроків. SAC відомий своїм стабільним навчанням та надійністю, але притаманна складність та використання двох Q-Networks разом із стохастичною політикою часто означають, що SAC потребує більш обчислювальних зусиль на крок, ніж простіші алгоритми.

З іншого боку, DQN-це метод поза поліції, розроблений переважно для дискретних просторів дії. Він наближає функцію дії Q (S, A) нейронною мережею та використовує досвід переплавлення та цільових мереж для стабілізації навчання. Агент DQN вибирає дії, максимізуючи значення Q та оновлює свою мережу Q, мінімізуючи тимчасові втрати різниці, використовуючи міні-партії з буфера повторення з фіксованими інтервалами під час тренувань. Порівняно з SAC, DQN, як правило, має більш просту архітектуру, оскільки вона включає лише одну мережу Q та детерміновану політику, отриману від Q-значення.

Щодо часу навчання, дослідження та експерименти, про які повідомляли практикуючі та дослідження, свідчать про те, що:

1. DQN часто швидший за крок тренувань, ніж SAC через його простішу архітектуру ** Â Навчається лише одна мереж Q, а політика є детермінованою, тому вона вимагає меншої кількості обчислень, ніж оновлення стохастичної політики та декілька мереж у SAC. Зазвичай це означає нижчий час стіни за ітерації для DQN.

2. Однак SAC часто вимагає більшої кількості даних та навчальних етапів для досягнення порівнянних показників, особливо в середовищах із безперервними місцями, де DQN не застосовується або менш ефективно. SAC виграє від кращої розвідки за допомогою максимізації ентропії, що може подовжити час навчання, але призводить до більш надійної політики.

3. У середовищах дискретних дій, доступних у тренажерному залі OpenAI, DQN може часто перевершити SAC з точки зору початкової швидкості навчання завдяки своїй простішій політиці та більшій оцінці вартості. Але продуктивність SAC, як правило, краще масштабується у складних умовах, особливо безперервних, де ефективність відбору проб та надійність політики є критичними.

4. Згідно з деякими порівняльними звітами, більш простий тренажерний трубопровід DQN та менша кількість оновлень мережі на крок означають, що він часто завершує навчання за менший час у стіні порівняно з SAC, коли обидва застосовуються до дискретних завдань дій. Час тренувань SAC довший через обчислення градієнтів для декількох мереж, регулювання температури для ентропії та відбору проб із буферів -повторень, які можуть потребувати більших розмірів партії.

5. Дослідницькі роботи та впровадження показують, що навчальні заняття в таких середовищах, як REACHER-V2 (безперервний контроль OpenAI-середовище), як правило, тривають значно довше в час обчислення порівняно з DQN, що виконується в дискретних завданнях, таких як ігри ATARI або Cartpole, оскільки SAC тренує як політичні, так і мережні цінності інтенсивно за ітератор.

6. Емпіричні орієнтири ілюструють, що в таких середовищах, як Mujoco Mujoco Mujoco OpenAI Mojoco, SAC є кращим, незважаючи на більш тривалий час тренувань, оскільки він досягає політики більш високої якості та кращого узагальнення. На відміну від цього, для більш простих дискретних середовищ управління, DQN часто тренується швидше і швидше досягає прийнятних продуктивності через свою простоту дизайну.

Підсумовуючи, для середовища спортзалу OpenAI:
- DQN, як правило, швидше тренуватися за крок і вимагає меншої кількості обчислювальних ресурсів для дискретних просторів.
- SAC вимагає більш тривалого часу навчання завдяки подвійному Q-NETWORKS, стохастичному навчанню політики та максимізації ентропії, але часто дає більш сильну політику, особливо в областях безперервних дій.
-SAC може знадобитися більше кроків для навчання та стінового часу, ніж DQN, коли вони застосовуються до порівнянних середовищ, але він досягає кращої надійності політики та компромісів з розвідки.
- Вибір між двома залежить від характеристик навколишнього середовища (постійні та дискретні дії), бажану надійність політики та обчислювальний бюджет.

Таким чином, час навчання м'якого акторського критика, як правило, довший, ніж DQN у середовищі OpenAI Gym, особливо тому, що SAC використовує більш складні архітектури, вимагає більшої кількості обчислень на оновлення та підібраний для безперервних просторів, де розвідка посилюється за допомогою максимізації ентропії. DQN обчислювально дешевший і, таким чином, швидше у типових завданнях з дискретних дій, але може бути низьким, коли необхідна безперервна контроль або висока надійність політики.