Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Как время обучения мягкого актера-критика сравнивается с DQN в спортивной среде Openai


Как время обучения мягкого актера-критика сравнивается с DQN в спортивной среде Openai


Сравнение времени обучения между мягкими актерскими критическими (SAC) и глубокими Q-сетью (DQN) в спортивной среде OpenAI зависит от нескольких факторов, включая природу окружающей среды, сложность государственного пространства и действия действий, а также алгоритмические различия между SAC и DQN.

Soft Actor-Critic (SAC)-это алгоритм вне политики, который оптимизирует стохастическую политику с использованием максимального обучения энтропии, которое направлено на максимизацию как ожидаемой доходности, так и энтропии политики, способствуя разведке. SAC предназначен для того, чтобы хорошо работать в непрерывных действиях. Как правило, в нем используются две Q-функции (для уменьшения смещения переоценки), стохастического субъекта и параметра температуры, который корректирует компромисс между разведкой и эксплуатацией. SAC обновляет сети политики и стоимости на основе партий, отобранных из буфера воспроизведения, и обычно используют нейронные сети с промежуточными уровнями для приближения функции. Обучающие обновления включают шаги обратного распространения, которые обновляют вес сети каждые фиксированное количество шагов. SAC известен своим стабильным обучением и устойчивостью, но неотъемлемая сложность и использование двух Q-NetWork наряду со стохастической политикой часто означают, что SAC нуждается в большем количестве вычислительных усилий на шаге, чем более простые алгоритмы.

DQN, с другой стороны, представляет собой метод вне политики, предназначенный в основном для дискретных действий. Он аппроксимирует функцию значения действия q (s, a) нейронной сетью и использует переигрыватель опыта и целевые сети для стабилизации обучения. Агент DQN выбирает действия, максимизируя значения Q, и обновляет его Q-сетевые работы, минимизируя временные различия, используя мини-партии из буфера воспроизведения с фиксированными интервалами во время обучения. По сравнению с SAC, DQN обычно имеет более простую архитектуру, поскольку она включает в себя только одну Q-NetWork и детерминированную политику, полученную из Q-значений.

Что касается времени обучения, исследования и эксперименты, о которых говорится практикующими, и исследования показывают, что:

1. DQN часто быстрее на этап обучения, чем SAC из-за его более простой архитектуры **. Обучается только одна Q-сеть, и политика является детерминированной, поэтому для этого требуется меньше вычислений, чем обновления стохастической политики и несколько сетей в SAC. Обычно это переводится на более низкое время на стене на итерацию для DQN.

2. Однако SAC часто требует большего количества данных и обучающих этапов для достижения сопоставимой производительности, особенно в средах с непрерывными пространствами действия, где DQN не применим или не менее эффективен. SAC получает выгоду от лучшего исследования с помощью максимизации энтропии, что может удлинить время обучения, но приводит к более надежной политике.

3. В средах дискретных действий, доступных в спортзале Openai, DQN часто может превосходить SAC с точки зрения начальной скорости обучения из -за его более простой политики и более высокой оценки стоимости. Но производительность SAC, как правило, лучше масштабируется в сложных средах, особенно непрерывных, где эффективность отбора проб и надежность политики имеет решающее значение.

4. Согласно некоторым сравнительным отчетам, более простой тренировочный трубопровод DQN и меньшее количество обновлений сети на шаг означают, что он часто завершает обучение в меньшее время на стене по сравнению с SAC, когда оба применяются для задач дискретного действия. Время обучения SAC больше из -за расчета градиентов для нескольких сетей, регулировки температуры для энтропии и отбора проб из буферов воспроизведения, которые могут потребовать больших размеров партий.

5. Исследовательские работы и реализации показывают, что тренинги SAC в условиях таких средах, как Equer-V2 (среда непрерывного контроля Gym), как правило, значительно дольше длится во время вычислений по сравнению с пробегами DQN в дискретных задачах, таких как игры Atari или Cartpole, потому что SAC обучает как политики, так и сетей стоимости более интенсивно в соответствии с итерацией.

6. Эмпирические критерии иллюстрируют, что в таких средах, как задачи непрерывного контроля Mujoco Openai Gym, SAC является предпочтительным, несмотря на более длительное время обучения, потому что он достигает политики более высокого качества и лучшего обобщения. Напротив, для более простых дискретных средств управления DQN часто тренируется быстрее и быстрее достигает приемлемой производительности из -за его простоты дизайна.

Таким образом, для среды для спортивного зала Openai:
- DQN, как правило, быстрее тренироваться на шаге и требует меньше вычислительных ресурсов для отдельных пространств действия.
- SAC требует более длительного времени обучения из-за его двойного Q-NetWorks, Stochastic Policy Learning и максимизации энтропии, но часто дает более сильную политику, особенно в сфере непрерывных действий.
-SAC может потребоваться больше этапов обучения и времени на стену, чем DQN при применении к сопоставимым средам, но он достигает лучшей политической надежности и компромиссов разведки.
- Выбор между ними зависит от характеристик окружающей среды (непрерывные и дискретные действия), желаемой устойчивости политики и вычислительного бюджета.

Таким образом, время обучения мягкого актера-критика, как правило, длиннее, чем DQN в спортивных средах Openai, особенно потому, что SAC использует более сложные архитектуры, требует большего количества вычислений на обновление и адаптировано для непрерывных пространств действия, где разведка усиливается максимизацией энтропии. DQN является вычислительно более дешевым и, следовательно, быстрее в типичных задачах по дискретному действию в спортзале, но может не подчеркивать, когда необходим непрерывный контроль или высокая устойчивость к политике.