Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Какие типичные функции потерь используются в RNN-Gans с Adam Optimizer


Какие типичные функции потерь используются в RNN-Gans с Adam Optimizer


Рецидивирующие генеративные сетевые сети на основе нейронной сети (RNN-Gans) объединяют возможности временного моделирования RNN с принципами состязательного обучения GAN. Функции потерь, используемые в RNN-гневах, обычно предназначены для оптимизации целей как генератора, так и дискриминатора в рамках этой структуры, и в сочетании с оптимизатором ADAM их поведение и сходимость влияют на его отличительные адаптивные свойства скорости обучения.

Типичные функции потерь в rnn-gans

RNN-Gans используют различия функций потерь на основе исходной формулировки GAN. Наиболее распространенными функциями потери являются:

- Бинарная потери перекрестной энтропии (потеря BCE): это общий выбор для дискриминатора и генератора, где дискриминатор пытается отличить реальные от поддельных последовательностей, а генератор пытается обмануть дискриминатора, создавая реалистичные последовательности. Потеря BCE измеряет расстояние между прогнозируемыми вероятностями и метками истинностью основной истины (Real = 1, Fake = 0).

- Потеря состязания (потеря минимакс): первоначальная потеря Gan направлена ​​на решение минимальной игры между генератором $$ G $$ и Discinator $$ D $$. Дискриминатор максимизирует вероятность правильной классификации реальных и поддельных образцов, в то время как генератор сводит к минимуму вероятность того, что дискриминатор правильно классифицирует его подделки:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z))]]]]]]
$$
Здесь $$ x $$ - это реальная последовательность, а $$ z $$ - это шум в генератор. Эта потеря применяется в каждом временном разделе или на полном выходе последовательности в зависимости от реализации.

- Наименьшая потеря квадратов (LSGAN): Для стабилизации обучения, наименьшая потеря квадратов заменяет потерю BCE. Он наказывает образцы на основе их расстояния от границы принятия решений, поощряя выходы ближе к реальным данным:
Для дискриминатора:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (z))^2]
$$
Для генератора:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Эта потеря часто предпочтительнее в GAN на основе последовательностей, включая RNN-Gans, чтобы избежать исчезновения градиентов.

- Потеря Вассерштейна (WGAN): некоторые модели RNN-GAN используют потерю Wasserstein для повышения стабильности обучения и интерпретации. Эта потеря использует расстояние заземления Земли в качестве критерия с критиком (вместо дискриминатора), который оценивает последовательности, а не классифицирует их:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (z))]]]
$$
Где $$ \ mathcal {d} $$-это набор функций 1-липшиц. Потеря избегает насыщающих градиентов, которые могут быть критическими для последовательных данных.

-Потери на уровне последовательности: в дополнение к потери состязания, специфичные для последовательности или потери, специфичные для задачи, такие как оценка максимального правдоподобия (MLE) или убытки учителя, могут быть объединены с потерей состязания, чтобы более эффективно направлять обучение генератора по последовательностям.

Использование Adam Optimizer в RNN-Gans

Оптимизатор ADAM широко используется в GANS, включая RNN-Gans, из-за его оценки адаптивного момента, которая приносит пользу сложной состязательной подготовке. Адам корректирует скорости обучения индивидуально для каждого параметра на основе оценок первых (средних) и вторых (дисперсионных) моментов градиентов во время обучения.

Ключевые параметры Адама, обычно используемые в обучении RNN-Gan:

- Скорость обучения ($$ \ alpha $$): обычно устанавливается малая (например, от 0,0001 до 0,001) для стабильного обучения GAN.
- Экспоненциальная ставка распада для оценки первого момента ($$ \ beta_1 $$): обычно устанавливается от 0,5 до 0,9; ниже, чем стандарт 0,9, чтобы уменьшить колебания при обучении GAN.
- Экспоненциальная ставка распада для оценки второго момента ($$ \ beta_2 $$): обычно сохраняется на уровне 0,999.
- Epsilon ($$ \ epsilon $$): небольшая постоянная $$ 10^{- 8} $$, чтобы поддерживать численную стабильность.

Баланс импульса Адама и адаптивные показатели обучения помогают преодолеть проблемы с нестационарными состязательными потерями, особенно в моделировании последовательностей с RNN, где градиенты могут быть нестабильными или скудными.

Пример настройки обычной практики

В практических настройках RNN-GAN можно увидеть что-то вроде:

- Дискриминатор и генератор оптимизируются отдельно с бинарной потерей перекрестной энтропии или его вариантами.
- Использование оптимизатора ADAM с $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$ и ставка обучения около $$ 10^{- 4} $$, чтобы обеспечить сбалансированные обновления.
- Обучение включает чередование обновлений между дискриминатором и генератором на основе их соответствующих потерь на каждом этапе обучения или мини-партии.

Дальнейшие вариации и исследования

Исследования по функциям потерь для Ганса продолжают развиваться. В некоторых исследованиях вводят параметризованные или обобщенные функции потерь (например, на основе расходов на Rã NYI или расходящихся из Пирсона) для повышения стабильности и производительности. Применение их к rnn-gans может соответствующим образом включать изменение целей дискриминатора и генератора.

Кроме того, иногда принимаются саморегуляризация и составные потери, сочетание состязательных потерь с реконструкцией или классификационными потерями в зависимости от задачи, такой как генерация текста или синтез временных рядов.

Краткое содержание

Типичные функции потери RNN-GAN с Adam Optimizer используют состязательные потери, вдохновленные исходной GAN, включая бинарную перекрестную энтропию, наименьшие квадраты или потери Wasserstein, адаптированные для последовательных данных. Настройки параметров Адама регулируются специально для стабильности GAN. Комбинации с последовательно-специфичными потери также являются общими для лучшего обучения генераторов по направлению по временным моделям. Этот ансамбль облегчает обучение состязательных моделей RNN, которые эффективно генерируют или моделируют последовательности.

Ссылки на эту информацию, полученные из основополагающей литературы GAN, приложений RNN-GAN и моделей использования оптимизатора.