Рецидивуючі генеративні змагальні мережі на основі нейронної мережі (RNN-GANS) поєднують можливості тимчасового моделювання RNN з змагальними принципами навчання GANS. Функції втрат, що використовуються в RNN-GANS, як правило, розроблені для оптимізації цілей як генератора, так і дискримінатора в межах цієї рамки, і при поєднанні з оптимізатором Адама на їх поведінку та конвергенцію впливають його характерні адаптивні властивості навчання.
Типові функції втрат у RNN-GANS
RNN-GAN використовують варіації функцій втрат на основі оригінальної рецептури GAN. Найпоширенішими функціями втрат є:
- Бінарна втрата перехресної ентропії (втрата до н.е.): Це загальний вибір для дискримінатора та генератора, де дискримінатор намагається відрізнити реальну від фальшивих послідовностей і генератор намагається обдурити дискримінатор, створюючи реалістичні послідовності. Втрата BCE вимірює відстань між прогнозованими ймовірностями та основними мітками істини (реальна = 1, підробка = 0).
- Втрата змагань (мінімакс втрат): оригінальна втрата GAN має на меті вирішити гру Minipax між генератором $$ G $$ та дискримінатором $$ D $$. Дискримінатор максимізує ймовірність правильного класифікації реальних та підроблених зразків, тоді як генератор мінімізує ймовірність дискримінатора правильно класифікувати свої підробки:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z)]]]]]
$$
Тут $$ x $$ - це справжня послідовність, а $$ Z $$ - це вхід шуму для генератора. Ця втрата застосовується в кожному часі або над повною послідовністю виходу залежно від реалізації.
- Втрата найменших квадратів (LSGAN): Для стабілізації тренувань найменші втрати квадратів замінюють втрати до BCE. Він покарає зразки на основі їх відстані від межі рішення, заохочуючи результати ближче до реальних даних:
Для дискримінатора:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (g (z)^2]^2]
$$
Для генератора:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Ця втрата часто віддана перевагу в GANS на основі послідовностей, включаючи RNN-GAN, щоб уникнути зникнення градієнтів.
- Втрата Вассерштейна (WGAN): Деякі моделі RNN-GAN використовують втрати Вассерштейна для підвищення стабільності та інтерпретації тренувань. Ця втрата використовує відстань Землі Мовер як критерій з критиком (замість дискримінатора), який оцінює послідовності, а не класифікує їх:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} {z \ sim p_z} [d (g (z)]]]
$$
Де $$ \ mathcal {d} $$-це набір функцій 1-lipschitz. Втрата уникає насичених градієнтів, що може бути критичним для послідовних даних.
-Втрати на рівні послідовності: Крім того, що змагальні втрати, специфічні для послідовності втрат, такі як максимальна оцінка ймовірності (MLE) або втрати вчителя можуть поєднуватися з змагальними втратами, щоб ефективніше керувати тренуванням генератора на послідовностях.
Використання оптимізатора Адама в RNN-GANS
Оптимізатор Адама широко прийнята в GANS, включаючи RNN-GANS, через його адаптивну оцінку моменту, що приносить користь складному змагальному навчанню. Адам коригує рівень навчання індивідуально для кожного параметра на основі оцінок перших (середніх) та другої (дисперсії) моментів градієнтів під час навчання.
Ключові параметри Адама, як правило, використовуються на тренуванні RNN-GAN:
- Коефіцієнт навчання ($$ \ alpha $$): Зазвичай встановлюйте невеликий (наприклад, 0,0001 до 0,001) для стабільного навчання GAN.
- Експоненціальна ставка розпаду за оцінками першого моменту ($$ \ beta_1 $$): зазвичай встановлюється від 0,5 до 0,9; Нижче за стандартний 0,9 для зменшення коливань у тренуванні GAN.
- Експоненціальна ставка розпаду за оцінками другого моменту ($$ \ beta_2 $$): зазвичай зберігається на рівні 0,999.
- epsilon ($$ \ epsilon $$): невелика константа, як $$ 10^{- 8} $$, щоб підтримувати числову стабільність.
Баланс імпульсу та адаптивного навчання Адама допомагає подолати проблеми з нестаціонарними змагальними втратами, особливо в моделюванні послідовностей з RNN, де градієнти можуть бути нестабільними або рідкими.
Приклад налаштування загальної практики
У практичних налаштуваннях RNN-GAN, як правило, можна побачити щось на кшталт:
- Дискримінатор та генератор, оптимізовані окремо за допомогою двійкових втрат перехресної ентропії або її варіантів.
- Використання оптимізатора Адама за допомогою $$ \ Beta_1 = 0,5 $$, $$ \ Beta_2 = 0,999 $$ та швидкість навчання близько $$ 10^{- 4} $$, щоб забезпечити збалансовані оновлення.
- Навчання передбачає чергування оновлень між дискримінатором та генератором на основі відповідних втрат на кожному етапі тренувань або міні-пакетних.
Подальші варіації та дослідження
Дослідження функцій втрат для GANS продовжують розвиватися. Деякі дослідження впроваджують параметризовані або узагальнені функції втрат (наприклад, на основі розбіжності або розбіжностей Пірсона) для підвищення стабільності та продуктивності. Застосування їх до RNN-GAN може включати відповідно до зміни цілей дискримінатора та генератора.
Крім того, інколи приймаються самостійні втрати та складені втрати, що поєднують змагальні втрати з реконструкцією або класифікаційними втратами залежно від завдання, наприклад, генерація тексту або синтез часових рядів.
Резюме
Типові функції втрат RNN-GAN з оптимізатором Адама використовують змагальні втрати, натхненні оригінальною GAN, включаючи двійкові перехресні вентиляції, найменші квадрати або втрати Вассерштейна, адаптовані для послідовних даних. Налаштування параметрів Адама регулюються спеціально для стабільності GAN. Комбінації з специфічними для послідовностей втрат також є загальними для кращого тренінгу генератора на часових моделях. Цей ансамбль полегшує навчання змагальних моделей RNN, що ефективно генерує або моделює послідовності.
Посилання на цю інформацію випливають із фундаментальної літератури GAN, додатків RNN-GAN та моделей використання оптимізаторів.