Обрезка веса - это метод, первоначально введенный в Wasserstein Gans (WGANS) для обеспечения соблюдения ограничения непрерывности Липшиц, требуемого метрикой расстояния Вассерштейна. Несмотря на то, что он имеет вычислительную простоту и некоторый первоначальный успех, обрезка веса в WGAN вводит несколько заметных вопросов, которые влияют на стабильность обучения, модель и общую производительность.
Одна из основных проблем с обрезанием веса заключается в том, что он действует как жесткое ограничение на веса модели, усекая их в фиксированном диапазоне. Эта ограничительная операция смещает критик (дискриминатор в традиционных GAN) к обучению чрезмерно простым функциям, ограничивая его способность эффективно моделировать сложные распределения данных. Обрезка заставляет вес оставаться в маленькой коробке, что часто приводит к тому, что критик не сможет запечатлеть моменты более высокого порядка и более тонкие детали данных. Это ограничение может привести к тому, что функция критика станет слишком упрощенной, чтобы точно оценить расстояние Вассерштейна, что необходимо для стабильного обучения GAN.
Другая связанная проблема - это нестабильность обучения, вызванная обрезкой веса. Диапазон отсечения необходимо тщательно настроен: если он установлен слишком большим, ограничение Липшиц неадекватно применяется, что потенциально приводит к нестабильному обучению и обрушению режима; Если установить слишком маленький, градиенты могут исчезнуть или стать слишком малыми для эффективных обновлений, нарушение обучения модели. Градиенты исчезновения обычно возникают, когда веса критика обрезаются до чрезмерно низких значений, особенно в архитектурах с глубокими сетями, без нормализации партии или повторяющихся компонентов. Эта проблема исчезновения градиента возникает из -за того, что веса дискриминатора ограничиваются узким диапазоном, что снижает способность критика обеспечивать значимую обратную связь генератору во время тренировки.
Обрезка веса также приводит к патологическому распределению веса. Эмпирически многие веса критика, как правило, накапливаются на границах диапазона отсечения, что ограничивает выразительность и разнообразие ученых весов. Этот эффект насыщения препятствует оптимизации, потому что обновления градиента неоднократно отталкивают в направлении пределов обрезки, вызывая неэффективное исследование параметров и более медленную сходимость. Кроме того, обрезка веса искажает ландшафт оптимизации, что означает, что градиенты и общая поверхность потери критиков становятся менее плавными и труднее навигации с методами на основе градиента.
Из -за этих проблем обрезка веса может затруднить достоверно обучать очень глубоких критических архитектур. Тяжелое ограничение, налагаемое обрезанием, не очень хорошо масштабируется для более крупных и более сложных сетевых архитектур. Наблюдается, что даже с общими методами, такими как нормализация пакетов в критике, критики глубоких WGAN часто пытаются сходиться при применении веса. Эти ограничения снижают гибкость и пропускную способность модели при моделировании комплекса реальных распределений данных, что часто приводит к плохому качеству выборки или неудачному обучению.
Первоначальные документы WGAN и последующие работы признали, что обрезка веса может привести к нежелательному поведению при обучении, особенно для высокоразмерных или сложных наборов данных. Метод может привести к тому, что критик обрушился на более простые функции, снижая качество и разнообразие генерируемых образцов. В некоторых исследованиях указывается, что обрезка веса смещает критика к функциям с постоянными градиентами или существенно сниженной градиентной нормой, которая противоречит идеальному ограничению Липшиц наличие градиентной нормы почти везде.
Для решения этих недостатков были предложены альтернативы обрезку веса, особенно метод градиентного штрафа (WGAN-GP). В отличие от жесткой обрезки, градиентный штраф налагает мягкое ограничение, наказав отклонение градиентной нормы от одного, что поощряет более плавные и более реалистичные функции критики. Этот штраф добавляется в качестве дополнительного термина в функции потери, избегая жесткого ограничения весов и обеспечивая более стабильное и выразительное обучение критики. Основанные на градиентных штрафах подходы значительно улучшают стабильность обучения, качество выборки и скорость сходимости по сравнению с обрезанием веса.
Таким образом, основные проблемы с обрезкой веса в WGAN включают:
- Тяжелое ограничение, которое ограничивает сложность критика, что приводит к чрезмерно простым дискриминаторам.
- Обучение нестабильности от неправильного выбора диапазона отсечения, вызывая либо исчезающие, либо взрывающиеся градиенты.
- Патологические распределения веса со многими весами, насыщенными на границах обрезки.
- Неэффективная оптимизация из -за искаженных ландшафтов потерь и информации о градиенте.
- Плохая проблема масштабируемости и сходимости с глубокими критическими архитектурами.
- Более низкое качество генерируемых образцов при моделировании сложных данных.
- Общая ограниченная выразительность и неспособность поддерживать правильную непрерывность Липшиц гибко.