Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ما هي وظائف الخسارة النموذجية المستخدمة في RNN-gans مع Optimizer


ما هي وظائف الخسارة النموذجية المستخدمة في RNN-gans مع Optimizer


تجمع شبكات الخصومة التوليدية القائمة على الشبكة العصبية المتكررة (RNN-Gans) بين إمكانيات النمذجة الزمنية لـ RNNs مع مبادئ التدريب العدائية لـ Gans. عادةً ما يتم تصميم وظائف الخسارة المستخدمة في RNN-gans لتحسين أهداف كل من المولد والتمييز في هذا الإطار ، وعندما يتأثرون مع Optimizer Adam ، يتأثر سلوكهم وتقاربهم بخصائص معدل التعلم التكيفية المميزة.

وظائف الخسارة النموذجية في RNN-gans

تستخدم RNN-gans اختلافات وظائف الخسارة بناءً على صياغة GAN الأصلية. وظائف الخسارة الأكثر شيوعا هي:

- فقدان الإدخال الثنائي (فقدان BCE): هذا خيار شائع للتمييز والمولد حيث يحاول التمييز التمييز بين التسلسلات المزيفة ويحاول المولد خداع التمييز من خلال إنتاج تسلسلات واقعية. يقيس فقدان BCE المسافة بين الاحتمالات المتوقعة وعلامات الحقيقة الأساسية (حقيقية = 1 ، وهمية = 0).

- يزيد التمييز من احتمال تصنيف العينات الحقيقية والمزيفة بشكل صحيح ، بينما يقلل المولد من احتمال تصنيف التمييز بشكل صحيح:
$$
\ min_g \ max_d v (d ، g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z}
$$
هنا ، $$ x $$ هو تسلسل حقيقي و $$ z $$ هو إدخال الضوضاء إلى المولد. يتم تطبيق هذه الخسارة في كل مدة زمنية أو فوق إخراج التسلسل الكامل اعتمادًا على التنفيذ.

- فقدان المربعات الصغرى (LSGAN): لتحقيق الاستقرار في التدريب ، تحل فقدان المربعات الصغرى محل فقدان BCE. يعاقب على العينات بناءً على مسافة عن بعدها من حدود القرار ، مما يشجع المخرجات بالقرب من البيانات الحقيقية:
للتمييز:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (z))^2]
$$
للمولد:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
غالبًا ما تفضل هذه الخسارة في GANs القائمة على التسلسل بما في ذلك RNN-Gans لتجنب التلاشي التدرجات.

- خسارة Wasserstein (WGAN): تستخدم بعض نماذج RNN-GAN خسارة WasserStein لتحسين استقرار التدريب وتفسيره. تستخدم هذه الخسارة مسافة محرك الأرض كمعيار مع ناقد (بدلاً من تمييز) يسجل تسلسل بدلاً من تصنيفها:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))
$$
حيث $$ \ mathcal {d} $$ هي مجموعة وظائف 1-lipschitz. تتجنب الخسارة التدرجات المشبعة ، والتي يمكن أن تكون حاسمة للبيانات المتسلسلة.

-الخسائر على مستوى التسلسل: بالإضافة إلى الخسائر العدائية ، قد يتم دمج الخسائر الخاصة بالتسلسل أو المهمات الخاصة ، مثل تقدير احتمالية الحد الأقصى (MLE) أو خسائر فرض المعلمين مع فقدان العدواني لتوجيه تدريب المولد بشكل أكثر فعالية على التسلسلات.

استخدام Adam Optimizer في RNN-gans

تم تبني محسن آدم على نطاق واسع في Gans ، بما في ذلك RNN-Gans ، نظرًا لتقدير لحظة التكييف التي تفيد التدريب المعقد. يقوم آدم بضبط معدلات التعلم بشكل فردي لكل معلمة بناءً على تقديرات اللحظات الأولى (المتوسطة) والثانية (التباين) للتدرجات أثناء التدريب.

معلمات آدم الرئيسية المستخدمة عادة في تدريب RNN-GAN هي:

- معدل التعلم ($$ \ alpha $$): بشكل عام تعيين صغير (على سبيل المثال ، 0.0001 إلى 0.001) للتدريب المستقر GAN.
- معدل الانحلال الأسي لتقديرات اللحظة الأولى ($$ \ beta_1 $$): عادة ما يكون حوالي 0.5 إلى 0.9 ؛ أقل من المعيار 0.9 لتقليل التذبذبات في تدريب GAN.
- معدل الانحلال الأسي لتقديرات اللحظة الثانية ($$ \ beta_2 $$): عادة ما يتم الاحتفاظ به عند 0.999.
- epsilon ($$ \ epsilon $$): ثابت صغير مثل $$ 10^{- 8} $ $ للحفاظ على الاستقرار العددي.

يساعد توازن آدم في الزخم ومعدلات التعلم التكيفي في التغلب على القضايا المتعلقة بخسائر الخصومة غير الثابتة ، خاصة في نمذجة التسلسل مع RNNs حيث يمكن أن تكون التدرجات غير مستقرة أو متناثرة.

مثال إعداد الممارسة الشائعة

في إعدادات RNN-gan العملية ، يرى المرء عادةً شيئًا مثل:

- تمييز ومولد مُحسّن بشكل منفصل مع فقدان المشاركة الثنائية أو المتغيرات.
- باستخدام Adam Optimizer مع $$ \ beta_1 = 0.5 $$ ، $$ \ beta_2 = 0.999 $$ ، ومعدل التعلم حول $$ 10^{- 4} $$ لضمان تحديثات متوازنة.
- يتضمن التدريب تحديثات بالتناوب بين التمييز والمولد بناءً على خسائرها في كل خطوة تدريب أو دفعة مصغرة.

المزيد من الاختلافات والبحث

يستمر البحث في وظائف الخسارة لـ Gans في التطور. تقدم بعض الدراسات وظائف الخسارة المعلمة أو المعممة (على سبيل المثال ، استنادًا إلى اختلاف Rã © NYI أو الاختلافات في بيرسون) لتعزيز الاستقرار والأداء. يمكن أن يتضمن تطبيق هذه على RNN-gans تعديل أهداف التمييز والمولد وفقًا لذلك.

بالإضافة إلى ذلك ، يتم في بعض الأحيان اعتماد التنظيم الذاتي والخسائر المركبة التي تجمع بين فقدان الخصومة مع إعادة الإعمار أو فقدان التصنيف اعتمادًا على المهمة ، مثل توليد النص أو توليف السلاسل الزمنية.

ملخص

وظائف فقدان RNN-GAN النموذجية مع ADAM Optimizer تستخدم خسائر عدوانية مستوحاة من GAN الأصلي ، بما في ذلك الدخول الثنائي المتقاطع ، المربعات الصغرى ، أو خسائر Wasserstein التي تم تكييفها للبيانات المتسلسلة. يتم ضبط إعدادات معلمة آدم خصيصًا لاستقرار GAN. تعتبر المجموعات مع الخسائر الخاصة بالتسلسل شائعة أيضًا في توجيه التدريب على المولدات على الأنماط الزمنية. تسهل هذه المجموعة تدريب نماذج RNN العدائية التي توليد أو نمذجة تسلسل بشكل فعال.

المراجع لهذه المعلومات مستمدة من الأدبيات التأسيسية GAN ، وتطبيقات RNN-GAN ، وأنماط استخدام المحسن ،.