في تدريب RNN-gans (شبكات العدائية التوليدية القائمة على الشبكة العصبية المتكررة) ، يلعب اختيار المحسن دورًا مهمًا في تحديد كفاءة النموذج المستفاد ، وجودة النموذج المستفاد. مُحسّنان يستخدمان على نطاق واسع في هذا السياق هما Adam و Stochastic Tradient Geasscent (SGD). يمكن فهم فروقهم الرئيسية وتأثيراتها على RNN-Gans من حيث ديناميات التحسين الخاصة بهم ، وخصائص التقارب ، والقدرة على التكيف مع بنية الشبكة ، والتأثيرات على إجراء التدريب العدائي.
آليات التحسين
آدم هي طريقة معدل التعلم التكيفي تجمع بين مزايا امتدادات أخرى من نزول التدرج العشوائي: Adagrad و RMSPROP. إنه يحسب معدلات التعلم التكيفية الفردية للمعلمات المختلفة من تقديرات اللحظات الأولى والثانية من التدرجات. على وجه التحديد ، يتابع آدم متوسط التدرجات السابقة للتدرجات السابقة (اللحظة الأولى) والتدرجات المربعة (اللحظة الثانية) ، وذلك باستخدامها لضبط معدلات التعلم لكل معلمة بشكل فردي. تتيح آلية حجم الخطوة التكيفية هذه أن يتقارب آدم بسرعة والتعامل مع التدرجات المتفرقة والمهام الصاخبة بشكل جيد.
من ناحية أخرى ، يقوم SGD بتحديث المعلمات باستخدام التدرج لوظيفة الخسارة فيما يتعلق بالمعلمات ، التي يتم تحجيمها بمعدل تعلم ثابت وربما دمج الزخم. يستخدم SGD التقليدي معدل التعلم العالمي ، والذي ينطبق بشكل موحد على جميع المعلمات. على الرغم من أن هذا يجعل SGD بسيطًا من الناحية المفاهيمية وأحيانًا فعالة للغاية ، إلا أنه يتطلب ضبطًا دقيقًا لمعايير التعلم ومعلمات الزخم لأداء جيد.
سرعة التقارب والاستقرار في تدريب GAN
يوفر آدم عمومًا تقاربًا أسرع مقارنة بـ SGD. تساعدها طبيعتها التكيفية على التعامل مع ديناميات التدريب العدوانية غير المستقرة في غانس. RNN-Gans ، التي تجمع بين نمذجة التسلسل من خلال RNNs والتعلم العدائي في Gans ، تعاني غالبًا من عدم الاستقرار مثل انهيار الوضع ، التلاشي أو التدرجات المتفجرة ، والسلوك التذبذب بين التمييز والمولد. تساعد قدرة آدم على تكييف معدلات التعلم لكل معلمة في تخفيف هذه المشكلات إلى حد ما من خلال توفير تحديثات تدرج أكثر استقرارًا ، وخاصة في وقت مبكر من التدريب.
SGD ، على النقيض من ذلك ، يمكن أن تكون أبطأ في التقارب وأكثر حساسية لضبط فرط البارامتر. ومع ذلك ، عند ضبطها بشكل صحيح مع جداول معدل التعلم والزخم ، يمكن أن تؤدي SGD إلى ديناميات تدريب أكثر استقرارًا وتقاربًا نهائيًا أفضل. ويرجع ذلك جزئيًا إلى ميل SGD إلى التقارب إلى الحد الأدنى في مشهد الخسارة ، والذي يرتبط بأداء تعميم أفضل في العديد من مهام التعلم العميق.
تأثير على انهيار الوضع والتنوع في الجيل
MODE MOMPSEâ حيث ينتج المولد أنواعًا محدودة من المخرجات يمثل مشكلة كبيرة في تدريب GAN. تشير الدراسات إلى أن آدم ، على الرغم من أنه يمكن للتكيف والسريع في التقارب ، في بعض الأحيان أن يتعثروا في الحد الأدنى المحلي الأكثر حدة ، مما قد يسهم في استمرار انهيار الوضع في Gans بما في ذلك RNN-Gans. وقد لوحظت SGD ، مع المتغيرات الطبيعية أو التي يتم حثها على الزخم ، لتعزيز استكشاف أفضل لمساحة المعلمة ، مما يقلل من انهيار الوضع عن طريق دفع معلمات النموذج نحو الحد الأدنى من مناطق سطح الخسارة التي تتوافق مع توزيعات الإخراج الأكثر تنوعًا.
Tradient Norm and Update Dynamics
ترتبط رؤية تجريبية مهمة فيما يتعلق بالفرق بين آدم و SGD في Gans بقاعدة تحديثات المعلمة. يتم تطبيع تحديثات آدم بناءً على التباين المقدر للتدرجات السابقة ، والتي تحافظ على أحجام تحديث مستقرة حتى عندما تختلف التدرجات بشكل كبير. تم اقتراح نوع محدد من SGD يسمى SGD الطبيعي (NSGD) كبديل أبسط لآدم ، حيث يتم تطبيع التدرجات للحصول على نفس القاعدة التي تحديثات آدم. يفرض هذا النهج التمييز والمولد على التحديث بمعدلات متوافقة ، وهو أمر بالغ الأهمية في التدريب العدواني للحفاظ على التوازن بين النماذج المتنافسة في RNN-gans.
تشير الأبحاث إلى أن هذا التطبيع يساعد في مطابقة أداء آدم وتجاوزه في بعض الأحيان ، مما يشير إلى أن إحدى مزايا آدم الأساسية قد تكمن في تطبيعها الضمني للتحديثات بدلاً من طبيعة معدل التعلم التكيفي في حد ذاتها.
القدرة على التكيف مع بنيات RNN
تعاني RNNs بطبيعتها من قضايا مثل التلاشي والانفجار التدرجات ، وخاصة على أطوال التسلسل الطويلة. تعد التحديثات التكيفية لآدم فعالة بشكل خاص في التعامل مع هذه المشكلات لأنها تعدل معدل التعلم بشكل فردي لكل معلمة ، مما يسمح للنموذج بتدريب RNNs بشكل أعمق أو أطول بشكل أكثر فعالية. هذه ميزة كبيرة على SGD ، حيث قد تتطلب معدلات التعلم الموحدة عبر المعلمات جدولة وضبط معقدة.
في RNN-gans ، يضيف تفاعل التدريب العدائي مع التبعيات الزمنية لـ RNN التعقيد. يمكن لقدرة آدم على الرد بسرعة على التغييرات في المشهد التدريجي استقرار عملية التعلم ، خاصة خلال مراحل التدريب المبكرة حيث يتطور المولد والتمييز بسرعة.
حساسية وضبط الفرق
غالبًا ما تتطلب SGD ضبطًا شديدًا في مقياس الفصوص مثل جداول تسوس معدل التعلم ، الزخم ، حجم الدُفعة ، وأحيانًا إعادة تشغيل دافئة. عندما يتم اختيارها على النحو الأمثل ، يمكن لـ SGD أن تتفوق على آدم ، وخاصة من حيث التعميم. يعتبر آدم أكثر قوة لتصنيفات سوء الفصول الزائدة ، وغالبًا ما تسفر عن نتائج معقولة "خارج الصندوق" مع المعلمات الافتراضية.
في الممارسة العملية ، هذا يعني أنه بالنسبة لـ RNN-gans ، إذا كانت الموارد الحسابية ووقت التجريب محدودين ، فإن آدم يميل إلى أن يكون الخيار المفضل. ومع ذلك ، إذا سمحت الموارد بالتحسين الشديد لفرط الفقراء ، فقد يؤدي SGD إلى نتائج أفضل وأكثر استقرارًا على المدى الطويل.
التعميم والمتانة
تُظهر الشبكات العصبية المدربة SGD عمومًا قدرات تعميم أفضل وقوة على اضطرابات المدخلات مقارنة بتلك المدربة مع آدم. وقد تم عرض ذلك في العديد من الدراسات التي تفحص ثوابت الشبكة العصبية Lipschitz وقواعد التدرج. في حين أن هذه النتائج تظهر في الغالب في شبكات التغذية أو التلافية ، فإن المبادئ تمتد إلى RNN-gans عن طريق القياس.
تؤدي تحديثات آدم العدوانية والمرنة في بعض الأحيان إلى الحد الأدنى الأكثر وضوحًا في مشهد الخسارة ، مما قد يقلل من التعميم والمتانة. يوفر ميل SGD نحو الحد الأدنى من التغلب فوائد التنظيم ذات قيمة في مهام النمذجة التوليدية ، حيث يكون إنتاج مخرجات متنوعة وعالية الدقة تعمة بشكل جيد أمرًا بالغ الأهمية.
الكفاءة الحسابية والاعتبارات العملية
يتطلب آدم ذاكرة وحسابات إضافية للحفاظ على تقديرات لكل معلمات للحظات الأولى والثانية. يتم ضرب هذا النفقات العامة في RNN-gans ، حيث تزيد كل من البنية المتكررة والشبكات المزدوجة من GAN. SGD أرخص من الناحية الحسابية وأبسط من حيث بصمة الذاكرة.
ومع ذلك ، فإن التقارب الأسرع لآدم وحساسية أقل لخيارات معدل التعلم غالباً ما يعوض ذلك في الممارسة العملية ، خاصة بالنسبة لـ RNN Gans الكبيرة والمعقدة حيث يكون وقت التدريب والاستقرار اختناقات كبيرة.
ملخص الاختلافات الرئيسية في RNN-gans
- آدم يتكيف معدلات التعلم بشكل فردي لكل معلمة ؛ يستخدم SGD معدل التعلم العالمي الثابت (مع زخم اختياري).
- يتقارب آدم بشكل أسرع وأكثر استقرارًا في البداية في التدريب العدواني ؛ يتطلب SGD ضبطًا دقيقًا ولكنه يمكن أن ينتج عنه تقارب نهائي أفضل.
- يساعد تطبيع تحديث آدم على تحقيق التوازن بين تحديثات المولد والميكرات في Gans ؛ قد يعاني SGD من الخلل دون تطبيع.
- يخفف آدم قضايا التدريب على RNN مثل التدرجات التلاشي من خلال معدلات التعلم التكيفية ؛ SGD أقل فعالية دون ضبط.
- يؤدي SGD إلى الحد الأدنى من التغلب ، وتعميم أفضل ، وتقليل إمكانية انهيار الوضع في Gans مقارنة بالحد الأدنى لآدم.
- آدم هو أكثر قوة لخيارات الفائقة. قد تتطلب SGD مزيدًا من الضبط ولكن غالبًا ما تعطي المتانة والتعميم بشكل أفضل.
- آدم لديه المزيد من النفقات العامة الحسابية بسبب تقديرات اللحظة ؛ SGD أبسط وأكثر كفاءة في الذاكرة.