يعد تحسين Bayesian والبحث عن الشبكة من المقارنين المتميزتين المستخدمتين لضبط فرط اللاعب في الترجمة الآلية العصبية (NMT) ونماذج التعلم الآلي الأخرى. إن فهم خلافاتهم ومزاياهم وعيوبهم وسياقات الأداء يلقي الضوء على مدى ملاءمتها وفعاليتها لأنظمة NMT.
البحث عن الشبكة هو نهج منهجي ، وحشي ، لضبط الضبط. إنه يعمل من خلال مجموعات تعداد شاملة من المقاطع الزائدة على شبكة من القيم المعرفة من قبل المستخدم ، ثم تدريب النموذج والتحقق من صحته على كل مجموعة للعثور على المجموعة التي تعطي أفضل أداء. تتضمن العملية بناء شبكة محدودة بالنظر إلى جميع القيم المنفصلة لكل مقياس فرط والبحث بشكل شامل لكل tuple الممكنة. على الرغم من أن القيود الرئيسية لبحث الشبكة في نفقاتها الحسابية ، لا سيما مع زيادة عدد المباراة وقيمها المرشحة. تنمو مساحة البحث بشكل كبير ، مما يجعل بحث الشبكة غير عملي للنماذج ذات المساحات الفائقة البعد عالية الأبعاد أو إجراءات التدريب باهظة الثمن. يقوم البحث بالشبكة أيضًا بتقييم فرط البرارمامين بشكل مستقل عن التقييمات السابقة ، مما يعني أنه لا يستفيد من الأفكار المكتسبة خلال عملية ضبط حول المناطق الواعدة في مساحة المتقلب ، مما يؤدي إلى استكشاف غير فعال.
تحسين بايزي ، من ناحية أخرى ، يتخذ نهجًا احتماليًا للتكيف لضبط فرط الأمر. تم تصميمه للعثور على فرط البارامات المثلى بكفاءة من خلال نمذجة الوظيفة الموضوعية (على سبيل المثال ، فقدان التحقق من الصحة أو الدقة) كدالة عشوائية واختيار قيم الفطريات بشكل متكرر التي توازن بين الاستكشاف والاستغلال من خلال نموذج بديل ، عادةً عملية غوسية. يتنبأ هذا النموذج بمناظر أداء أداء فرط البرارمامين ، مما يسمح للخوارزمية بالتركيز على المناطق الأكثر واعدة ، وتخطي المناطق الأقل ثمارًا. باستخدام نتائج التقييم المسبق وتقديرات عدم اليقين ، يمكن أن يتقارب تحسين Bayesian إلى ارتفاع الأداء في تكرارات أقل بكثير من البحث عن الشبكة ، وبالتالي توفير الموارد الحسابية.
في سياق NMT ، والذي يتضمن غالبًا نماذج معقدة مثل بنيات المحولات العميقة ، يعد ضبط العديد من أجهزة فرط البارامترات أمرًا ضروريًا لتحقيق أحدث الأداء. قد تتضمن هذه المقاييس المفرطة الممتدة جداول معدل التعلم ، ومعدلات التسرب ، وعدد الطبقات ، وأحجام التضمين ، وأحجام الدُفعات ، وخوارزميات التحسين ، وأكثر من ذلك. بسبب اتساع مساحة الفائقة المفرطة والتكلفة الحسابية العالية لنماذج NMT ، يصبح البحث الشبكي غير ممكن لأنه يتطلب تقييمًا شاملاً على انفجار توافقي لمجموعات الفائقة. يتجاوز الوقت والتكلفة لتدريب مئات أو الآلاف من نماذج NMT كما هو مطلوب من قبل البحث عن الشبكة حدود الموارد العملية.
يوفر Bayesian Optimization مزايا عملية واضحة في ضبط NMT Hyperparameter. تركز طبيعتها التكيفية بشكل فعال جهود البحث على مجموعات واعدة ، مما يقلل من عدد التدريبات النموذجية الكاملة المطلوبة. هذا مفيد بشكل خاص في NMT لأن كل تشغيل تدريب يمكن أن يستغرق ساعات أو أيام على أجهزة قوية. بالإضافة إلى ذلك ، يمكن لتحسين بايزي التعامل مع فرط البارامات المستمرة والمنفصلة ، مما يتيح استكشافًا أكثر غرابة لمعلمات التوليف ذات القيمة الحقيقية مثل معدلات تحلل معدل التعلم ، بينما يقتصر بحث الشبكة على القيم المنفصلة المحددة مسبقًا.
تُظهر المقارنات التجريبية في نطاقات ضبط الفائقة المفرطة أن تحسين بايزي يعثر عادة على تكوينات فرط الأطراف المثلى أو شبه الأمثل مع تقييم وظائف أقل من خمس إلى سبعة أضعاف مقارنة بالبحث عن الشبكة. كما أنه يتقارب بشكل أسرع إلى فرط البارامات الجيدة ويستقر حوله بشكل أكثر موثوقية. على الرغم من أن بحث الشبكة يضمن بحثًا شاملاً للشبكة المحددة ، إلا أنه لا يضمن حلاً مثاليًا عالميًا خارج تلك الشبكة أو بين النقاط الموجودة على الشبكة ، والتي يمكن أن تستكشفها تحسين بايزي بشكل أكثر مرونة من خلال النمذجة.
من الناحية العملية ، إذا كانت نموذج NMT ومجموعة البيانات صغيرة نسبيًا أو إذا لم تكن الموارد الحسابية مصدر قلق كبير ، فقد لا يزال يتم استخدام البحث عن الشبكة بسبب بساطته وسهولة التنفيذ. كما أنه مفيد للتجارب الأولية عندما تكون مساحة الفائقة المفرطة صغيرة وتُعرف قيم المرشح المنفصلة مسبقًا. ومع ذلك ، بالنسبة لأنظمة NMT الحديثة حيث تكون النماذج كبيرة ووقت التدريب كبير ، فإن التحسين البايزي غالبًا ما يكون الطريقة المفضلة لأنها توازن بين جودة التحسين مع كفاءة الموارد.
في التنفيذ ، يتم دعم البحث على الشبكة على نطاق واسع بواسطة مكتبات التعلم الآلي مع واجهات بسيطة لتحديد شبكات المعلمات والتحقق الآلي المتقاطع ، مما يجعلها في متناول الممارسين. توجد أيضًا أدوات تحسين Bayesian ، على الرغم من أنها تتطلب المزيد من الخبرة لإعداد نماذج بديلة ووظائف الاستحواذ. يمكن أن تؤدي بعض الأطر المصممة خصيصًا لتحسين Bayesian إلى أتمتة الكثير من العملية ، مما يوفر تكاملًا سهلاً ، لكنها أقل انتشارًا من مرافق البحث عن الشبكة.
باختصار ، يتجاوز تحسين Bayesian البحث في الشبكة في الكفاءة وقابلية التوسع لضبط فرط البارامتر في NMT ، خاصة مع زيادة تعقيد النموذج وبعد البعد الفائق. إنه يقلل من عدد التدريب المطلوب من خلال التعلم من التقييمات السابقة والتركيز على البحث على المناطق الواعدة. بحث الشبكة ، على الرغم من أنه بسيط وشامل من الناحية المفاهيمية داخل شبكته ، يصبح باهظًا حسابيًا لـ NMT على نطاق واسع ويفتقر إلى التكيف. يعتمد الاختيار بين الطريقتين على المفاضلات بين الموارد الحسابية المتاحة ، وحجم وتعقيد النموذج ، والألفة مع تقنيات التحسين ، مع تحسين Bayesian بشكل عام لمشاريع NMT الحديثة المكثفة للموارد بسبب نهج البحث الأكثر ذكاءً والتقارب الأسرع مع فرط الأطراف الأمثل.