การเพิ่มประสิทธิภาพแบบเบย์และการค้นหากริดเป็นสองวิธีที่แตกต่างกันที่ใช้สำหรับการปรับจูนพารามิเตอร์ในการแปลเครื่องประสาท (NMT) และโมเดลการเรียนรู้ของเครื่องอื่น ๆ การทำความเข้าใจความแตกต่างข้อดีข้อเสียและบริบทประสิทธิภาพแสดงให้เห็นถึงความเหมาะสมและประสิทธิผลของระบบ NMT
การค้นหาแบบกริดเป็นวิธีการที่เป็นระเบียบและกำลังเดรัจฉานในการปรับจูนพารามิเตอร์ มันดำเนินการโดยการแจกแจงการรวมกันของพารามิเตอร์ไฮเปอร์พารามิเตอร์อย่างละเอียดเกินกว่าตารางที่ผู้ใช้กำหนดไว้จากนั้นฝึกอบรมและตรวจสอบความถูกต้องของแบบจำลองในแต่ละชุดเพื่อค้นหาชุดที่ให้ประสิทธิภาพที่ดีที่สุด กระบวนการนี้เกี่ยวข้องกับการสร้างกริด จำกัด โดยพิจารณาค่าที่ไม่ต่อเนื่องทั้งหมดสำหรับแต่ละพารามิเตอร์และการค้นหา tuple ที่เป็นไปได้อย่างละเอียดถี่ถ้วน ในขณะที่ตรงไปตรงมาและง่ายต่อการขนานข้อ จำกัด ที่สำคัญของ Grid Search อยู่ในค่าใช้จ่ายในการคำนวณโดยเฉพาะอย่างยิ่งเมื่อจำนวนพารามิเตอร์ hyperparameters และค่าตัวเลือกของพวกเขาเพิ่มขึ้น พื้นที่การค้นหาจะเพิ่มขึ้นอย่างทวีคูณซึ่งทำให้การค้นหาแบบกริดไม่สามารถทำได้สำหรับรุ่นที่มีพื้นที่ไฮเปอร์พารามิเตอร์สูงมิติหรือขั้นตอนการฝึกอบรมที่มีราคาแพง การค้นหาแบบกริดยังประเมินพารามิเตอร์ hyperparameters โดยอิสระจากการประเมินที่ผ่านมาซึ่งหมายความว่ามันไม่ได้ใช้ประโยชน์จากข้อมูลเชิงลึกที่ได้รับในระหว่างกระบวนการปรับแต่งเกี่ยวกับพื้นที่ที่มีแนวโน้มของพื้นที่ไฮเปอร์พารามิเตอร์ซึ่งนำไปสู่การสำรวจที่ไม่มีประสิทธิภาพ
ในทางกลับกันการเพิ่มประสิทธิภาพแบบเบย์ใช้วิธีการปรับตัวและความน่าจะเป็นในการปรับจูนไฮเปอร์พารามิเตอร์ มันถูกออกแบบมาเพื่อค้นหาพารามิเตอร์ hyperparameters ที่ดีที่สุดอย่างมีประสิทธิภาพโดยการสร้างแบบจำลองฟังก์ชั่นวัตถุประสงค์ (เช่นการสูญเสียการตรวจสอบความถูกต้องหรือความแม่นยำ) เป็นฟังก์ชันสุ่มและเลือกค่าไฮเปอร์พารามิเตอร์ซ้ำ ๆ ที่สมดุลการสำรวจและการแสวงหาผลประโยชน์ผ่านแบบจำลองตัวแทน แบบจำลองนี้ทำนายภูมิทัศน์ประสิทธิภาพของพารามิเตอร์ไฮเปอร์พารามิเตอร์ทำให้อัลกอริทึมมุ่งเน้นไปที่ภูมิภาคที่มีแนวโน้มมากที่สุดโดยข้ามพื้นที่ที่มีผลน้อยกว่า ด้วยการใช้ผลการประเมินก่อนหน้านี้และการประมาณการความไม่แน่นอนการเพิ่มประสิทธิภาพแบบเบย์สามารถมาบรรจบกันกับพารามิเตอร์ที่มีประสิทธิภาพสูงในการทำซ้ำน้อยกว่าการค้นหาแบบกริดอย่างมีนัยสำคัญซึ่งช่วยประหยัดทรัพยากรการคำนวณ
ในบริบทของ NMT ซึ่งมักจะเกี่ยวข้องกับโมเดลที่ซับซ้อนเช่นสถาปัตยกรรมหม้อแปลงลึกการปรับพารามิเตอร์จำนวนมากมีความสำคัญต่อการบรรลุประสิทธิภาพที่ทันสมัย ไฮเปอร์พารามิเตอร์เหล่านี้อาจรวมถึงตารางอัตราการเรียนรู้อัตราการออกกลางคันจำนวนเลเยอร์ขนาดการฝังขนาดแบทช์อัลกอริทึมการเพิ่มประสิทธิภาพและอื่น ๆ เนื่องจากความกว้างใหญ่ของพื้นที่ hyperparameter นี้และค่าใช้จ่ายในการคำนวณที่สูงของการฝึกอบรมแบบจำลอง NMT การค้นหากริดจึงไม่สามารถทำได้เนื่องจากต้องมีการประเมินอย่างละเอียดจากการระเบิดแบบผสมของชุดพารามิเตอร์ hyperparameter เวลาและค่าใช้จ่ายในการฝึกอบรมโมเดล NMT หลายร้อยหรือหลายพันแบบตามที่กำหนดโดยการค้นหาแบบกริดเกินขีด จำกัด ทรัพยากรที่ใช้งานได้จริง
การเพิ่มประสิทธิภาพแบบเบย์นำเสนอข้อได้เปรียบในทางปฏิบัติที่ชัดเจนในการปรับจูนพารามิเตอร์ NMT ธรรมชาติที่ปรับตัวได้อย่างมีประสิทธิภาพมุ่งเน้นความพยายามในการค้นหาเกี่ยวกับชุดค่าผสมที่มีแนวโน้มลดจำนวนการฝึกอบรมแบบจำลองแบบเต็มรูปแบบที่จำเป็น สิ่งนี้เป็นประโยชน์อย่างยิ่งใน NMT เนื่องจากการฝึกอบรมแต่ละครั้งอาจใช้เวลาหลายชั่วโมงหรือหลายวันกับฮาร์ดแวร์ที่ทรงพลัง นอกจากนี้การเพิ่มประสิทธิภาพแบบเบย์สามารถจัดการกับพารามิเตอร์ไฮเปอร์พารามิเตอร์ต่อเนื่องและไม่ต่อเนื่องช่วยให้สามารถสำรวจพารามิเตอร์การปรับค่าที่มีค่าจริงเช่นอัตราการสลายตัวของอัตราการเรียนรู้ในขณะที่การค้นหากริดนั้น จำกัด อยู่ที่ค่าที่ไม่ต่อเนื่อง
การเปรียบเทียบเชิงประจักษ์ในโดเมนการปรับแต่งพารามิเตอร์ hyperparameter แสดงให้เห็นว่าการเพิ่มประสิทธิภาพแบบเบย์โดยทั่วไปจะพบการกำหนดค่าไฮเปอร์พารามิเตอร์ที่ดีที่สุดหรือใกล้เคียงที่ดีที่สุดโดยมีการประเมินฟังก์ชั่นน้อยลงห้าถึงเจ็ดเท่าเมื่อเทียบกับการค้นหากริด นอกจากนี้ยังมาบรรจบกันเร็วขึ้นเป็นไฮเปอร์พารามิเตอร์ที่ดีและทำให้เสถียรรอบตัวที่เหมาะสมยิ่งขึ้นอย่างน่าเชื่อถือ ในขณะที่การค้นหากริดรับประกันการค้นหากริดที่ระบุอย่างละเอียด แต่ก็ไม่รับประกันการแก้ปัญหาที่ดีที่สุดทั่วโลกนอกกริดนั้นหรือระหว่างจุดบนกริดซึ่งการเพิ่มประสิทธิภาพแบบเบย์สามารถสำรวจได้อย่างยืดหยุ่นมากขึ้นผ่านการสร้างแบบจำลอง
ในทางปฏิบัติหากโมเดล NMT และชุดข้อมูลมีขนาดค่อนข้างเล็กหรือหากทรัพยากรการคำนวณไม่ได้เป็นข้อกังวลหลักการค้นหากริดอาจยังคงถูกนำมาใช้เนื่องจากความเรียบง่ายและความสะดวกในการใช้งาน นอกจากนี้ยังเป็นประโยชน์สำหรับการทดลองเริ่มต้นเมื่อพื้นที่ไฮเปอร์พารามิเตอร์มีขนาดเล็กและค่าตัวเลือกที่ไม่ต่อเนื่องเป็นที่รู้จัก อย่างไรก็ตามสำหรับระบบ NMT ที่ล้ำสมัยซึ่งแบบจำลองมีขนาดใหญ่และเวลาการฝึกอบรมมีความสำคัญการเพิ่มประสิทธิภาพแบบเบย์มักเป็นวิธีที่ต้องการเนื่องจากมีการปรับคุณภาพให้เหมาะสมกับประสิทธิภาพของทรัพยากร
ในการใช้งานการค้นหากริดได้รับการสนับสนุนอย่างกว้างขวางโดยไลบรารีการเรียนรู้ของเครื่องด้วยอินเทอร์เฟซอย่างง่ายเพื่อกำหนดกริดพารามิเตอร์และการตรวจสอบข้ามอัตโนมัติทำให้สามารถเข้าถึงผู้ปฏิบัติงานได้ เครื่องมือการเพิ่มประสิทธิภาพแบบเบย์ยังมีอยู่แม้ว่าพวกเขาจะต้องการความเชี่ยวชาญมากขึ้นในการตั้งค่าโมเดลตัวแทนและฟังก์ชั่นการได้มา เฟรมเวิร์กบางอย่างที่ปรับแต่งโดยเฉพาะสำหรับการเพิ่มประสิทธิภาพแบบเบย์สามารถทำให้กระบวนการได้มากโดยอัตโนมัตินำเสนอการรวมที่ง่าย แต่มันแพร่หลายน้อยกว่ายูทิลิตี้การค้นหากริด
โดยสรุปการเพิ่มประสิทธิภาพแบบเบย์นั้นเหนือกว่าการค้นหาแบบกริดในประสิทธิภาพและความสามารถในการปรับขนาดสำหรับการปรับระดับไฮเปอร์พารามิเตอร์ใน NMT โดยเฉพาะอย่างยิ่งเมื่อความซับซ้อนของแบบจำลองและมิติของไฮเปอร์พารามิเตอร์เพิ่มขึ้น มันลดจำนวนการฝึกอบรมที่จำเป็นโดยการเรียนรู้จากการประเมินก่อนและมุ่งเน้นการค้นหาในภูมิภาคที่มีแนวโน้ม การค้นหาแบบกริดในขณะที่แนวคิดที่เรียบง่ายและครบถ้วนสมบูรณ์ภายในกริดกลายเป็นสิ่งที่ต้องทำการคำนวณสำหรับ NMT ขนาดใหญ่และขาดความสามารถในการปรับตัว ทางเลือกระหว่างสองวิธีขึ้นอยู่กับการแลกเปลี่ยนระหว่างทรัพยากรการคำนวณที่มีขนาดและความซับซ้อนของแบบจำลองและความคุ้นเคยกับเทคนิคการเพิ่มประสิทธิภาพโดยการเพิ่มประสิทธิภาพแบบเบย์โดยทั่วไปจะได้รับการสนับสนุนสำหรับโครงการ NMT ที่ใช้ทรัพยากรมาก