Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon เวลาการฝึกอบรมของนักแสดงที่อ่อนนุ่มเปรียบเทียบกับ DQN ในสภาพแวดล้อมโรงยิม Openai ได้อย่างไร


เวลาการฝึกอบรมของนักแสดงที่อ่อนนุ่มเปรียบเทียบกับ DQN ในสภาพแวดล้อมโรงยิม Openai ได้อย่างไร


การเปรียบเทียบเวลาการฝึกอบรมระหว่างนักแสดงที่อ่อนนุ่ม (SAC) และ Q-network ลึก (DQN) ในสภาพแวดล้อมของ OpenAI Gym ขึ้นอยู่กับปัจจัยหลายประการรวมถึงธรรมชาติของสภาพแวดล้อมความซับซ้อนของรัฐและพื้นที่การกระทำและความแตกต่างของอัลกอริทึมระหว่าง SAC และ DQN

Soft Actor-Critic (SAC) เป็นอัลกอริทึมนอกนโยบายที่ปรับนโยบายสุ่มโดยใช้การเรียนรู้การเสริมแรงแบบเอนโทรปีสูงสุดซึ่งมีจุดมุ่งหมายเพื่อเพิ่มผลตอบแทนที่คาดหวังและเอนโทรปีของนโยบายเพื่อส่งเสริมการสำรวจ SAC ได้รับการออกแบบให้ทำงานได้ดีในพื้นที่แอ็คชั่นต่อเนื่อง โดยทั่วไปจะใช้ฟังก์ชั่น Q สองฟังก์ชั่น (เพื่อลดอคติการประเมินค่าสูงเกินไป) นักแสดงสุ่มและพารามิเตอร์อุณหภูมิที่ปรับการแลกเปลี่ยนระหว่างการสำรวจและการแสวงประโยชน์ SAC อัปเดตนโยบายและเครือข่ายมูลค่าตามแบทช์ที่สุ่มตัวอย่างจากบัฟเฟอร์การเล่นซ้ำและโดยทั่วไปจะใช้เครือข่ายประสาทที่มีเลเยอร์กลางสำหรับการประมาณฟังก์ชั่น การอัปเดตการฝึกอบรมรวมถึงขั้นตอน backpropagation ที่อัปเดตน้ำหนักเครือข่ายทุกขั้นตอนที่แน่นอน SAC เป็นที่รู้จักกันดีในเรื่องการเรียนรู้และความทนทานที่มั่นคง แต่ความซับซ้อนโดยธรรมชาติและการใช้งาน Q-networks สองรายการพร้อมกับนโยบายสุ่มมักหมายถึง SAC ต้องการความพยายามในการคำนวณต่อขั้นตอนมากกว่าอัลกอริทึมที่ง่ายกว่า

ในทางกลับกัน DQN เป็นวิธีการปิดนโยบายที่ออกแบบมาสำหรับพื้นที่แอ็คชั่นที่ไม่ต่อเนื่องเป็นหลัก มันใกล้เคียงกับฟังก์ชั่นค่าแอ็คชั่น q (s, a) โดยเครือข่ายประสาทและใช้การเล่นซ้ำประสบการณ์และเครือข่ายเป้าหมายเพื่อรักษาเสถียรภาพการฝึกอบรม ตัวแทน DQN เลือกการกระทำโดยเพิ่มค่า Q และอัปเดต Q-network โดยการลดการสูญเสียความแตกต่างชั่วคราวโดยใช้มินิแบทช์จากบัฟเฟอร์การเล่นซ้ำในช่วงเวลาคงที่ระหว่างการฝึกอบรม เมื่อเปรียบเทียบกับ SAC โดยทั่วไปแล้ว DQN มีสถาปัตยกรรมที่ง่ายกว่าเนื่องจากเกี่ยวข้องกับการใช้งาน Q-network เพียงหนึ่งเดียวและนโยบายที่กำหนดขึ้นมาจากค่า Q

เกี่ยวกับเวลาการฝึกอบรมการศึกษาและการทดลองที่รายงานโดยผู้ปฏิบัติงานและการวิจัยระบุว่า:

1. DQN มักจะเร็วขึ้นต่อขั้นตอนการฝึกอบรมมากกว่า SAC เนื่องจากสถาปัตยกรรมที่ง่ายกว่า ** มีการฝึกอบรม Q-Network เพียงครั้งเดียวและมีการกำหนดนโยบายดังนั้นจึงต้องมีการคำนวณน้อยกว่าการอัปเดตนโยบายสุ่มและเครือข่ายหลายแห่งใน SAC ซึ่งมักจะแปลเป็นเวลาปิดผนังที่ต่ำกว่าต่อการทำซ้ำสำหรับ DQN

2. อย่างไรก็ตาม SAC มักจะต้องใช้ข้อมูลและขั้นตอนการฝึกอบรมมากขึ้นเพื่อให้ได้ประสิทธิภาพที่เปรียบเทียบได้โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีพื้นที่แอ็คชั่นอย่างต่อเนื่องซึ่ง DQN ไม่สามารถใช้งานได้หรือมีประสิทธิภาพน้อยกว่า SAC ได้รับประโยชน์จากการสำรวจที่ดีขึ้นผ่านการเพิ่มระดับเอนโทรปีซึ่งอาจยืดเวลาการฝึกอบรม แต่นำไปสู่นโยบายที่แข็งแกร่งยิ่งขึ้น

3. ในสภาพแวดล้อมการกระทำที่ไม่ต่อเนื่องที่มีอยู่ใน OpenAI Gym, DQN สามารถทำได้ดีกว่า SAC ในแง่ของความเร็วการเรียนรู้เริ่มต้นเนื่องจากนโยบายที่ง่ายขึ้นและการประมาณค่าที่เร็วขึ้น แต่ประสิทธิภาพของ SAC มักจะปรับขนาดได้ดีขึ้นในสภาพแวดล้อมที่ซับซ้อนโดยเฉพาะอย่างยิ่งต่อเนื่องซึ่งประสิทธิภาพการสุ่มตัวอย่างและความทนทานของนโยบายมีความสำคัญ

4. ตามรายงานเปรียบเทียบบางส่วนไปป์ไลน์การฝึกอบรมที่ง่ายขึ้นของ DQN และการอัปเดตเครือข่ายน้อยลงต่อขั้นตอนหมายความว่ามันมักจะเสร็จสิ้นการฝึกอบรมในเวลาที่มีการปิดกั้นผนังน้อยกว่าเมื่อเทียบกับ SAC เมื่อทั้งสองถูกนำไปใช้กับงานการกระทำที่ไม่ต่อเนื่อง เวลาการฝึกอบรมของ SAC นั้นยาวนานขึ้นเนื่องจากการคำนวณการไล่ระดับสีสำหรับหลายเครือข่ายการปรับอุณหภูมิสำหรับเอนโทรปีและการสุ่มตัวอย่างจากบัฟเฟอร์เล่นซ้ำที่อาจต้องใช้ขนาดแบทช์ที่ใหญ่ขึ้น

5. เอกสารการวิจัยและการใช้งานแสดงให้เห็นว่าการฝึกอบรม SAC ในสภาพแวดล้อมเช่น Reacher-V2 (สภาพแวดล้อมการควบคุม OpenAi Gym อย่างต่อเนื่อง) มีแนวโน้มที่จะใช้เวลาในการคำนวณนานขึ้นอย่างมากเมื่อเทียบกับ DQN ทำงานในงานที่ไม่ต่อเนื่องเช่นเกม Atari หรือ Cartpole

6. เกณฑ์มาตรฐานเชิงประจักษ์แสดงให้เห็นว่าในสภาพแวดล้อมเช่นงานควบคุมอย่างต่อเนื่องของ Mujoco ของ Openai Gym, SAC เป็นที่ต้องการแม้จะมีเวลาฝึกอบรมนานขึ้นเพราะมันบรรลุนโยบายที่มีคุณภาพสูงขึ้น ในทางตรงกันข้ามสำหรับสภาพแวดล้อมการควบคุมที่ไม่ต่อเนื่องที่ง่ายกว่า DQN มักจะฝึกเร็วขึ้นและไปถึงประสิทธิภาพที่ยอมรับได้เร็วขึ้นเนื่องจากความเรียบง่ายในการออกแบบ

โดยสรุปสำหรับ Openai Gym Environment:
- โดยทั่วไปแล้ว DQN จะเร็วขึ้นในการฝึกอบรมต่อขั้นตอนและต้องการทรัพยากรการคำนวณน้อยลงสำหรับพื้นที่การกระทำที่ไม่ต่อเนื่อง
- SAC ต้องใช้เวลาในการฝึกอบรมที่ยาวนานขึ้นเนื่องจากระบบ Q-Networks คู่การเรียนรู้นโยบายสุ่มและการเพิ่มระดับเอนโทรปี แต่มักจะให้นโยบายที่แข็งแกร่งขึ้นโดยเฉพาะอย่างยิ่งในโดเมนการกระทำอย่างต่อเนื่อง
-SAC อาจต้องใช้ขั้นตอนการฝึกอบรมและเวลาปิดผนังมากกว่า DQN เมื่อนำไปใช้กับสภาพแวดล้อมที่เทียบเคียงได้
- ตัวเลือกระหว่างทั้งสองขึ้นอยู่กับลักษณะสภาพแวดล้อม (การกระทำอย่างต่อเนื่องกับการกระทำที่ไม่ต่อเนื่อง) ความทนทานของนโยบายที่ต้องการและงบประมาณการคำนวณ

ดังนั้นเวลาการฝึกอบรมของนักแสดงที่อ่อนนุ่มโดยทั่วไปจะยาวกว่า DQN ในสภาพแวดล้อมของ OpenAI Gym โดยเฉพาะอย่างยิ่งเนื่องจาก SAC ใช้สถาปัตยกรรมที่ซับซ้อนมากขึ้นต้องมีการคำนวณเพิ่มเติมต่อการอัปเดตและได้รับการปรับแต่งสำหรับพื้นที่แอ็คชั่นอย่างต่อเนื่อง DQN มีราคาถูกกว่าในการคำนวณและเร็วขึ้นในงานยิมที่ไม่ต่อเนื่องโดยทั่วไป แต่อาจต่ำกว่าที่จำเป็นในการควบคุมอย่างต่อเนื่องหรือความทนทานของนโยบายสูงเป็นสิ่งจำเป็น