การเพิ่มประสิทธิภาพนโยบายสัมพัทธ์ (GRPO) ใน Deepseek R1: เพิ่มการใช้เหตุผล AI

อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายสัมพัทธ์ของกลุ่ม (GRPO) มีบทบาทอย่างไรในการฝึกอบรมของ Deepseek R1

อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายสัมพัทธ์ (GRPO) มีบทบาทสำคัญในการฝึกอบรม Deepseek R1 เพิ่มขีดความสามารถในการใช้เหตุผลผ่านแนวทางการเรียนรู้เสริมแรง (RL) ที่คล่องตัว

ภาพรวมของ grpo

GRPO เป็นอัลกอริทึมการเรียนรู้การเสริมแรงใหม่ที่ปรับเปลี่ยนวิธีการดั้งเดิมเช่นการเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO) โดยไม่จำเป็นต้องใช้โมเดลฟังก์ชันค่าที่แยกต่างหากซึ่งทำให้กระบวนการฝึกอบรมง่ายขึ้นและลดการใช้หน่วยความจำ แทนที่จะพึ่งพารูปแบบนักวิจารณ์เพื่อประเมินผลลัพธ์ GRPO ใช้การเปรียบเทียบทางสถิติระหว่างเอาต์พุตที่สร้างขึ้นหลายรายการเพื่อประเมินประสิทธิภาพที่สัมพันธ์กับค่าเฉลี่ยของกลุ่ม [1] [3] วิธีนี้ช่วยให้แบบจำลองสามารถเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นโดยมุ่งเน้นไปที่ข้อได้เปรียบตามกลุ่มมากกว่าการประเมินผลงานแต่ละรายการ

กระบวนการฝึกอบรมใน Deepseek R1

ในบริบทของ Deepseek R1, GRPO อำนวยความสะดวกในการเรียนรู้การเสริมแรงขนาดใหญ่โดยไม่จำเป็นต้องปรับแต่งการปรับแต่ง โมเดลสร้างโซลูชันผู้สมัครหลายคนสำหรับแต่ละพรอมต์และคำนวณผลตอบแทนตามความถูกต้องและการยึดมั่นในรูปแบบที่ระบุ ระบบการให้รางวัลตามกฎนี้ช่วยให้มั่นใจได้ว่ากระบวนการฝึกอบรมนั้นมีทั้งประสิทธิภาพทรัพยากรและปรับขนาดได้ [2] [4] การขาดข้อมูลภายใต้การดูแลช่วยให้ R1 Deepseek สามารถพัฒนาความสามารถในการใช้เหตุผลอย่างเป็นอิสระผ่านการมีปฏิสัมพันธ์กับสภาพแวดล้อมซึ่งนำไปสู่พฤติกรรมการแก้ปัญหาที่เป็นนวัตกรรม [6] [7]

ข้อดีที่สำคัญของ GRPO ใน Deepseek R1

- การกำจัดโมเดลนักวิจารณ์: โดยการลบนักวิจารณ์ GRPO จะลดค่าใช้จ่ายในการคำนวณและความซับซ้อนที่เกี่ยวข้องกับการรักษาเครือข่ายประสาทสองแห่งแยกกัน (นักแสดงและนักวิจารณ์) ซึ่งเป็นเรื่องปกติในการตั้งค่า RL แบบดั้งเดิม [3] [9]
- การคำนวณรางวัลตามกลุ่ม: อัลกอริทึมใช้ประสิทธิภาพเฉลี่ยของกลุ่มเอาต์พุตเป็นพื้นฐานสำหรับการคำนวณข้อได้เปรียบโดยสอดคล้องกับธรรมชาติของการฝึกอบรมแบบจำลองรางวัลที่มักจะเกี่ยวข้องกับเอาต์พุตหลายรายการสำหรับอินพุตเดียว [1] [5]
- ประสิทธิภาพที่ดีขึ้น: กระบวนการที่มีความคล่องตัวไม่เพียง แต่ช่วยเพิ่มประสิทธิภาพการเรียนรู้ แต่ยังช่วยให้ R1 Deepseek ได้รับประสิทธิภาพเทียบเท่ากับโมเดลขนาดใหญ่ในขณะที่ราคาถูกกว่าในการฝึกอบรมและทำงาน [2] [6]

โดยสรุป GRPO เป็นส่วนสำคัญในการฝึกอบรมของ Deepseek R1 ทำให้สามารถเรียนรู้ทักษะการใช้เหตุผลได้อย่างมีประสิทธิภาพผ่านกรอบการเรียนรู้การเสริมแรงที่มีประสิทธิภาพและปรับขนาดได้มากขึ้น นวัตกรรมนี้วางตำแหน่ง Deepseek R1 เป็นรูปแบบการแข่งขันในงานการใช้เหตุผลที่ซับซ้อนซึ่งเป็นคู่แข่งที่จัดตั้งขึ้นระบบ AI ในขณะที่ส่งเสริมการเข้าถึงในการพัฒนา AI

การอ้างอิง:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-budget-13ik