GPT-5 ลดอัตราการเกิดภาพหลอนได้อย่างไร: การจัดการข้อมูลการฝึกอบรมและกลยุทธ์การตอบรับ

อัตราการลดลงของ GPT-5 นั้นเกิดจากการจัดการข้อมูลการฝึกอบรมและวิธีการฝึกอบรมขั้นสูง OpenAI ได้รายงานอย่างเปิดเผยว่าการตอบสนอง GPT-5 มีโอกาสน้อยกว่า 45% ที่จะมีข้อผิดพลาดจริงเมื่อเทียบกับ GPT-4O และด้วยโหมด "การให้เหตุผล" ขั้นสูงข้อผิดพลาดจริงลดลงประมาณ 80% เมื่อเทียบกับรุ่น O3 ก่อนหน้า การปราบปรามภาพหลอนใน GPT-5 ไม่ได้เป็นผลมาจากชุดข้อมูลเดียว แต่กระบวนการที่ซับซ้อนของการประกอบชุดข้อมูลการกรองการฝึกอบรมหลังการฝึกอบรมอย่างต่อเนื่องกับข้อเสนอแนะของมนุษย์และการรวมทรัพยากรการตรวจสอบข้อเท็จจริงภายนอก

กลยุทธ์คุณภาพและการดูแลข้อมูล

เสาแรกของ Openai กับภาพหลอนใน GPT-5 คือการใช้ชุดข้อมูลที่มีคุณภาพสูงและมีการดูแล หมายความว่า:
- ข้อมูลแหล่งที่มามีแนวโน้มที่จะได้รับการตรวจสอบและมีชื่อเสียงมากขึ้น
- ความพยายามอย่างชัดเจนจะทำเพื่อลบหรือลดเนื้อหาที่ไม่น่าเชื่อถือมีลำเอียงหรือเป็นอันตรายในระหว่างการฝึกอบรมก่อนและระหว่างรอบการรีเฟรชข้อมูล
-ข้อมูลที่ผู้ใช้มีการกรองถูกกรองไม่ระบุชื่อและตรวจสอบเพื่อการใช้งานจริงก่อนที่จะรวมไว้ในการปรับแต่งหรือการสร้างแบบจำลองรางวัล

เพื่อลดความเสี่ยงของภาพหลอน OpenAI ได้ปรับใช้กระบวนการทำความสะอาดข้อมูลที่กว้างขวางเพื่อระบุและยกเว้นเนื้อหาที่มีเสียงดังขัดแย้งหรือสังเคราะห์ที่อาจทำให้เกิดข้อผิดพลาดในผลลัพธ์ของโมเดล

โพสต์การฝึกอบรมและการเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF)

ข้อเสนอแนะของมนุษย์เป็นศูนย์กลางในสถาปัตยกรรมของ GPT-5 แบบจำลองนี้ผ่านการเรียนรู้การเสริมแรงอย่างเข้มข้นจากข้อเสนอแนะของมนุษย์ (RLHF) ซึ่งผู้ประเมินของมนุษย์:
- ตัดสินผลลัพธ์สำหรับความถูกต้องตามข้อเท็จจริงการเชื่อมโยงและการจัดตำแหน่งตามความตั้งใจของผู้ใช้
- ให้การตั้งค่าแบบคู่กับรุ่นรุ่นการให้รางวัลความแม่นยำและการให้ข้อมูลในขณะที่ลงโทษภาพหลอน
- สัญญาณเหล่านี้เป็นพื้นฐานสำหรับโมเดลรางวัลที่เพิ่มประสิทธิภาพ GPT-5 เพื่อให้ต้องการความสมบูรณ์ที่ถูกต้องตามความเป็นจริง

นอกจากนี้ RLHF ยังได้รับการเสริมโดยนักเรียนระดับประถมศึกษาอัตโนมัติที่ผ่านการตรวจสอบการตัดสินของมนุษย์เพื่อขยายการตรวจจับภาพหลอน นักเรียนระดับประถมเหล่านี้ทำหน้าที่ทั้งเป็นปทัฏฐานเชิงปริมาณในการประเมินและเป็นส่วนประกอบของการฝึกอบรมอย่างต่อเนื่อง

เกณฑ์มาตรฐานการประเมินและการทดสอบความเครียด

ในการวัดภาพหลอน GPT-5 ได้รับการทดสอบความเครียดอย่างเข้มงวดในการเปรียบเทียบความเป็นจริงของสาธารณะและภายในเช่น LongFact (แนวคิดและวัตถุ) และข้อเท็จจริง (การค้นหาข้อเท็จจริง) เฟรมเวิร์กการประเมินเป้าหมายมีเป้าหมายที่ยากขึ้นการแจ้งเตือนปลายเปิดและเนื้อหารูปแบบยาวซึ่งเป็นภาพหลอนที่มีความเจริญรุ่งเรืองก่อนหน้านี้ จากข้อมูลของ Openai "GPT-5 Thinking" สร้างภาพหลอนน้อยกว่า O3 ในงานเหล่านี้ประมาณหกเท่า

GPT-5 ยังได้รับการประเมินในปริมาณการผลิตในโลกแห่งความเป็นจริงและชุดทดสอบพิเศษซึ่งความสามารถในการยอมรับช่องว่างความรู้และหลีกเลี่ยงการผลิตได้รับการวัดโดยตรงและปรับปรุงโดยตรง ตัวอย่างเช่นโมเดลการปฏิเสธที่จะคิดค้นสินทรัพย์ที่ไม่มีอยู่จริงในการตั้งค่าหลายรูปแบบได้ดีขึ้นอย่างชัดเจนเมื่อเทียบกับรุ่นก่อนหน้า

การแทรกแซงสถาปัตยกรรมและการฝึกอบรม

การแทรกแซงที่ลึกกว่าหลายครั้งในระหว่างการฝึกอบรมเป้าหมายภาพหลอน:

-การกระตุ้นด้วยความคิดและการให้เหตุผลที่มีโครงสร้างถูกสร้างขึ้นในขั้นตอนการฝึกอบรมก่อนและการปรับแต่งทำให้แบบจำลองสามารถสร้างผลลัพธ์ที่อธิบายได้และมีสายดินมากกว่าการคาดเดาที่มั่นใจ
-กระบวนทัศน์ความสำเร็จที่ปลอดภัยแทนที่โมเดลความปลอดภัยที่ใช้การปฏิเสธแบบเก่าการฝึกอบรม GPT-5 เพื่อให้การตอบสนองที่มีประโยชน์ จำกัด หรือสื่อสารขีด จำกัด และการใช้เหตุผลอย่างโปร่งใสเมื่อไม่สามารถตอบได้อย่างปลอดภัย
-การใช้เครื่องมือและการเรียกคืนการเพิ่มขึ้น (RAG): GPT-5 ได้รับการฝึกฝนอย่างเป็นระบบเพื่อใช้ประโยชน์จากการค้นหาเว็บและเครื่องมือตรวจสอบข้อเท็จจริงภายนอกสำหรับการสืบค้นที่ต้องการความรู้ที่ทันสมัยหรือเฉพาะเจาะจง สิ่งนี้จะช่วยลดความเสี่ยงของภาพหลอนในวิชาที่คลุมเครือหรือมีการพัฒนาอย่างรวดเร็ว
- การลดลงของ Sycophancy: ไปป์ไลน์การดูแลของ GPT-5 รวบรวมข้อมูลอย่างชัดเจนที่ออกแบบมาเพื่อดักจับแบบจำลองในข้อผิดพลาดข้อผิดพลาดการให้คะแนนคำตอบสำหรับ sycophancy และการใช้คะแนนเหล่านี้เป็นรางวัลเชิงลบในระหว่าง RLHF โจมตีโดยตรงโดยปัญหาข้อตกลง

ผลลัพธ์และข้อ จำกัด ในโลกแห่งความเป็นจริง

แม้จะมีความก้าวหน้าเหล่านี้ GPT-5 ยังไม่ได้รับการแก้ไขอย่างเต็มที่ต่อภาพหลอน ตัวอย่างเช่น:
-อัตราการเกิดภาพหลอนที่รายงานสำหรับงานที่ซับซ้อนและปลายเปิด (วัดโดยมาตรฐานเช่น QA ง่าย) ยังคงมีความสำคัญโดยเฉพาะอย่างยิ่งเมื่อระบบถูกตัดออกจากเครื่องมือตรวจสอบข้อเท็จจริงสด
- การเข้าถึงการค้นหาเว็บช่วยลดอัตราความผิดพลาดอย่างมากแสดงให้เห็นถึงความสำคัญของการฝึกอบรมแบบไฮบริด (การรวมข้อมูลแบบคงที่กับการดึงข้อมูล) ในการกลั่นกรองภาพหลอน
- พรอมต์สร้างสรรค์หรือนามธรรมบางอย่างยังคงท้าทายกลไกการต่อสายดินของระบบ

การอัปเดตอย่างต่อเนื่องและคำติชมของชุมชน

ระบบของ GPT-5 นั้นได้รับการเลี้ยงดูชุมชนอย่างต่อเนื่องและข้อมูลผู้ใช้จริงด้วยกลไกการตอบรับที่อนุญาตให้ทำการแก้ไขภาพหลอนที่ค้นพบได้อย่างรวดเร็วและการเปิดตัวการปรับแต่งทั้งในการกรองข้อมูลและการออกแบบฟังก์ชั่นรางวัล OpenAI ยอมรับอย่างเปิดเผยถึงความจำเป็นในการปรับปรุงเพิ่มเติมโดยเฉพาะอย่างยิ่งในโดเมนที่มีสเตคสูงเช่นการดูแลสุขภาพและกฎหมายซึ่งการยอมรับข้อผิดพลาดจะต้องน้อยที่สุด

สรุปขั้นตอนการดูแลคีย์

เพื่อสังเคราะห์การลดลงของภาพหลอนใน GPT-5 เกิดขึ้นจากกระบวนการเชื่อมโยงต่อไปนี้:

1. การเลือกและการกรองข้อมูลก่อนการฝึกอบรมอย่างพิถีพิถันโดยเน้นการจัดหาจากฐานข้อมูลที่มีชื่อเสียงและรักษาเนื้อหาที่เป็นจริง
2. การยกเว้นเนื้อหาที่มีเสียงดังไม่น่าเชื่อถือหรือมีอคติในระหว่างการประกอบชุดข้อมูลเสริมด้วยการตรวจสอบอัตโนมัติและการตรวจสอบด้วยตนเองในหลายขั้นตอน
3. การเรียนรู้การเสริมแรงและการตอบรับอย่างต่อเนื่องโดยอิงจากการให้คะแนนมนุษย์ขนาดใหญ่และอัตโนมัติสำหรับความเป็นจริงและความเป็นจริง
4. การประเมินผลต่อมาตรฐานความเป็นข้อเท็จจริงที่แข็งแกร่งทั้งในโลกทั้งแบบคงที่และความเป็นจริงวัดอัตราที่แม่นยำและประเภทของภาพหลอนภายใต้เงื่อนไขต่าง ๆ
5. การแทรกแซงหลังการฝึกอบรมรวมถึงกลยุทธ์การสำเร็จความปลอดภัยที่ปลอดภัยยิ่งขึ้นการปราบปราม sycophancy ที่ชัดเจนและการรวมที่แข็งแกร่งกับความรู้ในการดึงหรือใช้เครื่องมือ
6. การปรับแต่งสดซ้ำจากข้อเสนอแนะการผลิตและการประชุมสีแดงทำให้มั่นใจได้ว่าการรั่วไหลของภาพหลอนใหม่จะถูกตรวจพบและแก้ไขอย่างรวดเร็ว

กลยุทธ์เหล่านี้รวมกันเป็นการเปลี่ยนแปลงจากการลดการหยุดนิ่งไปสู่การปราบปรามภาพหลอนที่แข็งแกร่ง

ชุดข้อมูลการฝึกอบรมหรือขั้นตอนการดูแลลดภาพหลอนใน GPT-5