GPT-4.5 ได้รับการออกแบบมาเพื่อจัดการกับคำแนะนำที่ขัดแย้งกันผ่านลำดับชั้นของคำสั่งซึ่งจัดลำดับความสำคัญข้อความระบบผ่านข้อความผู้ใช้เพื่อลดความเสี่ยงเช่นการฉีดทันทีและการโจมตีอื่น ๆ ที่เอาชนะคำแนะนำด้านความปลอดภัย [1] อย่างไรก็ตามไม่ว่า GPT-4.5 สามารถปรับให้เข้ากับคำแนะนำที่ขัดแย้งกันประเภทใหม่ที่ไม่ได้รับการฝึกฝนหรือไม่นั้นเป็นคำถามที่ซับซ้อน
การฝึกอบรมและการประเมินผล
GPT-4.5 ได้รับการฝึกฝนโดยใช้เทคนิคการกำกับดูแลใหม่รวมกับวิธีการดั้งเดิมเช่นการปรับแต่งการปรับแต่ง (SFT) และการเรียนรู้การเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF) [1] วิธีการเหล่านี้มีจุดมุ่งหมายเพื่อปรับปรุงการจัดตำแหน่งของโมเดลด้วยความตั้งใจของผู้ใช้และความสามารถในการปฏิบัติตามคำแนะนำได้อย่างแม่นยำยิ่งขึ้น โมเดลได้รับการประเมินในสถานการณ์ต่าง ๆ ที่ระบบและข้อความของผู้ใช้ขัดแย้งแสดงการปรับปรุงมากกว่ารุ่นก่อนหน้าเช่น GPT-4O [1]
การปรับตัวให้เข้ากับคำแนะนำที่ขัดแย้งกันใหม่
ในขณะที่ GPT-4.5 แสดงให้เห็นถึงประสิทธิภาพที่ดีขึ้นในการจัดการประเภทของคำแนะนำที่ขัดแย้งกันความสามารถในการปรับให้เข้ากับความขัดแย้งประเภทใหม่ทั้งหมดขึ้นอยู่กับปัจจัยหลายประการ:
1. ความสามารถในการวางนัยทั่วไป: การฝึกอบรมของ GPT-4.5 รวมถึงการปรับขนาดการเรียนรู้ที่ไม่ได้รับการดูแลซึ่งช่วยเพิ่มความสามารถในการสรุปและเข้าใจบริบทที่กว้างขึ้น [1] สิ่งนี้อาจช่วยให้สามารถรับรู้รูปแบบในคำแนะนำที่ขัดแย้งกันใหม่ได้
2. ลำดับชั้นการเรียนการสอน: ลำดับชั้นการเรียนการสอนของโมเดลได้รับการออกแบบมาเพื่อจัดลำดับความสำคัญของข้อความระบบซึ่งช่วยในการรักษาความปลอดภัยและการปฏิบัติตามกฎที่กำหนดไว้ล่วงหน้า อย่างไรก็ตามหากคำแนะนำที่ขัดแย้งกันใหม่อยู่นอกขอบเขตของลำดับชั้นนี้แบบจำลองอาจดิ้นรนเพื่อปรับตัวโดยไม่ต้องฝึกอบรมเพิ่มเติมหรือปรับแต่ง
3. วิศวกรรมและนั่งร้านที่รวดเร็ว: ผู้ใช้สามารถใช้เทคนิคการแจ้งเตือนขั้นสูงหรือนั่งร้านเพื่อเป็นแนวทางในการทำความเข้าใจและทำตามคำแนะนำใหม่ วิธีการนี้สามารถช่วยล้วงเอาพฤติกรรมเกินกว่าที่โมเดลได้รับการฝึกฝนอย่างชัดเจนสำหรับ [1]
4. ข้อ จำกัด และการประเมินความปลอดภัย: แม้จะมีการปรับปรุง GPT-4.4.5 ยังคงเผชิญกับความท้าทายในการจัดการสถานการณ์ที่ซับซ้อนหรือใหม่ การประเมินความปลอดภัยได้แสดงให้เห็นว่าในขณะที่แบบจำลองทำงานได้ดีในงานที่รู้จักมีความเสี่ยงที่จะไม่ปฏิบัติตามคำแนะนำในบริบทที่ไม่คาดฝัน [1]
บทสรุป
ในขณะที่ GPT-4.5 มีความสามารถมากกว่ารุ่นก่อนในการจัดการคำแนะนำที่ขัดแย้งกันความสามารถในการปรับตัวให้เข้ากับความขัดแย้งประเภทใหม่ทั้งหมดถูก จำกัด ด้วยข้อมูลการฝึกอบรมและการออกแบบ มันอาจต้องมีการปรับแต่งเพิ่มเติมหรือกลยุทธ์การแจ้งเตือนที่สร้างสรรค์เพื่อจัดการกับสถานการณ์ใหม่อย่างมีประสิทธิภาพ การวิจัยอย่างต่อเนื่องและการโต้ตอบของผู้ใช้กับ GPT-4.5 จะให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับความสามารถและข้อ จำกัด ในพื้นที่นี้
การอ้างอิง:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-redly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/GPT_4_HAS_BEEN_TONED_DOWN_SINGINIFINGE_AND/