GPT-4.5 ได้รับการออกแบบมาเพื่อจัดการกับคำแนะนำที่ขัดแย้งกันระหว่างระบบและข้อความผู้ใช้ผ่านลำดับชั้นคำสั่ง ลำดับชั้นนี้ช่วยให้แบบจำลองจัดลำดับความสำคัญข้อความระบบผ่านข้อความผู้ใช้เพื่อลดความเสี่ยงที่เกี่ยวข้องกับการแจ้งเตือนที่ขัดแย้งกันเช่นการฉีดทันทีหรือการโจมตีอื่น ๆ ที่อาจแทนที่คำแนะนำด้านความปลอดภัยของโมเดล
คุณลักษณะสำคัญของลำดับชั้นคำสั่ง
1. การจำแนกประเภทข้อความ: GPT-4.5 แยกความแตกต่างระหว่างข้อความสองประเภท: ข้อความระบบและข้อความผู้ใช้ ข้อความของระบบถือว่ามีอำนาจสูงกว่าและใช้เพื่อกำหนดแนวทางความปลอดภัยหรือคำแนะนำเฉพาะสำหรับโมเดล
2. การแก้ไขข้อขัดแย้ง: เมื่อระบบและข้อความของผู้ใช้ขัดแย้งกัน GPT-4.5 ได้รับการฝึกฝนให้ทำตามคำแนะนำในข้อความระบบ สิ่งนี้ทำให้มั่นใจได้ว่าแบบจำลองปฏิบัติตามแนวทางความปลอดภัยและไม่ได้มีส่วนร่วมในกิจกรรมที่เป็นอันตรายหรือไม่อนุญาต
3. การประเมินผลและการฝึกอบรม: แบบจำลองได้รับการประเมินเกี่ยวกับความสามารถในการจัดการกับความขัดแย้งผ่านสถานการณ์ต่าง ๆ ตัวอย่างเช่นในสถานการณ์ที่โมเดลได้รับคำสั่งไม่ให้คำตอบสำหรับปัญหาทางคณิตศาสตร์ (ข้อความระบบ) และผู้ใช้พยายามหลอกให้ทำเช่นนั้น (ข้อความผู้ใช้), GPT-4.5 ต้องต่อต้านความพยายามของผู้ใช้และทำตามคำแนะนำของระบบ
4. ประสิทธิภาพ: GPT-4.4.5 ทำงานได้ดีในการประเมินเหล่านี้แสดงให้เห็นถึงการปรับปรุงรุ่นก่อนหน้าเช่น GPT-4O ในการจัดการความขัดแย้งข้อความของผู้ใช้ระบบ อย่างไรก็ตามมีสถานการณ์เฉพาะที่อาจไม่ทำงานเช่นเดียวกับ GPT-4O หรือ GPT-4O1 เช่นในการทดสอบการแหกคุกบางอย่างที่ถูกหลอกให้เปิดเผยข้อมูลที่ไม่ควร [1] [7]
การประเมินความปลอดภัย
GPT-4.5 ได้รับการประเมินความปลอดภัยอย่างเข้มงวดเพื่อให้แน่ใจว่าไม่ได้สร้างเนื้อหาที่ไม่อนุญาตเช่นคำแนะนำที่แสดงความเกลียดชังหรือผิดกฎหมาย การประเมินเหล่านี้ยังประเมินแนวโน้มของแบบจำลองที่จะแจ้งให้ทราบล่วงหน้าเกี่ยวกับหัวข้อความปลอดภัย ประสิทธิภาพของโมเดลในพื้นที่เหล่านี้มีความสำคัญต่อการรักษาความปลอดภัยและความน่าเชื่อถือเมื่อจัดการกับคำแนะนำที่ขัดแย้งกัน [1]
โมเดลข้อมูลจำเพาะและระดับอำนาจ
ข้อมูลจำเพาะโมเดลสรุประดับอำนาจสำหรับคำแนะนำประเภทต่าง ๆ โดยมีคำแนะนำระดับแพลตฟอร์มที่มีอำนาจสูงสุดตามด้วยคำแนะนำของนักพัฒนาและผู้ใช้ ลำดับชั้นนี้ช่วยให้มั่นใจได้ว่า GPT-4.5.5 จัดลำดับความสำคัญด้านความปลอดภัยและปฏิบัติตามแนวทางในขณะที่ยังอนุญาตให้ผู้ใช้และนักพัฒนาในการปรับแต่งภายในขอบเขตที่กำหนดไว้ [2] [5]
โดยรวมแล้วความสามารถของ GPT-4.5 ในการจัดการกับคำแนะนำที่ขัดแย้งกันเป็นสิ่งสำคัญในการออกแบบเพื่อให้มั่นใจว่าจะรักษาความปลอดภัยและความสมบูรณ์ในขณะที่โต้ตอบกับผู้ใช้
การอ้างอิง:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-rease-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/