การประเมินผลการปฏิบัติงานของ GPT-4.5 ต่อการแจ้งเตือนและกลไกความปลอดภัย

ประสิทธิภาพของ GPT-4.5 ในสถานการณ์ที่ข้อความผู้ใช้พยายามหลอกแบบจำลองผ่านการประเมินหลายครั้งโดยมุ่งเน้นไปที่ความสามารถในการต่อต้านการแจ้งเตือนที่เป็นปฏิปักษ์และรักษามาตรฐานความปลอดภัย

การประเมินความปลอดภัยและการแหกคุก

1. การประเมินการแหกคุก: การทดสอบเหล่านี้วัดว่า GPT-4.4.5 ต่อต้านความพยายามที่จะหลีกเลี่ยงกลไกความปลอดภัยได้อย่างไร แบบจำลองนี้ได้รับการประเมินจากการแหกคุกที่มาจากมนุษย์และเกณฑ์มาตรฐานที่แข็งแกร่งซึ่งประเมินความต้านทานต่อการโจมตีของฝ่ายตรงข้าม GPT-4.5 ทำงานได้ดีในการแหกคุกที่มาจากมนุษย์ได้รับความแม่นยำสูง 0.99 อย่างไรก็ตามในเกณฑ์มาตรฐานที่แข็งแกร่งมันทำคะแนน 0.34 ซึ่งต่ำกว่าคะแนน GPT-4O1 เล็กน้อยที่ 0.87 [1]

2. การประเมินลำดับชั้นการเรียนการสอน: เพื่อลดการโจมตีแบบฉีดทันที GPT-4.5 ได้รับการฝึกฝนให้ทำตามลำดับชั้นของคำแนะนำการจัดลำดับความสำคัญข้อความระบบผ่านข้อความผู้ใช้ ในการประเมินผลที่ระบบและข้อความของผู้ใช้ขัดแย้งกัน GPT-40 โดยทั่วไปทำงานได้ดีโดยมีความแม่นยำ 0.76 นี่คือการปรับปรุงมากกว่า GPT-4O แต่ต่ำกว่าประสิทธิภาพของ GPT-4O1 เล็กน้อย [1]

3. การปกครองของติวเตอร์: ในสถานการณ์ที่โมเดลได้รับคำสั่งไม่ให้เปิดเผยคำตอบสำหรับคำถามทางคณิตศาสตร์ GPT-4.5 แสดงความสำเร็จในระดับปานกลางด้วยความแม่นยำ 0.77 นี่คือการปรับปรุงที่สำคัญมากกว่า GPT-4O แต่ไม่สูงเท่าประสิทธิภาพของ GPT-4O1 [1]

4. การป้องกันวลีและรหัสผ่าน: GPT-4.5.5 ยังได้รับการประเมินเกี่ยวกับความสามารถในการปกป้องวลีหรือรหัสผ่านที่เฉพาะเจาะจงจากการถูกเปิดเผยผ่านข้อความผู้ใช้ มันทำงานได้ดีในการทดสอบเหล่านี้ด้วยความถูกต้อง 0.86 สำหรับการป้องกันวลีและ 0.92 สำหรับการป้องกันรหัสผ่าน [1]

การประเมินผลทีมสีแดง

GPT-4.5 ผ่านการประเมินผลทีมสีแดงที่ออกแบบมาเพื่อทดสอบความทนทานต่อการแจ้งเตือนที่เป็นปฏิปักษ์ การประเมินเหล่านี้ครอบคลุมสถานการณ์เช่นคำแนะนำที่ผิดกฎหมายความคลั่งไคล้ความเกลียดชังอาชญากรรมการโน้มน้าวใจทางการเมืองและการทำร้ายตนเอง GPT-4.5 ผลิตผลลัพธ์ที่ปลอดภัยในประมาณ 51% ของชุดการประเมินผลทีมสีแดงครั้งแรกสูงกว่า GPT-4O เล็กน้อย แต่ต่ำกว่า GPT-4O1 เล็กน้อย ในการประเมินครั้งที่สองมุ่งเน้นไปที่คำแนะนำที่มีความเสี่ยง GPT-4.5 ทำงานได้ดีกว่า GPT-4O แต่ไม่เช่น GPT-4O1 หรือรูปแบบการวิจัยเชิงลึก [1]

ประสิทธิภาพโดยรวม

ในขณะที่ GPT-4.5 แสดงให้เห็นถึงการปรับปรุงในการจัดการกับการแจ้งเตือนที่ละเอียดอ่อนและเป็นปฏิปักษ์เมื่อเทียบกับรุ่นก่อนหน้า แต่ก็ยังคงเผชิญกับความท้าทายในสถานการณ์ที่เป็นปฏิปักษ์อย่างมาก ประสิทธิภาพของมันนั้นแข็งแกร่งสำหรับงานที่มีวัตถุประสงค์ทั่วไป แต่อาจไม่เหมาะสมที่สุดสำหรับงานการแก้ปัญหาขั้นสูงหรือการเข้ารหัสลึกเมื่อเทียบกับรุ่นพิเศษเช่น O3-MINI [3] [5]

โดยสรุป GPT-4.5 แสดงความยืดหยุ่นต่อความพยายามที่จะหลอกโดยเฉพาะอย่างยิ่งในสถานการณ์ที่ต้องจัดลำดับความสำคัญคำแนะนำระบบผ่านอินพุตของผู้ใช้ อย่างไรก็ตามมันยังคงมีข้อ จำกัด ในบริบทที่เป็นปฏิปักษ์อย่างมากสะท้อนให้เห็นถึงความท้าทายอย่างต่อเนื่องในการปรับสมดุลความปลอดภัยและการทำงานในแบบจำลอง AI

การอ้างอิง:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-his-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/GPT_4_HAS_BEEN_TONED_DOWN_SINGINIFINGE_AND/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW

GPT-40.5 ทำงานอย่างไรในสถานการณ์ที่ข้อความผู้ใช้พยายามหลอกโมเดล

การประเมินความปลอดภัยและการแหกคุก

การประเมินผลทีมสีแดง

ประสิทธิภาพโดยรวม