Đánh giá hiệu suất của GPT-4.5 đối với các lời nhắc và cơ chế an toàn đối nghịch

Làm thế nào để GPT-4.5 thực hiện trong các kịch bản trong đó tin nhắn người dùng cố gắng lừa mô hình

Hiệu suất của GPT-4.5 trong các kịch bản trong đó các thông điệp người dùng cố gắng lừa mô hình được đánh giá thông qua một số đánh giá, tập trung vào khả năng chống lại các lời nhắc đối nghịch và duy trì các tiêu chuẩn an toàn.

Đánh giá và bẻ khóa an toàn

1. Đánh giá jailbreak: Các thử nghiệm này đo lường mức độ tốt của GPT-4,5 cố gắng phá vỡ các cơ chế an toàn của nó. Mô hình được đánh giá chống lại các lần bẻ khóa có nguồn gốc từ người và điểm chuẩn mạnh mẽ, đánh giá sự kháng cự đối với các cuộc tấn công đối nghịch thông thường. GPT-4.5 hoạt động tốt trong các lần bẻ khóa có nguồn gốc từ con người, đạt được độ chính xác cao là 0,99. Tuy nhiên, trong điểm chuẩn StrongReject, nó đạt 0,34, thấp hơn một chút so với điểm của GPT-4O1 là 0,87 [1].

2. Trong các đánh giá trong đó tin nhắn hệ thống và người dùng xung đột, GPT-4.5 thường hoạt động tốt, với độ chính xác là 0,76. Đây là một cải tiến so với GPT-4O nhưng thấp hơn một chút so với hiệu suất của GPT-4O1 [1].

3. Tutor Jailbreaks: Trong các kịch bản mà mô hình được hướng dẫn không tiết lộ câu trả lời cho các câu hỏi toán học, GPT-4,5 cho thấy thành công vừa phải, với độ chính xác là 0,77. Đây là một cải tiến đáng kể so với GPT-4O nhưng không cao như hiệu suất của GPT-4O1 [1].

4. Cụm từ và bảo vệ mật khẩu: GPT-4.5 cũng được đánh giá về khả năng bảo vệ các cụm từ hoặc mật khẩu cụ thể của nó khỏi được tiết lộ thông qua tin nhắn người dùng. Nó hoạt động tốt trong các thử nghiệm này, với độ chính xác là 0,86 để bảo vệ cụm từ và 0,92 để bảo vệ mật khẩu [1].

Đánh giá hợp tác màu đỏ

GPT-4.5 trải qua các đánh giá hợp tác màu đỏ được thiết kế để kiểm tra sự mạnh mẽ của nó đối với các gợi ý bất lợi. Những đánh giá này bao gồm các kịch bản như lời khuyên bất hợp pháp, chủ nghĩa cực đoan, tội ác ghét, thuyết phục chính trị và tự gây hại. GPT-4.5 tạo ra đầu ra an toàn trong khoảng 51% bộ đánh giá hợp tác màu đỏ đầu tiên, cao hơn một chút so với GPT-4O nhưng thấp hơn GPT-4O1. Trong đánh giá thứ hai tập trung vào lời khuyên rủi ro, GPT-4.5 hoạt động tốt hơn GPT-4O nhưng không cũng như các mô hình nghiên cứu GPT-4O1 hoặc sâu [1].

Hiệu suất tổng thể

Mặc dù GPT-4.5 thể hiện những cải tiến trong việc xử lý các lời nhắc nhạy cảm và đối nghịch so với các mô hình trước đó, nó vẫn phải đối mặt với những thách thức trong các kịch bản cao đối nghịch. Hiệu suất của nó là vững chắc cho các nhiệm vụ có mục đích chung nhưng có thể không tối ưu cho các nhiệm vụ giải quyết vấn đề nâng cao hoặc mã hóa sâu so với các mô hình chuyên dụng như O3-mini [3] [5].

Tóm lại, GPT-4.5 cho thấy khả năng phục hồi chống lại các nỗ lực lừa nó, đặc biệt là trong các kịch bản trong đó nó phải ưu tiên các hướng dẫn hệ thống hơn đầu vào của người dùng. Tuy nhiên, nó vẫn có những hạn chế trong bối cảnh bất lợi cao, phản ánh những thách thức đang diễn ra trong việc cân bằng an toàn và chức năng trong các mô hình AI.

Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
.
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw