GPT-4.5 ưu tiên các tin nhắn hệ thống hơn tin nhắn người dùng thông qua hệ thống phân cấp hướng dẫn, được thiết kế để giảm thiểu nguy cơ tiêm kịp thời và các cuộc tấn công khác có thể ghi đè lên các hướng dẫn an toàn của mô hình. Phân cấp này phân loại các thông điệp thành hai loại chính: tin nhắn hệ thống và tin nhắn người dùng. Thông điệp hệ thống về cơ bản là các hướng dẫn ẩn hướng dẫn hành vi của AI, trong khi tin nhắn người dùng là đầu vào được cung cấp bởi người dùng.
Trong GPT-4.5, khi tin nhắn hệ thống và người dùng xung đột, mô hình được đào tạo để làm theo các hướng dẫn trong thông báo hệ thống qua các thông báo trong tin nhắn người dùng. Điều này đạt được bằng cách giám sát mô hình trên các ví dụ trong đó các loại tin nhắn này đang xung đột. Mô hình học cách ưu tiên các thông điệp hệ thống để đảm bảo tuân thủ các hướng dẫn an toàn và để ngăn chặn các đầu ra không mong muốn.
Chẳng hạn, nếu người dùng cố gắng lừa mô hình để cung cấp thông tin có hại, tin nhắn hệ thống có thể hướng dẫn mô hình từ chối các yêu cầu đó. Khả năng tuân thủ hệ thống phân cấp này của GPT-4.5 giúp duy trì các tiêu chuẩn an toàn và ngăn chặn mô hình bị thao túng để tạo nội dung không được phép.
Cách tiếp cận này rất quan trọng để đảm bảo rằng GPT-4.5 hoạt động liên tục với các hướng dẫn về an toàn và đạo đức dự định của nó, ngay cả khi phải đối mặt với các nỗ lực bỏ qua các quy tắc này thông qua các đầu vào người dùng được chế tạo khéo léo. Bằng cách ưu tiên các thông điệp hệ thống, OpenAI nhằm mục đích tăng cường độ tin cậy và bảo mật của mô hình trong các ứng dụng khác nhau [1] [2].
Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-them-real-world-experiments-prompt-injection-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-users-and-even-plus-users-it-literally-barely-gives-you-5-messages-in-5-6-hours-to-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-out-to-plus-and-team-users-next-week-then-to-enterprise-and-edu-users-the-following-week
[6] https://arxiv.org/html/2408.10943v1
.
.