Hệ thống phân cấp hướng dẫn GPT-4.5

Làm thế nào để GPT-4.5 xử lý các hướng dẫn mâu thuẫn giữa hệ thống và tin nhắn người dùng

GPT-4.5 được thiết kế để xử lý các hướng dẫn mâu thuẫn giữa hệ thống và tin nhắn người dùng thông qua hệ thống phân cấp hướng dẫn. Hệ thống phân cấp này giúp mô hình ưu tiên các thông điệp hệ thống hơn thông điệp người dùng để giảm thiểu rủi ro liên quan đến các lời nhắc mâu thuẫn, chẳng hạn như tiêm kịp thời hoặc các cuộc tấn công khác có thể ghi đè lên các hướng dẫn an toàn của mô hình.

Các tính năng chính của phân cấp hướng dẫn

1. Phân loại tin nhắn: GPT-4.5 phân biệt giữa hai loại tin nhắn: tin nhắn hệ thống và tin nhắn người dùng. Thông điệp hệ thống được coi là thẩm quyền cao hơn và được sử dụng để đặt hướng dẫn an toàn hoặc hướng dẫn cụ thể cho mô hình.

2. Giải quyết xung đột: Khi tin nhắn hệ thống và người dùng xung đột, GPT-4.5 được đào tạo để làm theo các hướng dẫn trong thông báo hệ thống. Điều này đảm bảo rằng mô hình tuân thủ các hướng dẫn an toàn và không tham gia vào các hoạt động có hại hoặc không được phép.

3. Đánh giá và đào tạo: Mô hình được đánh giá về khả năng xử lý xung đột thông qua các kịch bản khác nhau. Ví dụ, trong một kịch bản mà mô hình được hướng dẫn không đưa ra câu trả lời cho bài toán (thông báo hệ thống) và người dùng cố gắng lừa nó làm như vậy (tin nhắn người dùng), GPT-4.5 phải chống lại nỗ lực của người dùng và làm theo hướng dẫn hệ thống.

4. Hiệu suất: GPT-4.5 thường thực hiện tốt trong các đánh giá này, cho thấy sự cải thiện so với các mô hình trước đây như GPT-4O trong việc xử lý xung đột thông điệp của người dùng hệ thống. Tuy nhiên, có những tình huống cụ thể trong đó nó có thể không thực hiện cũng như GPT-4O hoặc GPT-4O1, chẳng hạn như trong các thử nghiệm bẻ khóa nhất định trong đó nó bị lừa để tiết lộ thông tin mà không nên [1] [7].

Đánh giá an toàn

GPT-4.5 trải qua các đánh giá an toàn nghiêm ngặt để đảm bảo nó không tạo ra nội dung không được phép, chẳng hạn như lời khuyên đáng ghét hoặc bất hợp pháp. Những đánh giá này cũng đánh giá xu hướng của mô hình là sử dụng quá mức các gợi ý lành tính liên quan đến các chủ đề an toàn. Hiệu suất của mô hình trong các lĩnh vực này là rất quan trọng để duy trì sự an toàn và độ tin cậy của nó khi xử lý các hướng dẫn mâu thuẫn [1].

Cấp độ thông số kỹ thuật và thẩm quyền

SPEC mô hình phác thảo các cấp thẩm quyền cho các loại hướng dẫn khác nhau, với các hướng dẫn cấp nền tảng có thẩm quyền cao nhất, theo sau là hướng dẫn của nhà phát triển và người dùng. Hệ thống phân cấp này đảm bảo rằng GPT-4.5 ưu tiên an toàn và tuân thủ các hướng dẫn trong khi vẫn cho phép người dùng và nhà phát triển tùy chỉnh trong các ranh giới đã đặt [2] [5].

Nhìn chung, khả năng xử lý các hướng dẫn mâu thuẫn của GPT-4.5 là một khía cạnh quan trọng trong thiết kế của nó, đảm bảo rằng nó duy trì sự an toàn và toàn vẹn trong khi tương tác với người dùng.

Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
.
.
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
.