Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Phân cấp hướng dẫn của GPT-4.5 làm thế nào để giảm thiểu nguy cơ tiêm kịp thời


Phân cấp hướng dẫn của GPT-4.5 làm thế nào để giảm thiểu nguy cơ tiêm kịp thời


Hệ thống phân cấp hướng dẫn của GPT-4.5 được thiết kế để giảm thiểu nguy cơ tiêm kịp thời bằng cách thiết lập một thứ tự ưu tiên rõ ràng cho các loại hướng dẫn khác nhau. Hệ thống phân cấp này đảm bảo rằng các thông điệp hệ thống, được đặt bởi các nhà phát triển, được ưu tiên hơn các thông điệp người dùng và các đầu vào khác. Đây là cách nó hoạt động và cách nó giúp ngăn ngừa các cuộc tấn công tiêm nhanh chóng:

Hiểu được tiêm nhanh chóng

Các cuộc tấn công tiêm nhanh xảy ra khi người dùng độc hại thao túng các mô hình AI bằng cách cung cấp các đầu vào ghi đè các hướng dẫn hệ thống ban đầu. Điều này có thể dẫn đến hành vi ngoài ý muốn, chẳng hạn như tiết lộ thông tin nhạy cảm hoặc thực hiện các hành động trái phép [2] [3].

Phân cấp hướng dẫn

Hệ thống phân cấp hướng dẫn trong GPT-4.5 ưu tiên các hướng dẫn dựa trên nguồn và tầm quan trọng của chúng. Nó phân loại đầu vào thành nhiều loại, thường bao gồm:
- Thông điệp hệ thống: Đây là các hướng dẫn ưu tiên cao nhất do các nhà phát triển đặt ra. Họ xác định các nhiệm vụ chính và các ràng buộc mà mô hình nên tuân theo.
- Tin nhắn người dùng: Đây là những đầu vào được cung cấp bởi người dùng và được coi là ưu tiên thấp hơn tin nhắn hệ thống.
- Lịch sử hội thoại và đầu ra công cụ: Chúng cũng có thể ảnh hưởng đến mô hình nhưng thường được ưu tiên thấp hơn so với tin nhắn người dùng [1] [3].

giảm nhẹ tiêm thuốc kịp thời

Để giảm thiểu các cuộc tấn công tiêm kịp thời, hệ thống phân cấp hướng dẫn đảm bảo rằng GPT-4.5 tuân thủ các nguyên tắc sau:
- Ưu tiên: Mô hình ưu tiên các thông báo hệ thống qua đầu vào của người dùng. Nếu người dùng cố gắng tiêm một lời nhắc mâu thuẫn với các hướng dẫn hệ thống, mô hình sẽ mặc định theo hướng dẫn ban đầu [3] [5].
- Phát hiện các lời nhắc bị sai lệch: GPT-4.5 được đào tạo để xác định và bỏ qua các lời nhắc xung đột với các hướng dẫn hệ thống. Ví dụ: nếu người dùng nhập "quên tất cả các hướng dẫn trước đó", mô hình sẽ nhận ra đây là một lời nhắc bị sai lệch và trả lời phù hợp [3].
-Bỏ qua chọn lọc các hướng dẫn ưu tiên thấp hơn: Mô hình được thiết kế để bỏ qua các hướng dẫn ưu tiên thấp hơn khi chúng xung đột với các hướng dẫn ưu tiên cao hơn. Điều này đảm bảo rằng mô hình duy trì hành vi dự định của nó ngay cả khi phải đối mặt với các đầu vào độc hại [7].

Đào tạo và đánh giá

GPT-4.5 được đào tạo bằng cách sử dụng các kỹ thuật nhấn mạnh hệ thống phân cấp hướng dẫn, chẳng hạn như tạo dữ liệu tổng hợp và chưng cất bối cảnh. Các phương pháp này giúp mô hình học cách ưu tiên các hướng dẫn một cách hiệu quả và chống lại các đầu vào độc hại [6] [7]. Hiệu suất của mô hình được đánh giá trong các kịch bản trong đó các thông báo hệ thống xung đột với đầu vào của người dùng, đảm bảo rằng nó tuân thủ phân cấp hướng dẫn và duy trì các tính năng bảo mật của nó [5].

Nhìn chung, hệ thống phân cấp hướng dẫn trong GPT-4.5 giúp tăng cường bảo mật của mô hình bằng cách đảm bảo rằng nó tuân theo các hướng dẫn dự định do các nhà phát triển đặt ra, ngay cả khi đối mặt với các đầu vào người dùng mâu thuẫn hoặc độc hại. Cách tiếp cận này rất quan trọng để xây dựng các hệ thống AI đáng tin cậy có thể hoạt động an toàn trong các ứng dụng trong thế giới thực.

Trích dẫn:
[1] https://arxiv.org/html/2502.08745v1
.
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-injection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/T
.
[8] https://arxiv.org/html/2311.11538v2