Cách GPT-4.5 xử lý các thông điệp xung đột với hệ thống phân cấp hướng dẫn và tinh chỉnh

GPT-4.5 kỹ thuật cụ thể nào để xử lý các thông điệp mâu thuẫn

GPT-4.5 sử dụng một số kỹ thuật để xử lý các thông điệp mâu thuẫn, đặc biệt thông qua hệ thống phân cấp hướng dẫn của nó. Hệ thống phân cấp này thiết lập một thứ tự ưu tiên cho các tin nhắn, đảm bảo rằng các thông điệp hệ thống được ưu tiên hơn tin nhắn người dùng, lịch sử hội thoại và đầu ra công cụ [1] [2].

Hệ thống phân cấp hướng dẫn

1. Tin nhắn hệ thống so với tin nhắn người dùng: GPT-4.5 được đào tạo để làm theo hướng dẫn trong các thông báo hệ thống qua các tin nhắn người dùng mâu thuẫn. Điều này rất quan trọng trong các kịch bản trong đó các đầu vào của người dùng có thể cố gắng ghi đè các hướng dẫn an toàn hoặc quy tắc định dạng do hệ thống đặt ra [1] [2].

2. Giải quyết xung đột: Mô hình được đánh giá về khả năng giải quyết xung đột giữa các loại tin nhắn khác nhau. Chẳng hạn, nếu tin nhắn hệ thống hướng dẫn mô hình không tiết lộ một cụm từ hoặc mật khẩu cụ thể và tin nhắn người dùng sẽ cố gắng lừa mô hình để làm như vậy, GPT-4.5 được thiết kế để tuân thủ các hướng dẫn của thông báo hệ thống [1].

3. Đào tạo và đánh giá: GPT-4.5 trải qua đào tạo và đánh giá rộng rãi để đảm bảo nó có thể xử lý các tình huống phức tạp trong đó tin nhắn hệ thống và người dùng xung đột. Điều này bao gồm các kịch bản trong đó mô hình phải chọn giữa việc tuân theo lệnh của hệ thống hoặc yêu cầu của người dùng mâu thuẫn với nó [1] [2].

Tinh chỉnh được giám sát (SFT)

GPT-4.5 cũng sử dụng tinh chỉnh được giám sát (SFT), liên quan đến việc đào tạo mô hình về các ví dụ cụ thể nơi có các thông điệp mâu thuẫn. Kỹ thuật này giúp cải thiện khả năng nhận biết và ưu tiên của các hướng dẫn hệ thống so với đầu vào của người dùng, nâng cao hiệu suất của nó trong việc xử lý các kịch bản mâu thuẫn [3].

Kỹ thuật căn chỉnh mới

Ngoài ra, GPT-4.5 kết hợp các kỹ thuật căn chỉnh mới nhằm nâng cao sự hiểu biết về sở thích và ý định của con người. Các kỹ thuật này giúp mô hình giải thích tốt hơn bối cảnh và ý định đằng sau cả tin nhắn hệ thống và người dùng, cho phép nó đưa ra quyết định sáng suốt hơn khi xử lý xung đột [5].

Nhìn chung, cách tiếp cận của GPT-4.5 để xử lý các thông điệp xung đột kết hợp các phương pháp đào tạo nâng cao với một hệ thống hướng dẫn có cấu trúc để đảm bảo rằng mô hình ưu tiên an toàn và tuân thủ các hướng dẫn của hệ thống.

Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[5] https://vives
[6] https://community.openai.com/T
[7] https://openai.com/index/introducing-gpt-4-5/
.