GPT-4.5 được thiết kế để xử lý các hướng dẫn mâu thuẫn thông qua hệ thống phân cấp hướng dẫn, ưu tiên các thông điệp hệ thống hơn tin nhắn người dùng để giảm thiểu các rủi ro như tiêm kịp thời và các cuộc tấn công khác ghi đè các hướng dẫn an toàn [1]. Tuy nhiên, liệu GPT-4.5 có thể thích ứng với các loại hướng dẫn mâu thuẫn mới hay không, nó chưa được đào tạo hay không là một câu hỏi phức tạp.
Đào tạo và đánh giá
GPT-4.5 đã được đào tạo bằng cách sử dụng các kỹ thuật giám sát mới kết hợp với các phương pháp truyền thống như tinh chỉnh được giám sát (SFT) và học củng cố từ phản hồi của con người (RLHF) [1]. Các phương pháp này nhằm cải thiện sự liên kết của mô hình với ý định của người dùng và khả năng làm theo hướng dẫn chính xác hơn. Mô hình đã được đánh giá trên các kịch bản khác nhau trong đó tin nhắn hệ thống và tin nhắn người dùng xung đột, hiển thị các cải tiến so với các mô hình trước đây như GPT-4O [1].
Khả năng thích ứng với các hướng dẫn xung đột mới
Mặc dù GPT-4.5 cho thấy hiệu suất tốt hơn trong việc xử lý các loại hướng dẫn mâu thuẫn đã biết, khả năng thích ứng với các loại xung đột hoàn toàn mới phụ thuộc vào một số yếu tố:
1. Khả năng tổng quát hóa: Đào tạo của GPT-4.5 bao gồm mở rộng việc học không giám sát, giúp tăng cường khả năng khái quát hóa và hiểu các bối cảnh rộng hơn [1]. Điều này có khả năng giúp nó nhận ra các mẫu trong các hướng dẫn mâu thuẫn mới.
2. Hệ thống phân cấp hướng dẫn: Hệ thống phân cấp hướng dẫn của mô hình được thiết kế để ưu tiên các thông điệp hệ thống, giúp duy trì sự an toàn và tuân thủ các quy tắc được xác định trước. Tuy nhiên, nếu các hướng dẫn xung đột mới nằm ngoài phạm vi của hệ thống phân cấp này, mô hình có thể đấu tranh để thích nghi mà không cần đào tạo thêm hoặc tinh chỉnh.
3. Kỹ thuật và giàn giáo nhanh chóng: Người dùng có thể sử dụng các kỹ thuật nhắc nhở nâng cao hoặc giàn giáo để hướng dẫn mô hình hướng tới sự hiểu biết và làm theo các hướng dẫn mới. Cách tiếp cận này có thể giúp khơi gợi các hành vi vượt ra ngoài những gì mô hình được đào tạo rõ ràng cho [1].
4. Hạn chế và đánh giá an toàn: Mặc dù có những cải tiến, GPT-4.5 vẫn phải đối mặt với những thách thức trong việc xử lý các kịch bản phức tạp hoặc mới lạ. Các đánh giá an toàn đã chỉ ra rằng trong khi mô hình thực hiện tốt các nhiệm vụ đã biết, thì luôn có nguy cơ không tuân theo các hướng dẫn trong các bối cảnh không lường trước [1].
Phần kết luận
Mặc dù GPT-4.5 có khả năng hơn so với những người tiền nhiệm trong việc xử lý các hướng dẫn mâu thuẫn, khả năng thích ứng của nó đối với các loại xung đột hoàn toàn mới bị giới hạn bởi dữ liệu đào tạo và thiết kế của nó. Nó có thể yêu cầu các chiến lược thúc đẩy bổ sung hoặc sáng tạo để xử lý hiệu quả các kịch bản mới. Các nghiên cứu đang diễn ra và tương tác người dùng với GPT-4.5 sẽ cung cấp nhiều hiểu biết hơn về khả năng và hạn chế của nó trong lĩnh vực này.
Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/R
.