Cải tiến GPT-4.5 trong việc xử lý các hướng dẫn mâu thuẫn và cải thiện an toàn

Hiệu suất của GPT-4.5 so với các phiên bản trước đó trong việc xử lý các hướng dẫn mâu thuẫn

GPT-4.5 thể hiện hiệu suất được cải thiện trong việc xử lý các hướng dẫn mâu thuẫn so với các phiên bản trước đó, đặc biệt thông qua việc tuân thủ nâng cao của nó đối với hệ thống phân cấp hướng dẫn. Hệ thống phân cấp này cho phép mô hình ưu tiên các thông điệp hệ thống hơn đầu vào của người dùng, giảm thiểu rủi ro từ các lời nhắc xung đột. Trong các đánh giá, GPT-4.5 thường vượt trội so với GPT-4O trong các kịch bản trong đó tin nhắn hệ thống và người dùng xung đột, cho thấy khả năng tốt hơn để làm theo các hướng dẫn an toàn và tránh bị lừa bởi lời nhắc đối nghịch [1] [5].

Cải tiến chính trong việc xử lý các hướng dẫn mâu thuẫn

1. Đánh giá phân cấp hướng dẫn: GPT-4.5 cho thấy độ chính xác được cải thiện trong các hướng dẫn hệ thống sau qua tin nhắn người dùng. Ví dụ, trong một kịch bản mà mô hình được hướng dẫn không đưa ra câu trả lời cho một câu hỏi toán học, GPT-4.5 thực hiện tốt hơn GPT-4O, mặc dù không cũng như GPT-4O1 [1].

2. Giảm thiểu các mũi tiêm kịp thời: Bằng cách ưu tiên các thông điệp hệ thống, GPT-4.5 làm giảm nguy cơ tiêm kịp thời và các cuộc tấn công khác có thể ghi đè lên các hướng dẫn an toàn của nó. Điều này rất quan trọng để duy trì tính toàn vẹn của mô hình và ngăn ngừa lạm dụng [1] [5].

3. Các kịch bản thực tế: Trong các kịch bản thực tế hơn, chẳng hạn như khi hoạt động như một gia sư toán học, GPT-4.5 tốt hơn trong việc chống lại các nỗ lực để lừa nó cung cấp thông tin trái phép. Tuy nhiên, hiệu suất của nó không hoàn hảo và có thể thay đổi tùy thuộc vào bối cảnh cụ thể và hướng dẫn được cung cấp [1].

4. Đánh giá an toàn: GPT-4.5 trải qua các đánh giá an toàn nghiêm ngặt để đảm bảo nó không tuân thủ các yêu cầu về nội dung có hại. Mặc dù nó hoạt động tốt trong việc từ chối nội dung không an toàn, nhưng nó có thể sử dụng quá nhiều so với các mô hình trước đó, cho thấy một cách tiếp cận thận trọng để xử lý những lời nhắc mơ hồ hoặc có khả năng rủi ro [1].

Nhìn chung, GPT-4.5 cung cấp những cải tiến đáng kể trong việc xử lý các hướng dẫn mâu thuẫn bằng cách tuân thủ chặt chẽ hơn các hướng dẫn hệ thống và giảm tác động của đầu vào người dùng đối nghịch. Tuy nhiên, giống như tất cả các mô hình AI, nó không miễn nhiễm với tất cả các hình thức thao tác và tiếp tục phát triển với các đánh giá và cập nhật an toàn liên tục [1] [5].

Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/GPT-35-vs-GPT-4-Biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
.
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning