Việc giảm tỷ lệ ảo giác của GPT-5 được quy cho cả giám tuyển dữ liệu đào tạo và phương pháp đào tạo nâng cao. Openai đã báo cáo công khai rằng các phản hồi GPT-5 có khả năng chứa các lỗi thực tế hơn tới 45% so với GPT-4O và với chế độ "lý luận" nâng cao, các lỗi thực tế giảm khoảng 80% so với mô hình O3 trước đó. Việc ngăn chặn ảo giác trong GPT-5 không phải là kết quả của một bộ dữ liệu duy nhất, mà là một quá trình lắp ráp bộ dữ liệu tinh vi, lọc, đào tạo liên tục với phản hồi của con người và tích hợp các tài nguyên kiểm tra thực tế bên ngoài.
Chất lượng dữ liệu và chiến lược giám tuyển
Trụ cột đầu tiên của Openai chống lại ảo giác trong GPT-5 là việc sử dụng các bộ dữ liệu mở rộng, chất lượng cao và được quản lý. Điều này có nghĩa là:
- Dữ liệu nguồn có nhiều khả năng được xác minh và có uy tín.
- Những nỗ lực rõ ràng được thực hiện để loại bỏ hoặc giảm thiểu nội dung không đáng tin cậy, sai lệch hoặc độc hại trong quá trình đào tạo trước và trong các chu kỳ làm mới dữ liệu.
-Dữ liệu do người dùng được lọc được lọc, ẩn danh và xem xét kỹ lưỡng về tính thực tế trước khi đưa vào mô hình hóa tinh chỉnh hoặc phần thưởng được giám sát.
Để tiếp tục giảm rủi ro ảo giác, OpenAI đã triển khai các quy trình làm sạch dữ liệu rộng rãi để xác định và loại trừ nội dung ồn ào, mâu thuẫn hoặc tổng hợp có thể gây ra lỗi trong đầu ra của mô hình.
sau đào tạo và củng cố từ phản hồi của con người (RLHF)
Phản hồi của con người là trung tâm trong kiến trúc của GPT-5. Mô hình này trải qua các vòng học tập tăng cường từ phản hồi của con người (RLHF), trong đó những người đánh giá của con người:
- Đánh giá đầu ra cho sự đúng đắn thực tế, sự gắn kết và căn chỉnh với ý định của người dùng.
- Cung cấp các tùy chọn theo cặp về các thế hệ mô hình, bổ ích chính xác và thông tin trong khi xử phạt ảo giác.
- Các tín hiệu này tạo thành cơ sở cho các mô hình phần thưởng tối ưu hóa hơn nữa GPT-5 hơn thích hoàn thành thực tế.
Ngoài ra, RLHF được tăng cường bởi các học sinh thực tế tự động được xác nhận chống lại sự phán xét của con người để mở rộng quy mô phát hiện ảo giác. Các học sinh lớp này phục vụ cả như một thước đo định lượng trong các đánh giá và là một thành phần của đào tạo liên tục, cho phép các vòng phản hồi nhanh, quy mô lớn vượt ra ngoài sự chú thích của con người.
Điểm chuẩn đánh giá và kiểm tra căng thẳng
Để đo lường ảo giác, GPT-5 đã được kiểm tra căng thẳng nghiêm ngặt đối với các điểm chuẩn thực tế và nội bộ mới như Longfact (khái niệm và đối tượng) và thực tế (lời nhắc tìm kiếm thực tế). Khung đánh giá nhắm mục tiêu khó khăn hơn, lời nhắc kết thúc mở và nội dung dài, các khu vực trong đó ảo giác trước đây phát triển. Theo Openai, "GPT-5 Suy nghĩ" tạo ra khoảng cách ít hơn sáu lần so với O3 trong các nhiệm vụ này.
GPT-5 cũng được đánh giá trong lưu lượng sản xuất trong thế giới thực và các bộ kiểm tra chuyên dụng, trong đó khả năng thừa nhận chính xác các khoảng trống kiến thức và tránh bịa đặt được đo lường trực tiếp và cải thiện. Ví dụ, mô hình từ chối phát minh ra các tài sản không tồn tại trong các cài đặt đa phương thức đã được cải thiện rõ rệt so với các thế hệ trước.
Can thiệp kiến trúc và đào tạo
Một số can thiệp sâu hơn trong quá trình ảo giác mục tiêu đào tạo:
-Lý do có cấu trúc và suy nghĩ có cấu trúc được xây dựng thành các giai đoạn đào tạo trước và tinh chỉnh, cho phép mô hình tạo ra các đầu ra có thể giải thích và có căn cứ hơn thay vì phỏng đoán tự tin.
-Mô hình hoàn thành an toàn thay thế mô hình an toàn dựa trên từ chối cũ hơn, đào tạo GPT-5 để cung cấp các phản hồi hữu ích, bị ràng buộc hoặc để truyền đạt một cách minh bạch các giới hạn và lý luận của nó khi nó không thể trả lời một cách an toàn.
-Việc sử dụng công cụ và thế hệ được thu hồi (RAG): GPT-5 được đào tạo một cách có hệ thống để tận dụng tìm kiếm web và các công cụ kiểm tra thực tế bên ngoài cho các truy vấn yêu cầu kiến thức cập nhật hoặc cụ thể cao. Điều này làm giảm đáng kể nguy cơ ảo giác đối với các đối tượng tối nghĩa hoặc phát triển nhanh.
- Giảm Sycophancy: Đường ống giám tuyển của GPT-5 tập hợp dữ liệu rõ ràng được thiết kế để bẫy các mô hình trong các lỗi thỏa thuận, chấm điểm câu trả lời cho sycophancy và sử dụng các điểm số này như một phần thưởng tiêu cực trong RLHF, trực tiếp tấn công ảo giác theo vấn đề thỏa thuận.
Kết quả và giới hạn trong thế giới thực
Bất chấp những tiến bộ này, GPT-5 không hoàn toàn miễn nhiễm với ảo giác. Ví dụ:
-Tỷ lệ ảo giác được báo cáo cho các nhiệm vụ kết thúc phức tạp (được đo bằng các điểm chuẩn như QA đơn giản) vẫn còn đáng kể, đặc biệt là khi hệ thống bị cắt khỏi các công cụ kiểm tra thực tế trực tiếp.
- Truy cập vào tìm kiếm trên web làm giảm đáng kể tỷ lệ lỗi, minh họa tầm quan trọng của đào tạo lai (kết hợp dữ liệu được quản lý tĩnh với truy xuất) trong việc kiểm duyệt ảo giác.
- Một số lời nhắc sáng tạo hoặc trừu tượng nhất định tiếp tục thách thức các cơ chế tiếp đất của hệ thống.
Cập nhật liên tục và phản hồi của cộng đồng
Hệ thống của GPT-5 được cung cấp dữ liệu cộng đồng và người dùng thực liên tục, với các cơ chế phản hồi cho phép vá nhanh ảo giác được phát hiện và triển khai các tinh chỉnh trong cả lọc dữ liệu và thiết kế chức năng thưởng. Openai công khai thừa nhận sự cần thiết phải cải thiện hơn nữa, đặc biệt là trong các lĩnh vực cổ phần cao như chăm sóc sức khỏe và luật pháp, nơi khả năng chịu lỗi phải là tối thiểu.
Tóm tắt các bước giám tuyển chính
Để tổng hợp, việc giảm ảo giác trong GPT-5 phát sinh từ các quá trình liên kết sau:
1. Lựa chọn và lọc dữ liệu trước khi đào tạo tỉ mỉ, với sự nhấn mạnh vào việc tìm nguồn cung ứng từ cơ sở dữ liệu có uy tín và duy trì nội dung thực tế cập nhật.
2. Loại trừ nội dung ồn ào, không đáng tin cậy hoặc sai lệch trong quá trình lắp ráp bộ dữ liệu, được củng cố bằng cách xem xét tự động và thủ công ở nhiều giai đoạn.
3. Học tập củng cố và phản hồi liên tục dựa trên sự phân loại con người và tự động quy mô lớn cho thực tế và tính trung thực.
4. Đánh giá chống lại điểm chuẩn thực tế mạnh mẽ, cả tĩnh và thế giới thực, đo lường tốc độ chính xác và loại ảo giác trong các điều kiện khác nhau.
5. Các can thiệp sau đào tạo, bao gồm các chiến lược hoàn thành an toàn hơn, đàn áp sycophancy rõ ràng và tích hợp mạnh mẽ với kiến thức dựa trên công cụ hoặc truy xuất.
6. Điều chỉnh trực tiếp lặp lại từ phản hồi sản xuất và nhóm đỏ, đảm bảo các rò rỉ ảo giác mới được phát hiện và giải quyết nhanh chóng.