Hiểu về sự an toàn, hệ thống truy xuất của GPT-5 và giảm tỷ lệ ảo giác

Các hệ thống thu hồi và an toàn của GPT-5 sử dụng một thiết kế phức tạp, nhiều lớp để giảm mạnh việc tạo ra các sự kiện được phát minh (ảo giác) và để duy trì độ chính xác thực tế. Những tiến bộ này được xây dựng dựa trên một số chiến lược tích hợp chặt chẽ ở cấp độ kiến trúc, đào tạo, suy luận và xử lý hậu kỳ. Các phần sau đây cung cấp một cuộc thám hiểm chi tiết, thông tin kỹ thuật được neo trong các bằng chứng mới nhất về cách GPT-5 thực hiện các mục tiêu an toàn và độ tin cậy này thông qua đổi mới hệ thống và cải thiện thực nghiệm qua các thế hệ trước.

Kiến trúc và định tuyến hệ thống hợp nhất

GPT-5 hoạt động như một hệ thống hợp nhất với nhiều thành phần tương tác:
- Một mô hình cơ sở nhanh, hiệu quả trả lời các câu hỏi đơn giản.
- Một mô hình lý luận sâu sắc hơn được kích hoạt cho các truy vấn phức tạp hoặc cổ phần cao.
- Một bộ định tuyến thời gian thực tự động chọn thành phần tối ưu dựa trên nội dung nhanh chóng, độ phức tạp và ý định của người dùng. Bộ định tuyến được đào tạo liên tục về các biện pháp phản hồi và tính chính xác của người dùng trực tiếp và nó thích nghi trong thời gian thực.

Cấu trúc này cho phép các câu trả lời nhạy cảm và nhạy cảm với bối cảnh hơn và đảm bảo rằng các tài nguyên thực tế mạnh nhất của hệ thống chỉ được sắp xếp khi cần thiết, tối ưu hóa trải nghiệm người dùng và độ chính xác thực tế đồng thời.

Những tiến bộ trong việc giảm ảo giác

GPT-5 đánh dấu sự giảm đáng chú ý trong ảo giác so với người tiền nhiệm của nó, với các đánh giá thực nghiệm ủng hộ các tuyên bố này:
-Với tìm kiếm web được bật, các phản hồi của GPT-5 có khả năng bao gồm ít có khả năng bao gồm một lỗi thực tế so với GPT-4O và ít hơn khoảng 80% so với mô hình O3 của Openai khi triển khai chế độ suy nghĩ của nó.
-Lời nhắc kết thúc mở, thường dễ bị ảnh hưởng nhất với nội dung ảo giác, đã được kiểm tra căng thẳng nghiêm ngặt bằng cách sử dụng các điểm chuẩn công cộng như Longfact và Factscore, trong đó tỷ lệ ảo giác giảm bởi hệ số khoảng sáu so với các mô hình trước đó.
- Cụ thể, đối với các lĩnh vực khó khăn như y học, GPT-5 đã được chứng minh là mang lại tỷ lệ đáp ứng không có căn cứ thấp tới 1,6% trên các điểm chuẩn như HealthBench, làm cho nó đáng tin cậy hơn đáng kể khi xem xét kỹ lưỡng về chuyên gia.

Những cải tiến này không chỉ là kết quả của quy mô mà xuất hiện từ các điều chỉnh được nhắm mục tiêu trong quản lý dữ liệu, đánh giá hệ thống và chế độ đào tạo an toàn chuyên ngành.

Truy xuất thế hệ (RAG) và sử dụng công cụ

GPT-5 tích hợp các khung thế hệ (RAG) được truy xuất lại như một phần trung tâm của nền tảng thực tế của nó:
-Đối với các chủ đề dựa trên kiến thức hoặc có thể kiểm chứng, GPT-5 làm tăng các biểu diễn nội bộ của nó bằng cách tích cực truy xuất thông tin hỗ trợ từ cơ sở dữ liệu có thẩm quyền, công cụ tìm kiếm và các tài liệu tham khảo được quản lý theo thời gian thực.
-Trong các triển khai thực tế (chẳng hạn như TATGPT), điều này được trải nghiệm dưới dạng phản hồi hỗ trợ web, trong đó mô hình tập hợp, đánh giá và tích hợp các sự kiện cập nhật trước khi đưa ra câu trả lời. Tỷ lệ ảo giác có ý nghĩa thấp hơn khi truy xuất đang diễn ra.
- Điều quan trọng, khi các công cụ truy xuất không có sẵn hoặc bị vô hiệu hóa, tỷ lệ ảo giác tăng lên, cho thấy rằng sự tích hợp chặt chẽ của RAGâ cùng với việc đào tạo nội bộ được cải thiện là rất quan trọng để giảm thiểu nội dung sai trong các tình huống không có căn cứ.

Sử dụng công cụ được kết hợp chặt chẽ với sự trung thực của hệ thống: GPT-5 được đào tạo không bịa đặt thông tin khi thiếu tài nguyên truy xuất thiết yếu và bị điều kiện tiếp tục thừa nhận sự không chắc chắn hoặc từ chối thay vì các sự kiện ảo giác mà nó không thể chứng minh được.

Mô hình hoàn thành an toàn

GPT-5 áp dụng một phương pháp đào tạo an toàn mới được gọi là hoàn thành an toàn, phải vượt ra ngoài các phương pháp từ chối trước đó. Các tính năng chính bao gồm:
- Khi ý định của người dùng không rõ ràng hoặc khi thông tin có thể được sử dụng an toàn hoặc không an toàn, mô hình học cách tạo ra câu trả lời hữu ích nhất, không gây hại nhất có thể, ủng hộ các câu trả lời một phần hoặc trừu tượng đối với các từ chối không cần thiết hoặc cụ thể nguy hiểm.
-Đối với các lĩnh vực nhạy cảm, sử dụng kép (ví dụ: sinh học hoặc hóa học tiên tiến), mô hình chỉ cung cấp các câu trả lời cấp cao, giáo dục và giữ lại các chi tiết có thể cho phép lạm dụng có hại.
- Trong đánh giá có cấu trúc, GPT-5 trung thực hơn về những hạn chế của nó và nhiều khả năng giải thích lý do tại sao nó không thể trả lời một số truy vấn nhất định, thay thế cho việc vô tội vạ hoặc đoán bằng từ chối công khai hoặc hướng dẫn an toàn cho người dùng.

Khung này được củng cố bởi các phân loại luôn bật, giám sát thời gian chạy cho các dị thường hành vi và các đường ống thực thi mạnh mẽ được phát triển thông qua việc hợp tác màu đỏ và các bài tập mô hình hóa mối đe dọa với các đối tác an toàn dành riêng cho miền.

Lý do và sự lừa dối suy nghĩ của chuỗi

Một khía cạnh sáng tạo cao của hệ thống an toàn của GPT-5 là theo dõi chuỗi suy nghĩ:
- Mô hình khớp nối đường dẫn logic của nó trước khi hình thành câu trả lời cuối cùng. Điều này cho phép cả người đánh giá bên trong và bên ngoài (bao gồm các hệ thống tự động) kiểm tra lý do, phát hiện những bước nhảy vọt không được hỗ trợ và can thiệp vào các trường hợp phát minh tiềm năng.
-Trong quá trình phát triển, GPT-5 đã được đào tạo rõ ràng để nhận ra và tránh các kịch bản hoàn thành lừa đảo mà các mô hình trước đây có thể tự tin đưa ra thông tin tạo nên các yêu cầu không thỏa mãn, đặc biệt là khi dữ liệu hoặc công cụ quan trọng không có sẵn.

Tỷ lệ lỗi cho các hành vi lừa đảo như vậy đã giảm một nửa so với các thế hệ trước; Trong trường hợp hoàn thành nhiệm vụ bị ảo giác hoặc giả vờ gần 5% thời gian, GPT-5, đặc biệt là trong chế độ suy nghĩ, bây giờ chỉ trong hơn 2% trường hợp và thường đưa ra một lời giải thích rõ ràng về những hạn chế của nó.

Đánh giá mạnh mẽ, hợp tác màu đỏ và cải tiến liên tục

Các nỗ lực an toàn GPT-5 của Openai gấp trong sự nghiêm ngặt thực nghiệm đáng kể và thử nghiệm trực tiếp:
-Hệ thống được kiểm tra liên tục đối với các điểm chuẩn mới được thiết kế đặc biệt nhắm mục tiêu thực tế mở, mơ hồ và các trường hợp rủi ro tác động cao.
-Dành riêng cho các chuyên gia nội bộ và các cơ quan bên ngoài đã đưa ra các phản ứng mô hình trong các kịch bản sử dụng bất lợi và kép để khám phá các chế độ thất bại tinh tế, củng cố các biện pháp bảo vệ và kiểm tra căng thẳng các cơ chế trung thực.

Mỗi triển khai sản xuất được hỗ trợ bởi giám sát thời gian thực, cảnh báo các nhóm kỹ thuật và chính sách về các vấn đề và mô hình mới nổi trong ảo giác hoặc phản ứng không an toàn, cho phép giảm thiểu và đào tạo lại các chu kỳ nhanh chóng.

Hậu xử lý, giám sát con người và quy trình làm việc lai

Mặc dù tiến bộ kỹ thuật, người dùng OpenAI và doanh nghiệp khuyến nghị đánh giá nhiều lớp cho nội dung cổ phần cao:
- Thuật toán xử lý hậu kỳ chuyên dụng Các câu trả lời quét cho các khiếu nại không được hỗ trợ, đánh dấu các tuyên bố để xem xét dựa trên sự khác biệt với sự thật mặt đất hoặc số liệu tin cậy bất thường.
- Nhiều tổ chức hiện sử dụng các quy trình biên tập lai, kết hợp khả năng soạn thảo nhanh chóng của GPT-5 với đánh giá của con người, đặc biệt quan trọng trong báo chí, luật, chăm sóc sức khỏe và thương mại. Kiến trúc con người trong vòng lặp này làm giảm đáng kể nguy cơ ảo giác tinh tế thoát ra thành nội dung của người dùng cuối.
- Hơn nữa, các công cụ thống kê được sử dụng để theo dõi và phân tích các mô hình ảo giác theo thời gian, cho phép cả mô hình cơ bản thông qua các trường hợp sử dụng liên tục và sử dụng hạ nguồn để thích nghi.

Trung thực, giáo dục người dùng và từ chối ảo giác

Triết lý thiết kế an toàn của GPT-5 mở rộng vào giao tiếp người dùng cuối:
- Người dùng được giáo dục rõ ràng để cả đòn bẩy và đánh giá phê bình đầu ra AI, được nhận thức về nguy cơ ảo giác liên tục - ngay cả khi giảm tỷ lệ mắc bệnh.
- Khi hệ thống phát hiện cơ hội đáng kể để tạo ra một thực tế không được hỗ trợ, nó sẽ truyền đạt giới hạn này một cách rõ ràng, đôi khi cung cấp hướng dẫn về nơi có thể lấy thông tin được xác minh hoặc khuyến khích người dùng kiểm tra kỹ trong các lĩnh vực quan trọng.
-GPT-5 đáng chú ý ít có khả năng chịu thua-một sự tôn trọng quá mức mà trong quá khứ đã dẫn các mô hình trước đó xác nhận hoặc phát minh ra thông tin có vẻ hợp lý dưới tên sự hài lòng của người dùng.

Hạn chế và những thách thức đang diễn ra

Bất chấp những tiến bộ này, một số hạn chế và các lĩnh vực quan tâm vẫn còn:
- phụ thuộc web và truy xuất: Độ chính xác thực tế cao nhất khi các công cụ truy xuất được bật; Trong hoạt động chỉ có kiến thức nội bộ thuần túy, tỷ lệ ảo giác vẫn có thể là đáng kể, với ảo giác lên tới 40% trong một số cài đặt QA mở nhất định.
- Các chế độ thất bại im lặng: Một số lỗi, chẳng hạn như trốn tránh hệ thống (trong đó mô hình lệch hoặc tránh một truy vấn nhạy cảm dưới vỏ bọc của một lỗi), có thể ngấm ngầm và khó phát hiện hơn so với ảo giác đơn giản.
-Hiệu chuẩn trường hợp cạnh: Các hành vi tinh tế, không mong muốn thỉnh thoảng xuất hiện trong các miền dữ liệu thấp hoặc đối nghịch. Những điều này yêu cầu hợp tác màu đỏ liên tục, nghiên cứu an toàn và điều chỉnh cả chính sách mô hình và quản lý.

Phần kết luận

Tóm lại, các hệ thống thu hồi và an toàn của GPT-5 sử dụng một chồng các phương pháp tiếp cận công phu, dựa trên bằng chứng để giảm đáng kể các sự kiện được phát minh:
- Một kiến trúc mô -đun, được định tuyến thích ứng chọn các tài nguyên tốt nhất cho mỗi truy vấn.
-Căn cứ thế hệ được truy xuất nâng cao Câu trả lời trong các nguồn cập nhật, có thẩm quyền.
-Mô hình hoàn thành an toàn, lý luận chuỗi suy nghĩ và các bộ lọc trung thực thời gian thực tiếp tục ngăn chặn nội dung không được hỗ trợ và làm rõ sự không chắc chắn.
- Đánh giá cảnh giác, hợp tác màu đỏ và một đường ống mạnh mẽ cho cả đánh giá tự động và con người hoàn thành một chiến lược an toàn toàn diện.

Mặc dù không có mô hình ngôn ngữ lớn nào hoàn toàn không có ảo giác, nhưng thiết kế tinh vi của GPT-5 và sự thích ứng liên tục thiết lập một chuẩn mực mới trong việc giảm thiểu các sự kiện được phát minh và tối đa hóa tương tác AI thông tin, đáng tin cậy.

Làm thế nào để hệ thống an toàn và truy xuất GPT-5 ngăn chặn các sự kiện được phát minh