Đánh giá GPT-4.5: giảm thiểu rủi ro CBRN và thuyết phục

Hiệu quả của GPT-4.5 trong việc giảm thiểu rủi ro liên quan đến CBRN và thuyết phục

GPT-4.5 đã được đánh giá về hiệu quả của nó trong việc giảm thiểu rủi ro liên quan đến các mối đe dọa và thuyết phục về hóa học, sinh học, phóng xạ và hạt nhân (CBRN). Dưới đây là tổng quan chi tiết về khả năng và giảm thiểu của nó:

Rủi ro CBRN

GPT-4.5 được phân loại là rủi ro trung bình đối với các mối đe dọa CBRN. Phân loại này dựa trên các đánh giá đánh giá khả năng hỗ trợ của mô hình trong việc lập kế hoạch hoạt động tái tạo các mối đe dọa sinh học đã biết. Tuy nhiên, rủi ro này được coi là hạn chế bởi vì nó chủ yếu hỗ trợ các chuyên gia đã có chuyên môn về miền đáng kể [1].

Để giảm thiểu rủi ro CBRN, GPT-4.5 sử dụng một số chiến lược:

- Giảm thiểu trước đào tạo: Mô hình lọc dữ liệu liên quan đến sự tăng sinh CBRN có hạn chế hoặc không sử dụng hợp pháp. Điều này giúp giảm sự tiếp xúc của mô hình với thông tin nguy hiểm tiềm tàng [1].
- Model mạnh mẽ: GPT-4.5 được thiết kế để chịu được người dùng độc hại và đối nghịch bằng cách cải thiện khả năng chống lại các thao tác liên quan đến các mối đe dọa CBRN [1].
- Giám sát và phát hiện: Những nỗ lực chuyên dụng được thực hiện để giám sát và phát hiện các hoạt động liên quan đến các nhiệm vụ CBRN, đảm bảo rằng bất kỳ lạm dụng nào được xác định và giải quyết nhanh chóng [1].

Rủi ro thuyết phục

GPT-4.5 cũng mang chỉ định rủi ro trung bình để thuyết phục. Điều này là do hiệu suất tiên tiến của nó trong việc tạo ra nội dung thuyết phục, có thể được sử dụng để thao túng niềm tin hoặc hành động [2].

Để giải quyết các rủi ro thuyết phục, GPT-4.5 kết hợp các giảm thiểu sau:

- Đào tạo an toàn: Mô hình trải qua đào tạo cụ thể để xử lý các nhiệm vụ thuyết phục chính trị một cách có trách nhiệm, nhằm ngăn chặn việc lạm dụng để ảnh hưởng hoặc thao túng dư luận [1].
- Giám sát các hoạt động ảnh hưởng: Có sự giám sát và điều tra liên tục về các hành vi lạm dụng bị nghi ngờ liên quan đến các hoạt động ảnh hưởng, chủ nghĩa cực đoan và các hoạt động chính trị không đúng đắn. Điều này giúp xác định và giảm thiểu rủi ro thuyết phục tiềm năng [1].
- Xem xét lại các đánh giá thuyết phục: Openai đang đánh giá lại cách tiếp cận của mình để đánh giá các rủi ro thuyết phục trong thế giới thực, tập trung vào các yếu tố như cá nhân hóa nội dung, phân phối và trình bày theo thời gian [2].

Nhìn chung, trong khi GPT-4,5 đưa ra rủi ro trung bình cho cả CBRN và thuyết phục, nó sử dụng một bộ giảm thiểu mạnh mẽ để giảm thiểu các rủi ro này. Chúng bao gồm lọc nâng cao, đào tạo an toàn và giám sát liên tục để đảm bảo mô hình được sử dụng có trách nhiệm và an toàn.

Trích dẫn:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7EaDv6OaWHhXLAehUYu7Db/64e9f7916d3581ba4b5d0f0a6c5098d1/GPT-4-5_System_Card_2272025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-pec.openai.com
.
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc1079598/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o nào