Làm thế nào để nhân học đảm bảo sự an toàn và độ tin cậy của mô hình AI lai của nó

Nhân học đảm bảo tính an toàn và độ tin cậy của AI thông qua một số biện pháp, bao gồm kiểm tra căng thẳng, giao thức an toàn và chính sách mở rộng có trách nhiệm [1]. Họ sử dụng các mức an toàn AI (ASL), được mô hình hóa sau mức an toàn sinh học, để xác định các biện pháp an toàn dựa trên các rủi ro tiềm ẩn [2] [3].

Các thành phần chính của phương pháp an toàn của nhân học:
* Chính sách mở rộng có trách nhiệm (RSP) Nhân loại sử dụng một hệ thống cấp độ an toàn AI (ASL) [3]. Nếu một hệ thống AI thể hiện các khả năng nguy hiểm nhất định, nhân học cam kết không triển khai nó hoặc đào tạo các mô hình mạnh mẽ hơn cho đến khi các biện pháp bảo vệ cụ thể được triển khai [3].
* Thử nghiệm thường xuyên kiểm tra nhân học thường xuyên cho các khả năng nguy hiểm theo định kỳ để đảm bảo rằng các khả năng nguy hiểm không được tạo ra vô tình [3].
* Đánh giá mô hình được thiết kế để phát hiện các khả năng nguy hiểm, các đánh giá này đóng vai trò là "dấu hiệu cảnh báo" bảo thủ để ngăn chặn vô tình vượt quá ngưỡng an toàn quan trọng [2]. Đánh giá có thể bao gồm nhiều giai đoạn khó khăn, trong đó các giai đoạn sau chỉ được chạy nếu các đánh giá trước đó cho thấy các dấu hiệu cảnh báo [2].
* Các cam kết về thủ tục Các ASL chỉ định những gì phải đúng với các mô hình và bảo mật của nhân học để cho phép đào tạo và triển khai an toàn [2].
* Giám sát và ghi nhật ký: Để sử dụng nội bộ, đầu ra được tạo và đầu vào tương ứng được ghi lại và giữ lại trong ít nhất 30 ngày. Các nhật ký này được theo dõi cho hoạt động bất thường và báo động được thực hiện nghiêm túc và trả lời kịp thời [2].
* Truy cập theo tầng: Trong các trường hợp hạn chế, các mô hình có khả năng liên quan đến tác hại thảm khốc có thể có sẵn cho một nhóm người dùng được chọn lọc với trường hợp sử dụng hợp pháp và có lợi, không thể tách rời khỏi các khả năng nguy hiểm, với điều kiện là có thể cấp quyền truy cập và với Đủ giám sát [2].
* Tính dễ bị tổn thương và tiết lộ sự cố: Nhân chủng học tham gia vào một quá trình công bố sự dễ bị tổn thương và sự cố với các phòng thí nghiệm khác (chịu các ràng buộc về bảo mật hoặc pháp lý) bao gồm kết quả của đội đỏ, các mối đe dọa an ninh quốc gia và các mối đe dọa sao chép tự trị [2].
* Phản ứng nhanh đối với các lỗ hổng mô hình: Khi được thông báo về lỗ hổng mô hình mới được phát hiện cho phép tác hại thảm khốc, nhân học cam kết giảm thiểu hoặc vá nó ngay lập tức [2].
* Kiểm soát hai bên: Áp dụng cho tất cả các hệ thống liên quan đến phát triển, đào tạo, lưu trữ và triển khai các mô hình AI Frontier, điều này liên quan đến một thiết kế hệ thống nơi không có người nào tiếp cận bền bỉ vào môi trường quan trọng sản xuất; Thay vào đó, họ phải yêu cầu truy cập giới hạn thời gian từ đồng nghiệp với sự biện minh kinh doanh [8].
* Các tính năng an toàn của người dùng Chúng bao gồm các mô hình phát hiện để gắn cờ nội dung có khả năng gây hại, bộ lọc an toàn trên các lời nhắc và các bộ lọc an toàn nâng cao cho người dùng liên tục vi phạm chính sách [7].

Anthropic cũng sử dụng các mô hình phát hiện để gắn cờ các bộ lọc an toàn và nội dung có hại trên các lời nhắc [7]. Họ đang tích cực đầu tư và thử nghiệm các tính năng an toàn bổ sung và cung cấp các công cụ để giảm thiểu tác hại và họ khuyến khích người dùng cung cấp phản hồi về các biện pháp này [7].

Trích dẫn:
[1] https:
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
.
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

Trả lời từ sự bối rối: https://www.perplexity.ai/search/how-does-anthropic-fere-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output