Làm thế nào để nhân học đảm bảo sự an toàn của các mô hình AI của nó

Nhân chủng học đảm bảo sự an toàn của các mô hình AI của nó thông qua nhiều kỹ thuật và chính sách khác nhau, bao gồm Chính sách tỷ lệ có trách nhiệm (RSP), Mức độ an toàn AI (ASL), bộ lọc an toàn và mô hình phát hiện [2] [5]. An toàn người dùng là trung tâm của sứ mệnh của nhân học để tạo ra các hệ thống AI đáng tin cậy, có thể hiểu được và có thể điều khiển được [5].

Các biện pháp an toàn chính:
* Chính sách mở rộng có trách nhiệm (RSP) đã phát triển RSP để quản lý các rủi ro liên quan đến các mô hình AI ngày càng có khả năng [2]. Chính sách này giới thiệu một khung gọi là Cấp độ an toàn AI (ASL), lấy cảm hứng từ các tiêu chuẩn cấp độ an toàn sinh học (BSL) của chính phủ Hoa Kỳ được sử dụng để xử lý các vật liệu sinh học nguy hiểm [2] [7]. RSP đã được chính thức chấp thuận bởi hội đồng của Anthropic và mọi thay đổi đối với chính sách cũng phải được Hội đồng phê duyệt [2].
* Mức an toàn AI (ASL) Khung ASL được thiết kế để đảm bảo rằng các tiêu chuẩn an toàn, bảo mật và hoạt động phù hợp với tiềm năng của một mô hình về rủi ro thảm khốc [2] [7]. Mức ASL cao hơn đòi hỏi các cuộc biểu tình nghiêm ngặt hơn về an toàn [2]. Chính sách này cân bằng giá trị kinh tế và xã hội của AI với nhu cầu giảm thiểu rủi ro nghiêm trọng, đặc biệt là những rủi ro thảm khốc có thể phát sinh từ việc sử dụng sai lầm hoặc hành vi phá hoại ngoài ý muốn của chính các mô hình [2].
* Bộ lọc an toàn Nhân học sử dụng các bộ lọc an toàn trên các lời nhắc, có thể chặn các phản hồi từ mô hình khi mô hình phát hiện của chúng gắn cờ nội dung là có hại [5]. Họ cũng có các bộ lọc an toàn nâng cao, cho phép chúng tăng độ nhạy của các mô hình phát hiện của chúng [5]. Nhân học có thể tạm thời áp dụng các bộ lọc an toàn nâng cao cho người dùng liên tục vi phạm chính sách của họ và xóa các điều khiển này sau một thời gian không có hoặc vài vi phạm [5].
* Các mô hình phát hiện nhân học sử dụng các mô hình phát hiện có liên quan đến nội dung có khả năng gây hại dựa trên chính sách sử dụng của chúng [5].

Bảo vệ bổ sung:
* Các biện pháp bảo vệ cơ bản Chúng bao gồm lưu trữ ID được liên kết với mỗi cuộc gọi API để xác định chính xác nội dung vi phạm cụ thể và gán ID cho người dùng để theo dõi các cá nhân vi phạm AUP của nhân học [1]. Họ cũng đảm bảo khách hàng hiểu sử dụng được phép và xem xét yêu cầu khách hàng đăng ký tài khoản trên nền tảng của họ trước khi sử dụng Claude [1].
* Bảo vệ trung gian Nhân học tạo ra các khung tùy chỉnh hạn chế các tương tác người dùng cuối với Claude thành một bộ nhắc nhở giới hạn hoặc chỉ cho phép Claude xem xét một kho kiến thức cụ thể, giảm khả năng người dùng tham gia vào hành vi vi phạm [1]. Chúng cũng cho phép các bộ lọc an toàn bổ sung, là công cụ kiểm duyệt thời gian thực miễn phí được xây dựng bởi Anthropic để giúp phát hiện các lời nhắc có khả năng gây hại và quản lý các hành động thời gian thực để giảm tác hại [1].
* Các biện pháp bảo vệ nâng cao chạy API kiểm duyệt đối với tất cả các lời nhắc của người dùng cuối trước khi chúng được gửi đến Claude đảm bảo chúng không có hại [1].
* Các biện pháp bảo vệ toàn diện đã thiết lập một hệ thống đánh giá nội bộ của con người để gắn cờ các lời nhắc được đánh dấu bởi Claude hoặc API điều độ là có hại, vì vậy họ có thể can thiệp để hạn chế hoặc loại bỏ người dùng có tỷ lệ vi phạm cao [1].

Nhân chủng học cũng cam kết về độ tin cậy và khả năng diễn giải của các hệ thống AI của nó, đạt được thông qua nghiên cứu nghiêm ngặt và áp dụng các kỹ thuật an toàn tiên tiến [2]. Một bước đột phá đáng kể trong khả năng diễn giải là việc sử dụng các bộ điều chỉnh tự động thưa thớt của nhân học cho 'trích xuất tính năng đơn sắc', giúp đơn giản hóa các mạng thần kinh phức tạp thành các thành phần dễ hiểu [2].

Trích dẫn:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
.
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhKr5KtvdJRssMeJ3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=E6_X0ZOXVVI
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Trả lời từ sự bối rối: https://www.perplexity.ai/search/how-does-anthropic-ferure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output