Làm thế nào để tính năng tỷ lệ trượt trong mô hình của nhân học hoạt động

Nhân học sử dụng "Chính sách mở rộng có trách nhiệm" (RSP) để quản lý các rủi ro liên quan đến các mô hình AI ngày càng có khả năng [5]. Chính sách này sử dụng một khung gọi là cấp độ an toàn AI (ASL), lấy cảm hứng từ các tiêu chuẩn cấp độ an toàn sinh học của chính phủ Hoa Kỳ để xử lý các vật liệu sinh học nguy hiểm [5]. Khung ASL được thiết kế để thực hiện các tiêu chuẩn an toàn, bảo mật và hoạt động phù hợp với tiềm năng của một mô hình về rủi ro thảm khốc, với mức ASL cao hơn đòi hỏi các cuộc biểu tình an toàn nghiêm ngặt hơn [5].

Các mô hình hiện tại tốt nhất của Anthropic là ASL-2 [4]. Công ty xác định các biện pháp ngăn chặn và triển khai cho ASL-2 và ASL-3, và cam kết xác định các biện pháp an toàn ASL-4 trước khi đào tạo các mô hình ASL-3 [4]. ASL-1 đề cập đến các hệ thống không gây ra rủi ro thảm khốc có ý nghĩa [5].

Nhân chủng học cũng được đầu tư vào khả năng diễn giải cơ học, liên quan đến việc mổ xẻ và hiểu các hoạt động nội bộ của các hệ thống AI, đặc biệt là các mô hình học tập sâu, trong nỗ lực làm cho hành vi AI dễ dự đoán hơn và dễ hiểu hơn [5].

Trích dẫn:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-large-context-windows
.
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-understanding-anthropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vAopGQhFPdjcA8CEh/anthropic-reflections-on-our-responsible-scaling-policy

Trả lời từ sự bối rối: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output