拟人化如何确保其混合AI模型的安全性和可靠性

人类通过多种措施确保AI的安全性和可靠性，包括压力测试，安全协议和负责任的缩放策略[1]。他们利用以生物安全水平建模的AI安全水平（ASL）根据潜在风险来确定安全措施[2] [3]。

人类安全方法的关键组成部分：
*负责任的缩放策略（RSP）人类采用了AI安全级别（ASL）的系统[3]。如果AI系统表现出某些危险功能，则拟人化承诺不将其部署或训练更强大的模型，直到实施特定的保障措施[3]。
*经常进行人类测试经常针对危险功能定期进行，以确保不会在不知不觉中创建危险能力[3]。
*旨在检测危险功能的模型评估，这些评估是保守的“警告信号”，以防止意外超过关键的安全阈值[2]。评估可能包括多个难度阶段，仅在早期评估显示警告标志时，才能运行以后的阶段[2]。
*程序性承诺ASLS指定了人类模型和安全性必须是正确的，以允许安全的培训和部署[2]。
*监视和记录：对于内部使用，生成的输出和相应的输入将记录并保留至少30天。对这些日志进行了监控，以进行异常活动，并认真对待警报并迅速响应[2]。
*分层访问：在有限的情况下，具有与灾难性危害相关的能力的模型可能会为具有合法和有益用用的审查用户提供，只要可以安全且可以安全地允许访问权限。足够的监督[2]。
*脆弱性和事件披露：拟人化与其他实验室（受安全或法律约束）一起从事脆弱性和事件披露过程，涵盖了红色团队的结果，国家安全威胁和自治复制威胁[2]。
*对模型漏洞的快速响应：当知道新发现的模型脆弱性时，造成灾难性伤害时，人类的承诺会及时减轻或修补它[2]。
*两方控制：应用于Frontier AI模型的开发，培训，托管和部署的所有系统，这涉及系统设计，没有一个人能够持续访问关键生产至关重要的环境；取而代之的是，他们必须要求从具有业务理由的同事[8]请求限时的访问权限。
*用户安全功能这些功能包括检测模型，以标记潜在有害内容，提示上的安全过滤器以及对反复违反政策的用户增强的安全过滤器[7]。

人类还使用检测模型在提示上标记潜在的有害内容和安全过滤器[7]。他们正在积极投资并尝试其他安全功能并提供减轻伤害的工具，并鼓励用户就这些措施提供反馈[7]。

引用：
[1] https://myscale.com/blog/transformative-influence-anththropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaaade1cd4613/responsible-scaling-scaling-policy.pdf
[3] https://www.anththropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anththropic-leads-the-carge-in-ai-safety-and-performance/
[5] https://www.anththropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anththropics-ai-safety
[7] https://support.anththropic.com/en/articles/8106465-our-apphack-to-user-safety
[8] https://www.anththropic.com/news/frontier-model-security

答案来自困惑：https：//www.perplexity.ai/search/how-does-anthropic-enthropic-enthropic-eens-the-z927kvgrtc2t99qtutgsza?utm_source = copy_output