¿Cómo funciona la escala deslizante en el modelo de Anthrope?

Antropic emplea una "política de escala responsable" (RSP) para gestionar los riesgos vinculados a modelos AI cada vez más capaces [5]. Esta política utiliza un marco llamado niveles de seguridad de IA (ASL), inspirándose en los estándares de nivel de bioseguridad del gobierno de los EE. UU. Para manejar materiales biológicos peligrosos [5]. El marco ASL está diseñado para implementar los estándares de seguridad y operaciones adecuados para el potencial de un modelo de riesgo catastrófico, con niveles de ASL más altos que requieren demostraciones de seguridad más estrictas [5].

Los mejores modelos actuales de Anthrope están en ASL-2 [4]. La compañía define las medidas de contención y implementación para ASL-2 y ASL-3, y se compromete a definir las medidas de seguridad ASL-4 antes de capacitar a los modelos ASL-3 [4]. ASL-1 se refiere a sistemas que no representan un riesgo catastrófico significativo [5].

Anthrope también se invierte en la interpretabilidad mecanicista, lo que implica diseccionar y comprender el funcionamiento interno de los sistemas de IA, particularmente los modelos de aprendizaje profundo, en un esfuerzo por hacer que el comportamiento de la IA sea más predecible y comprensible [5].

Citas:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-large-contextwindows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.prompptitude.io/en/articles/8892919-enterstanding-anthricic-models-a-simple-guide
[7] https://www.anthropic.com/news/ANTROPICS-RESPONSIBLE-ScALING-POLICY
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-responsible-scaling-policy

Respuesta de Perplexity: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output