Antropic garantiza la seguridad y confiabilidad de la IA a través de varias medidas, incluidas las pruebas de estrés, los protocolos de seguridad y una política de escala responsable [1]. Utilizan los niveles de seguridad de IA (ASL), modelados después de los niveles de bioseguridad, para determinar las medidas de seguridad basadas en riesgos potenciales [2] [3].
Componentes clave del enfoque de seguridad de Anthrope:
* Política de escala responsable (RSP) Antropic emplea un sistema de niveles de seguridad de IA (ASL) [3]. Si un sistema de IA demuestra ciertas capacidades peligrosas, Anthrope se compromete a no implementarlo o capacitar a modelos más poderosos hasta que se implementen salvaguardas específicas [3].
* Pruebas frecuentes de pruebas antrópicas con frecuencia para capacidades peligrosas a intervalos regulares para garantizar que las capacidades peligrosas no se creen sin saberlo [3].
* Evaluaciones de modelos diseñadas para detectar capacidades peligrosas, estas evaluaciones actúan como "señales de advertencia" conservadora para evitar accidentalmente exceder los umbrales de seguridad críticos [2]. Las evaluaciones pueden consistir en múltiples etapas de dificultad, donde las etapas posteriores se ejecutan solo si las evaluaciones anteriores muestran señales de advertencia [2].
* Compromisos de procedimiento El ASLS especifica lo que debe ser cierto de los modelos y la seguridad de Anthrope para permitir una capacitación e implementación seguras [2].
* Monitoreo y registro: para el uso interno, las salidas generadas y las entradas correspondientes se registran y se conservan durante al menos 30 días. Estos registros se monitorizan para obtener una actividad anormal, y las alarmas se toman en serio y se responden rápidamente [2].
* Acceso escalonado: en casos limitados, los modelos con capacidades relevantes para el daño catastrófico pueden estar disponibles para un grupo selecto de usuarios examinados con un caso de uso legítimo y beneficioso que no se puede separar de las capacidades peligrosas, siempre que el acceso se pueda otorgar de manera segura y con Supervisión suficiente [2].
* Vulnerabilidad y divulgación de incidentes: Anthrope se involucra en un proceso de vulnerabilidad y divulgación de incidentes con otros laboratorios (sujetos a seguridad o limitaciones legales) que cubre los resultados de los teaming rojo, las amenazas de seguridad nacional y las amenazas de replicación autónoma [2].
* Respuesta rápida a las vulnerabilidades del modelo: cuando se informa de una vulnerabilidad del modelo recientemente descubierta que permite un daño catastrófico, Anthrope se compromete a mitigar o parcharlo de inmediato [2].
* Control bipartidista: aplicado a todos los sistemas involucrados en el desarrollo, capacitación, alojamiento y despliegue de modelos de IA fronteriza, esto involucra un diseño de sistema donde ninguna persona tiene acceso persistente a entornos críticos de producción; En cambio, deben solicitar acceso de tiempo limitado a un compañero de trabajo con una justificación comercial [8].
* Características de seguridad del usuario Estas incluyen modelos de detección para marcar contenido potencialmente dañino, filtros de seguridad en las indicaciones y los filtros de seguridad mejorados para los usuarios que violan repetidamente las políticas [7].
Anthrope también utiliza modelos de detección para marcar el contenido potencialmente dañino y los filtros de seguridad en las indicaciones [7]. Están invirtiendo activamente y experimentando con características de seguridad adicionales y proporcionando herramientas para mitigar el daño, y alientan a los usuarios a proporcionar comentarios sobre estas medidas [7].
Citas:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/Responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://acelerationeconomy.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-proach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security