Anthropic assure la sécurité et la fiabilité de l'IA à travers plusieurs mesures, notamment les tests de stress, les protocoles de sécurité et une politique de mise à l'échelle responsable [1]. Ils utilisent les niveaux de sécurité de l'IA (ASL), modélisés après les niveaux de biosécurité, pour déterminer les mesures de sécurité en fonction des risques potentiels [2] [3].
Composants clés de l'approche de sécurité d'Anthropic:
* La politique de mise à l'échelle responsable (RSP) Anthropic utilise un système de niveaux de sécurité AI (ASL) [3]. Si un système d'IA démontre certaines capacités dangereuses, Anthropic s'engage à ne pas le déployer ou à former des modèles plus puissants jusqu'à la mise en œuvre de garanties spécifiques [3].
* Test fréquent des tests anthropes fréquemment pour des capacités dangereuses à intervalles réguliers pour garantir que les capacités dangereuses ne sont pas créées sans le savoir [3].
* Évaluations du modèle conçues pour détecter les capacités dangereuses, ces évaluations agissent comme des "signes d'avertissement" conservateurs pour éviter de dépasser accidentellement des seuils de sécurité critiques [2]. Les évaluations peuvent consister en plusieurs étapes de difficulté, où les stades ultérieurs sont exécutés uniquement si les évaluations antérieures montrent des signes avant-coureurs [2].
* Engagements de procédure Les ASL spécifient ce qui doit être vrai pour les modèles et la sécurité d'Anthropic pour permettre une formation et un déploiement sûr [2].
* Surveillance et journalisation: pour l'utilisation interne, les sorties générées et les entrées correspondantes sont enregistrées et conservées pendant au moins 30 jours. Ces journaux sont surveillés pour une activité anormale et les alarmes sont prises au sérieux et ont répondu rapidement [2].
* Accès à plusieurs niveaux: Dans des cas limités, des modèles avec des capacités pertinents pour les dommages catastrophiques peuvent être disponibles pour un groupe sélectionné d'utilisateurs approuvés avec un cas d'utilisation légitime et bénéfique qui ne peut pas être séparé des capacités dangereuses, à condition que l'accès puisse être accordé en toute sécurité et avec Suppression suffisante [2].
* Vulnérabilité et divulgation des incidents: Anthropic s'engage dans un processus de vulnérabilité et de divulgation d'incident avec d'autres laboratoires (sous réserve de sécurité ou de contraintes juridiques) qui couvre les résultats d'équipement rouge, les menaces de sécurité nationale et les menaces de réplication autonome [2].
* Réponse rapide aux vulnérabilités du modèle: lorsqu'elle est informée d'une vulnérabilité de modèle nouvellement découverte permettant un préjudice catastrophique, anthropic s'engage à l'atténuer ou à le patcher rapidement [2].
* Contrôle bipartite: appliqué à tous les systèmes impliqués dans le développement, la formation, l'hébergement et le déploiement de modèles d'IA frontaliers, cela implique une conception du système où aucune personne n'a un accès persistant aux environnements critiques de production; Au lieu de cela, ils doivent demander un accès limité dans le temps à partir d'un collègue avec une justification d'entreprise [8].
* Les fonctionnalités de sécurité des utilisateurs comprennent des modèles de détection pour signaler un contenu potentiellement nocif, des filtres de sécurité sur les invites et des filtres de sécurité améliorés pour les utilisateurs qui violent à plusieurs reprises les politiques [7].
Anthropic utilise également des modèles de détection pour signaler un contenu potentiellement nocif et des filtres de sécurité sur les invites [7]. Ils investissent activement et expérimentent des caractéristiques de sécurité supplémentaires et fournissent des outils pour atténuer les dommages, et ils encouragent les utilisateurs à fournir des commentaires sur ces mesures [7].
Citations:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/Responible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://acceléléénéconomy.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeheredeas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security