Comment fonctionne l'échelle de glissement dans le modèle d'Anthropic

Anthropic utilise une "politique de mise à l'échelle responsable" (RSP) pour gérer les risques liés à des modèles d'IA de plus en plus capables [5]. Cette politique utilise un cadre appelé niveau de sécurité AI (ASL), s'inspirant des normes de niveau de biosécurité du gouvernement américain pour gérer les matériaux biologiques dangereux [5]. Le cadre ASL est conçu pour mettre en œuvre des normes de sécurité, de sécurité et opérationnelles adaptées au potentiel de risque catastrophique d'un modèle, avec des niveaux ASL plus élevés nécessitant des démonstrations de sécurité plus strictes [5].

Les meilleurs modèles actuels d'Anthropic sont à ASL-2 [4]. L'entreprise définit les mesures de confinement et de déploiement pour ASL-2 et ASL-3, et elle s'engage à définir des mesures de sécurité ASL-4 avant de former les modèles ASL-3 [4]. ASL-1 fait référence à des systèmes qui ne présentent aucun risque catastrophique significatif [5].

Anthropic est également investi dans l'interprétabilité mécaniste, qui implique la dissection et la compréhension du fonctionnement interne des systèmes d'IA, en particulier les modèles d'apprentissage en profondeur, dans le but de rendre le comportement de l'IA plus prévisible et compréhensible [5].

Citations:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-lag --context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-sthropics-scaling-monosémité
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-Understanding-Shropic-Models-a-Simple-Guide
[7] https://www.anthropic.com/news/anthropics-raconsable-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-raconsable-scaling-policy

Réponse de la perplexité: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flsmynqgibu47rvk8b7g?utm_source=copy_output