Les classificateurs de sécurité utilisent plusieurs techniques pour signaler un contenu nocif, garantissant que les systèmes d'IA, en particulier les modèles de langage, peuvent identifier et atténuer les matériaux dangereux ou offensants. Voici quelques-unes des techniques spécifiques utilisées:
1. Modèles d'apprentissage automatique: les classificateurs de sécurité utilisent souvent des modèles d'apprentissage automatique comme Distilbert, qui peuvent être affinés sur des ensembles de données contenant des exemples d'invites sûres et nocives. Ces modèles apprennent à classer les invites d'entrée comme sûres ou nocives en fonction des modèles des données de formation [3].
2. Shield inversaire invite (APS): les modèles APS sont formés sur divers ensembles de données tels que Wikipedia Toxic Commentaires (WTC), Build-it Break-It Fix-It (BBF), Bot-Adversarial Dialogue (BAD), Anthropic Red-Team Tusts (Red), et Bot-Adversarial-NO-Dialogue (Band) pour améliorer la robustesse de l'adversaire. Ces modèles aident à identifier et à atténuer le contenu nocif en étant exposé à un large éventail d'attaques potentielles [1].
3. Filtres de contenu configurables: ces filtres évaluent le contenu basé sur des catégories prédéfinies telles que la parole de haine, le harcèlement, le contenu sexuellement explicite et le contenu dangereux. Ils attribuent des scores pour la probabilité et la gravité du contenu nocif, permettant des seuils personnalisables pour bloquer le contenu [2].
4. Apprentissage à quelques coups: Cette technique permet aux systèmes d'IA de s'adapter rapidement à de nouveaux types de contenu nocif en tirant parti d'une compréhension générale des sujets et en apprenant à partir d'exemples minimaux étiquetés. Il permet au système de réagir plus efficacement aux formes d'évolution de contenu nocif [5].
5. ensembles de données unifiés pour le contenu sensible: les chercheurs créent des ensembles de données unifiés qui couvrent un large éventail de catégories sensibles, notamment le langage conflictuel, le blasphème, le matériel sexuellement explicite, le contenu lié à la drogue, l'automutilation et le spam. Ces ensembles de données aident à la formation de modèles qui peuvent détecter plusieurs types de contenu nocif dans un seul cadre [4].
6. Scores de gravité et de probabilité: les classificateurs d'IA utilisent à la fois les scores de probabilité et de gravité pour évaluer le préjudice potentiel du contenu. Le score de probabilité reflète la probabilité que le contenu soit nocif, tandis que le score de gravité indique l'ampleur du préjudice. Ces scores sont souvent discrétisés en niveaux tels que négligeable, faible, moyen et élevé [2] [6].
7. Post-traitement pour l'équité: des techniques comme le post-traitement consciente de l'équité sont utilisées pour Debias Safety Classificateurs. Ceci est crucial car les classificateurs formés aux données déséquilibrées peuvent apprendre les biais sociétaux, conduisant à des résultats injustes. Les méthodes de débias aident à garantir que les classificateurs sont plus équitables dans leurs évaluations [8].
Citations:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2