I classificatori di sicurezza impiegano diverse tecniche per contrassegnare i contenuti dannosi, garantendo che i sistemi di intelligenza artificiale, in particolare i modelli di linguaggio di grandi dimensioni, possano identificare e mitigare il materiale non sicuro o offensivo. Ecco alcune delle tecniche specifiche utilizzate:
1. Modelli di apprendimento automatico: i classificatori di sicurezza utilizzano spesso modelli di apprendimento automatico come Distilbert, che possono essere messi a punto su set di dati contenenti esempi di istruzioni sicure e dannose. Questi modelli imparano a classificare i prompt di input come sicuri o dannosi in base ai modelli nei dati di addestramento [3].
2. Shield di prompt contraddittori (APS): i modelli APS sono addestrati su diversi set di dati come Wikipedia Tossic Commenti (WTC), Build-It Break-It Fix-It (BBF), Dialogo avversario Bot per migliorare la responsabilità. Questi modelli aiutano a identificare e mitigare il contenuto dannoso essendo esposti a una vasta gamma di potenziali attacchi [1].
3. Filtri di contenuto configurabili: questi filtri valutano il contenuto in base a categorie di danni predefiniti come discorsi di odio, molestie, contenuti sessualmente espliciti e contenuti pericolosi. Assegna punteggi sia per la probabilità che per la gravità del contenuto dannoso, consentendo soglie personalizzabili per bloccare il contenuto [2].
3 Consente al sistema di rispondere alle forme in evoluzione di contenuti dannosi in modo più efficiente [5].
5. Set di dati unificati per contenuti sensibili: i ricercatori creano set di dati unificati che coprono una vasta gamma di categorie sensibili, tra cui linguaggio conflittuale, volgarità, materiale sessualmente esplicito, contenuti legati alla droga, autolesionismo e spam. Questi set di dati aiutano nei modelli di formazione in grado di rilevare più tipi di contenuti dannosi in un singolo framework [4].
6. Punteggi di gravità e probabilità: i classificatori di intelligenza artificiale utilizzano i punteggi di probabilità e gravità per valutare il potenziale danno del contenuto. Il punteggio di probabilità riflette la probabilità che il contenuto sia dannoso, mentre il punteggio di gravità indica l'entità del danno. Questi punteggi sono spesso discretizzati in livelli come trascurabili, bassi, medi e alti [2] [6].
7. Post-elaborazione per equità: tecniche come la post-elaborazione consapevoli dell'equità vengono utilizzate per i classificatori di sicurezza Debias. Ciò è cruciale perché i classificatori addestrati su dati squilibrati possono imparare pregiudizi sociali, portando a risultati ingiusti. I metodi di debiasing aiutano a garantire che i classificatori siano più equa nelle loro valutazioni [8].
Citazioni:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2