Técnicas utilizadas por clasificadores de seguridad para identificar contenido dañino en los sistemas de IA

¿Qué técnicas específicas utilizan los clasificadores de seguridad para marcar el contenido dañino?

Los clasificadores de seguridad emplean varias técnicas para marcar el contenido dañino, asegurando que los sistemas de IA, especialmente los modelos de idiomas grandes, puedan identificar y mitigar material inseguro u ofensivo. Estas son algunas de las técnicas específicas utilizadas:

1. Modelos de aprendizaje automático: los clasificadores de seguridad a menudo utilizan modelos de aprendizaje automático como Distilbert, que se pueden ajustar en conjuntos de datos que contienen ejemplos de indicaciones seguras y dañinas. Estos modelos aprenden a clasificar las indicaciones de entrada como seguras o dañinas según los patrones en los datos de entrenamiento [3].

2. Escudo de inmediato adversario (APS): los modelos APS están entrenados en diversos conjuntos de datos como Wikipedia Toxic Comments (WTC), Build-IT Break-It Fix-IT (BBF), diálogo adversario de boteses (Bad), intentos de los equipos rojos antropías (rojo) y botes de adversario-dialogado de la adversaridad) con la mayor oportunidad de recibir el robuste de la robusta. Estos modelos ayudan a identificar y mitigar el contenido dañino al estar expuestos a una amplia gama de ataques potenciales [1].

3. Filtros de contenido configurables: estos filtros evalúan el contenido en función de las categorías de daños predefinidos como el discurso de odio, el acoso, el contenido sexualmente explícito y el contenido peligroso. Asignan puntajes tanto para la probabilidad como para la gravedad del contenido que es dañino, lo que permite umbrales personalizables para bloquear el contenido [2].

4. Aprendizaje de pocos disparos: esta técnica permite que los sistemas de IA se adapten rápidamente a los nuevos tipos de contenido dañino al aprovechar una comprensión general de los temas y el aprendizaje de ejemplos etiquetados mínimos. Permite que el sistema responda a formas evolutivas de contenido dañino de manera más eficiente [5].

5. Conjuntos de datos unificados para contenido confidencial: los investigadores crean conjuntos de datos unificados que cubren una amplia gama de categorías confidenciales, que incluyen lenguaje conflictivo, blasfemias, material sexualmente explícito, contenido relacionado con drogas, autolesiones y spam. Estos conjuntos de datos ayudan en modelos de capacitación que pueden detectar múltiples tipos de contenido dañino en un solo marco [4].

6. Gravedad y puntajes de probabilidad: los clasificadores de IA utilizan puntajes de probabilidad y gravedad para evaluar el daño potencial del contenido. El puntaje de probabilidad refleja la probabilidad de que el contenido sea dañino, mientras que el puntaje de gravedad indica la magnitud del daño. Estos puntajes a menudo se discretizan en niveles como insignificante, bajo, medio y alto [2] [6].

7. Postprocesamiento para la justicia: las técnicas como el procesamiento posterior al consciente de la equidad se utilizan para los clasificadores de seguridad de Debias. Esto es crucial porque los clasificadores entrenados en datos desequilibrados pueden aprender sesgos sociales, lo que lleva a resultados injustos. Los métodos de Debiasing ayudan a garantizar que los clasificadores sean más equitativos en sus evaluaciones [8].

Citas:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/Metas-new-ai-system-tackles-darmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2