Os classificadores de segurança empregam várias técnicas para sinalizar conteúdo prejudicial, garantindo que os sistemas de IA, especialmente modelos de idiomas grandes, possam identificar e mitigar material inseguro ou ofensivo. Aqui estão algumas das técnicas específicas usadas:
1. Modelos de aprendizado de máquina: os classificadores de segurança geralmente utilizam modelos de aprendizado de máquina como o Distilbert, que podem ser ajustados em conjuntos de dados contendo exemplos de avisos seguros e prejudiciais. Esses modelos aprendem a classificar os prompts de entrada como seguros ou prejudiciais com base em padrões nos dados de treinamento [3].
2. Os modelos de Prompt Adversário (APS): os modelos APS são treinados em diversos conjuntos de dados, como comentários tóxicos da Wikipedia (WTC), fixo de construção-it-it-it (BBF), diálogo de bots-adversas (mau), as tentativas de tite antrópica (BRAT), e robôs-adversas, sem nóiais), as tentativas de time vermelho), e o robôs-adversário-nóigue), as tentativas de robustez (robusta) e o robôs-nóiogo (robusto), o robôs-adversário (Bad), as tentativas de time vermelho), e o robôs-nóiogo-nóiogo (bad), o robôs-nóiogo (Bad), as tentativas de time vermelho), e o robôs-de-robusto e o bastão no diaisogogongogo). Esses modelos ajudam a identificar e mitigar o conteúdo prejudicial, sendo expostos a uma ampla gama de ataques em potencial [1].
3. Filtros de conteúdo configuráveis: esses filtros avaliam o conteúdo com base em categorias de danos predefinidos, como discurso de ódio, assédio, conteúdo sexualmente explícito e conteúdo perigoso. Eles atribuem pontuações quanto à probabilidade e gravidade do conteúdo ser prejudicial, permitindo limiares personalizáveis para bloquear o conteúdo [2].
4. Aprendizagem de poucas fotos: essa técnica permite que os sistemas de IA se adaptem rapidamente a novos tipos de conteúdo nocivo, alavancando um entendimento geral dos tópicos e aprendendo com exemplos mínimos rotulados. Ele permite que o sistema responda a formas em evolução de conteúdo nocivo com mais eficiência [5].
5. Conjuntos unificados para conteúdo sensível: os pesquisadores criam conjuntos de dados unificados que abrangem uma ampla gama de categorias sensíveis, incluindo linguagem conflitante, palavrões, material sexualmente explícito, conteúdo relacionado a medicamentos, auto-mutilação e spam. Esses conjuntos de dados ajudam a modelos de treinamento que podem detectar vários tipos de conteúdo nocivo sob uma única estrutura [4].
6. Escores de gravidade e probabilidade: os classificadores de IA usam os escores de probabilidade e gravidade para avaliar o dano potencial do conteúdo. A pontuação de probabilidade reflete a probabilidade de o conteúdo ser prejudicial, enquanto a pontuação da gravidade indica a magnitude dos danos. Esses escores são frequentemente discretizados em níveis como desprezíveis, baixos, médios e altos [2] [6].
7. Pós-processamento para justiça: técnicas como pós-processamento com reconhecimento de justiça são usadas para classificadores de segurança Debias. Isso é crucial porque os classificadores treinados em dados desequilibrados podem aprender vieses sociais, levando a resultados injustos. Os métodos de debiasing ajudam a garantir que os classificadores sejam mais equitativos em suas avaliações [8].
Citações:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-afety-filters
[3] https://github.com/aounon/Certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2