Técnicas usadas por classificadores de segurança para identificar conteúdo nocivo nos sistemas de IA

Quais técnicas específicas os classificadores de segurança usam para sinalizar conteúdo prejudicial

Os classificadores de segurança empregam várias técnicas para sinalizar conteúdo prejudicial, garantindo que os sistemas de IA, especialmente modelos de idiomas grandes, possam identificar e mitigar material inseguro ou ofensivo. Aqui estão algumas das técnicas específicas usadas:

1. Modelos de aprendizado de máquina: os classificadores de segurança geralmente utilizam modelos de aprendizado de máquina como o Distilbert, que podem ser ajustados em conjuntos de dados contendo exemplos de avisos seguros e prejudiciais. Esses modelos aprendem a classificar os prompts de entrada como seguros ou prejudiciais com base em padrões nos dados de treinamento [3].

2. Os modelos de Prompt Adversário (APS): os modelos APS são treinados em diversos conjuntos de dados, como comentários tóxicos da Wikipedia (WTC), fixo de construção-it-it-it (BBF), diálogo de bots-adversas (mau), as tentativas de tite antrópica (BRAT), e robôs-adversas, sem nóiais), as tentativas de time vermelho), e o robôs-adversário-nóigue), as tentativas de robustez (robusta) e o robôs-nóiogo (robusto), o robôs-adversário (Bad), as tentativas de time vermelho), e o robôs-nóiogo-nóiogo (bad), o robôs-nóiogo (Bad), as tentativas de time vermelho), e o robôs-de-robusto e o bastão no diaisogogongogo). Esses modelos ajudam a identificar e mitigar o conteúdo prejudicial, sendo expostos a uma ampla gama de ataques em potencial [1].

3. Filtros de conteúdo configuráveis: esses filtros avaliam o conteúdo com base em categorias de danos predefinidos, como discurso de ódio, assédio, conteúdo sexualmente explícito e conteúdo perigoso. Eles atribuem pontuações quanto à probabilidade e gravidade do conteúdo ser prejudicial, permitindo limiares personalizáveis para bloquear o conteúdo [2].

4. Aprendizagem de poucas fotos: essa técnica permite que os sistemas de IA se adaptem rapidamente a novos tipos de conteúdo nocivo, alavancando um entendimento geral dos tópicos e aprendendo com exemplos mínimos rotulados. Ele permite que o sistema responda a formas em evolução de conteúdo nocivo com mais eficiência [5].

5. Conjuntos unificados para conteúdo sensível: os pesquisadores criam conjuntos de dados unificados que abrangem uma ampla gama de categorias sensíveis, incluindo linguagem conflitante, palavrões, material sexualmente explícito, conteúdo relacionado a medicamentos, auto-mutilação e spam. Esses conjuntos de dados ajudam a modelos de treinamento que podem detectar vários tipos de conteúdo nocivo sob uma única estrutura [4].

6. Escores de gravidade e probabilidade: os classificadores de IA usam os escores de probabilidade e gravidade para avaliar o dano potencial do conteúdo. A pontuação de probabilidade reflete a probabilidade de o conteúdo ser prejudicial, enquanto a pontuação da gravidade indica a magnitude dos danos. Esses escores são frequentemente discretizados em níveis como desprezíveis, baixos, médios e altos [2] [6].

7. Pós-processamento para justiça: técnicas como pós-processamento com reconhecimento de justiça são usadas para classificadores de segurança Debias. Isso é crucial porque os classificadores treinados em dados desequilibrados podem aprender vieses sociais, levando a resultados injustos. Os métodos de debiasing ajudam a garantir que os classificadores sejam mais equitativos em suas avaliações [8].

Citações:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-afety-filters
[3] https://github.com/aounon/Certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2