Классификаторы безопасности используют несколько методов для помещения вредного контента, гарантируя, что системы ИИ, особенно крупные языковые модели, могут идентифицировать и смягчить небезопасные или оскорбительные материалы. Вот некоторые из конкретных методов:
1. Модели машинного обучения: классификаторы безопасности часто используют модели машинного обучения, такие как Distilbert, которые можно точно настроить на наборе данных, содержащие примеры безопасных и вредных подсказок. Эти модели учатся классифицировать подсказки ввода как безопасные или вредные на основе моделей учебных данных [3].
2. Adversarial Rimple Shield (APS): модели APS обучаются на различных наборах данных, таких как токсичные комментарии Wikipedia (WTC), Build-It Break-It Fix-It (BBF), ботовой диалог (BAD), антропные попытки Red-Team (RED) и бота-соревнования-диалога (Band) для повышения кнопенности. Эти модели помогают в выявлении и смягчении вредного содержания, подвергаясь воздействию широкого спектра потенциальных атак [1].
3. Настраиваемые фильтры контента: эти фильтры оценивают контент на основе предопределенных категорий вреда, таких как ненавистнические речи, преследование, явное содержание сексуального доступа и опасное содержание. Они присваивают оценки как для вероятности, так и серьезности вредного содержания, что позволяет настраивать пороговые значения для блокирования контента [2].
4. Несколько выстрелов. Это позволяет системе более эффективно реагировать на развивающиеся формы вредного содержания [5].
5. Единые наборы данных для конфиденциального контента: исследователи создают унифицированные наборы данных, которые охватывают широкий спектр конфиденциальных категорий, включая конфликтный язык, ненормативную лексику, явные материалы, связанные с наркотиками, самоповреждение и спам. Эти наборы данных помогают в обучающих моделях, которые могут обнаружить несколько типов вредного контента в рамках одной структуры [4].
6. Серьезность и оценки вероятности: классификаторы ИИ используют как вероятность, так и оценки тяжести для оценки потенциального вреда содержания. Оценка вероятности отражает, насколько вероятно, что содержание будет вредным, в то время как оценка тяжести указывает на величину вреда. Эти оценки часто дискретизируются на такие уровни, как незначительные, низкие, средние и высокие [2] [6].
7. Пост-обработка для справедливости: такие методы, как справедливость, с учетом постобработки, используются для классификаторов безопасности Debias. Это очень важно, потому что классификаторы, обученные несбалансированным данным, могут изучить социальные предубеждения, что приводит к несправедливым результатам. Методы дебисирования помогают гарантировать, что классификаторы более справедливо в своих оценках [8].
Цитаты:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2