Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Какие конкретные методы используют классификаторы безопасности для помещения вредного контента


Какие конкретные методы используют классификаторы безопасности для помещения вредного контента


Классификаторы безопасности используют несколько методов для помещения вредного контента, гарантируя, что системы ИИ, особенно крупные языковые модели, могут идентифицировать и смягчить небезопасные или оскорбительные материалы. Вот некоторые из конкретных методов:

1. Модели машинного обучения: классификаторы безопасности часто используют модели машинного обучения, такие как Distilbert, которые можно точно настроить на наборе данных, содержащие примеры безопасных и вредных подсказок. Эти модели учатся классифицировать подсказки ввода как безопасные или вредные на основе моделей учебных данных [3].

2. Adversarial Rimple Shield (APS): модели APS обучаются на различных наборах данных, таких как токсичные комментарии Wikipedia (WTC), Build-It Break-It Fix-It (BBF), ботовой диалог (BAD), антропные попытки Red-Team (RED) и бота-соревнования-диалога (Band) для повышения кнопенности. Эти модели помогают в выявлении и смягчении вредного содержания, подвергаясь воздействию широкого спектра потенциальных атак [1].

3. Настраиваемые фильтры контента: эти фильтры оценивают контент на основе предопределенных категорий вреда, таких как ненавистнические речи, преследование, явное содержание сексуального доступа и опасное содержание. Они присваивают оценки как для вероятности, так и серьезности вредного содержания, что позволяет настраивать пороговые значения для блокирования контента [2].

4. Несколько выстрелов. Это позволяет системе более эффективно реагировать на развивающиеся формы вредного содержания [5].

5. Единые наборы данных для конфиденциального контента: исследователи создают унифицированные наборы данных, которые охватывают широкий спектр конфиденциальных категорий, включая конфликтный язык, ненормативную лексику, явные материалы, связанные с наркотиками, самоповреждение и спам. Эти наборы данных помогают в обучающих моделях, которые могут обнаружить несколько типов вредного контента в рамках одной структуры [4].

6. Серьезность и оценки вероятности: классификаторы ИИ используют как вероятность, так и оценки тяжести для оценки потенциального вреда содержания. Оценка вероятности отражает, насколько вероятно, что содержание будет вредным, в то время как оценка тяжести указывает на величину вреда. Эти оценки часто дискретизируются на такие уровни, как незначительные, низкие, средние и высокие [2] [6].

7. Пост-обработка для справедливости: такие методы, как справедливость, с учетом постобработки, используются для классификаторов безопасности Debias. Это очень важно, потому что классификаторы, обученные несбалансированным данным, могут изучить социальные предубеждения, что приводит к несправедливым результатам. Методы дебисирования помогают гарантировать, что классификаторы более справедливо в своих оценках [8].

Цитаты:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2