Методи, що використовуються класифікаторами безпеки для виявлення шкідливого вмісту в системах AI

Класифікатори безпеки використовують кілька методик для того, щоб позначити шкідливий вміст, забезпечуючи, щоб системи AI, особливо великі мови могли ідентифікувати та пом'якшити небезпечний або образливий матеріал. Ось кілька конкретних методик, що використовуються:

1. Моделі машинного навчання: Класифікатори безпеки часто використовують моделі машинного навчання, такі як Distilbert, які можуть бути тонко налаштовані на наборах даних, що містять приклади безпечних та шкідливих підказок. Ці моделі вчаться класифікувати вхідні підказки як безпечні або шкідливі на основі моделей навчальних даних [3].

2. Аверсаріальний підказний щит (APS): Моделі APS проходять підготовку на різноманітних наборах даних, таких як Wikipedia Toxic Comments (WTC), Build-It Break-IT (BBF), Bot-Adversarial (BAD), антропічні спроби червоного команд (відновлювань) та бот-адвокатські побої. Ці моделі допомагають визначити та пом'якшити шкідливий вміст, піддаючись широкому спектру потенційних атак [1].

3. Налаштовані фільтри вмісту: Ці фільтри оцінюють вміст на основі заздалегідь визначених категорій шкоди, таких як мова ненависті, домагання, сексуальний явний вміст та небезпечний контент. Вони присвоюють бали як для ймовірності, так і для тяжкості вмісту шкідливості, що дозволяє налаштувати пороги для блокування вмісту [2].

. Це дозволяє системі реагувати на розвиваючі форми шкідливого вмісту ефективніше [5].

5. Уніфіковані набори даних для чутливого вмісту: Дослідники створюють уніфіковані набори даних, які охоплюють широкий спектр чутливих категорій, включаючи конфліктну мову, нецензурну лексику, сексуальний матеріал, вміст, пов'язаний з наркотиками, самопошкодження та спам. Ці набори даних допомагають у навчальних моделях, які можуть виявити кілька типів шкідливого вмісту в одній основі [4].

6. Оцінки ступеня тяжкості та ймовірності: Класифікатори AI використовують як ймовірність, так і показники тяжкості для оцінки потенційної шкоди вмісту. Оцінка ймовірності відображає, наскільки ймовірно, що вміст може бути шкідливим, тоді як показник тяжкості вказує на величину шкоди. Ці бали часто дискретизуються на такі рівні, як незначні, низькі, середні та високі [2] [6].

7. Пост-обробка для справедливості: такі методи, як пошкодження справедливості, використовуються для класифікаторів безпеки Debias. Це має вирішальне значення, оскільки класифікатори, які навчаються на незбалансованих даних, можуть вивчити суспільні упередження, що призводить до несправедливих результатів. Методи дебіасування допомагають гарантувати, що класифікатори були більш справедливими в своїх оцінках [8].

Цитати:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2

Які конкретні методи використовують класифікатори безпеки для прапора шкідливого вмісту