Techniki stosowane przez klasyfikatory bezpieczeństwa do identyfikacji szkodliwych treści w systemach AI

Jakie konkretne techniki wykorzystują klasyfikatory bezpieczeństwa do oznaczania szkodliwych treści

Klasyfikatory bezpieczeństwa wykorzystują kilka technik do oznaczania szkodliwych treści, zapewniając, że systemy AI, zwłaszcza duże modele językowe, mogą zidentyfikować i złagodzić niebezpieczny lub ofensywny materiał. Oto niektóre z określonych technik:

1. Modele uczenia maszynowego: Klasyfikatory bezpieczeństwa często wykorzystują modele uczenia maszynowego, takie jak Distilbert, które można dostrajać do zestawów danych zawierających przykłady bezpiecznych i szkodliwych podpowiedzi. Modele te uczą się klasyfikować podpowiedzi wejściowe jako bezpieczne lub szkodliwe w oparciu o wzorce w danych szkoleniowych [3].

2. Podpórka podpowiedź (APS): Modele APS są szkolone na różnych zestawach danych, takich jak toksyczne komentarze Wikipedia (WTC), Build-It Break-it Fix-IT (BBF), bot-adversarial dialog (zła), antropijne próby czerwonych drużyn (czerwone) i Bot-adversarial-noisy (pasmo) w celu rozebrania inwentarza na rzecz rozszerzenia prędkości. Modele te pomagają w identyfikowaniu i łagodzeniu szkodliwej treści poprzez narażanie się na szeroki zakres potencjalnych ataków [1].

3. Konfigurowalne filtry treści: filtry te oceniają treść oparta na predefiniowanych kategoriach szkód, takich jak mowa nienawiści, nękanie, treść seksualna i treści niebezpieczne. Przypisują wyniki zarówno dla prawdopodobieństwa, jak i nasilenia treści szkodliwej, umożliwiając dostosowywalne progi blokowania treści [2].

4. Uczenie się kilku strzałów: Ta technika pozwala systemom AI szybko dostosowywać się do nowych rodzajów szkodliwych treści poprzez wykorzystanie ogólnego zrozumienia tematów i uczenie się na podstawie minimalnych przykładów. Umożliwia systemowi bardziej efektywne reagowanie na ewoluujące formy szkodliwych treści [5].

5. Ujednolicone zestawy danych dla wrażliwych treści: badacze tworzą zunifikowane zestawy danych, które obejmują szeroki zakres wrażliwych kategorii, w tym język konfliktu, wulgaryzm, materiały seksualne, treści związane z narkotykami, samookaleczenie i spam. Te zestawy danych pomagają w szkoleniu modeli, które mogą wykrywać wiele rodzajów szkodliwych treści w jednym ramie [4].

6. Wyniki nasilenia i prawdopodobieństwa: Klasyfikatory AI wykorzystują zarówno prawdopodobieństwo, jak i wyniki nasilenia do oceny potencjalnej szkody treści. Wynik prawdopodobieństwa odzwierciedla, jak prawdopodobne jest, że treść będzie szkodliwa, podczas gdy wynik nasilenia wskazuje na wielkość szkody. Te wyniki są często dyskretyzowane na poziomy, takie jak nieistotne, niskie, średnie i wysokie [2] [6].

7. Przetwarzanie po uczciwości: Techniki takie jak uczciwość uświadamiające są przetwarzanie końcowe są wykorzystywane do klasyfikatorów bezpieczeństwa Debias. Ma to kluczowe znaczenie, ponieważ klasyfikatory przeszkoleni w zakresie niezrównoważonych danych mogą uczyć się uprzedzeń społecznych, co prowadzi do niesprawiedliwych wyników. Metody debiasowe pomagają zapewnić, że klasyfikatory są bardziej sprawiedliwe w swoich ocenach [8].

Cytaty:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2