Tehnike, ki jih varnostni klasifikatorji uporabljajo za prepoznavanje škodljive vsebine v sistemih AI

Katere posebne tehnike uporabljajo klasifikatorji varnosti za označevanje škodljive vsebine

Varnostni klasifikatorji uporabljajo več tehnik za označevanje škodljive vsebine in zagotavljajo, da lahko AI sistemi, zlasti veliki jezikovni modeli, prepoznajo in ublažijo nevarno ali žaljivo gradivo. Tu je nekaj uporabljenih specifičnih tehnik:

1. modeli strojnega učenja: Varnostni klasifikatorji pogosto uporabljajo modele strojnega učenja, kot je Distilbert, ki jih je mogoče natančno prilagoditi na nabore podatkov, ki vsebujejo primere varnih in škodljivih pozivov. Ti modeli se naučijo razvrščati vhodne pozive kot varne ali škodljive na podlagi vzorcev v podatkih o usposabljanju [3].

2. Adversarial Prompt Shield (APS): APS models are trained on diverse datasets such as Wikipedia Toxic Comments (WTC), Build-It Break-It Fix-It (BBF), Bot-Adversarial Dialogue (BAD), Anthropic Red-Team Attempts (Red), and Bot-Adversarial-Noisy-Dialogue (BAND) to enhance robustness against Adjemski pozivi. Ti modeli pomagajo pri prepoznavanju in ublažitvi škodljive vsebine, tako da so izpostavljeni številnemu potencialnemu napadu [1].

3. Konfigurabilni filtri vsebine: Ti filtri ocenjujejo vsebino na podlagi vnaprej določenih kategorij škode, kot so sovražni govor, nadlegovanje, spolno eksplicitna vsebina in nevarne vsebine. Dodelijo ocene za verjetnost in resnost vsebine, ki sta škodljiva, kar omogoča prilagodljive pragove za blokiranje vsebine [2].

4. Nekaj strelih: Ta tehnika omogoča, da se sistemi AI hitro prilagodijo novim vrstam škodljivih vsebin, tako da izkoristijo splošno razumevanje tem in učenje iz minimalnih označenih primerov. Sistem omogoča učinkovitejše odzivanje na razvijajoče se oblike škodljive vsebine [5].

5. Poenoteni nabori podatkov za občutljivo vsebino: Raziskovalci ustvarjajo poenotene nabore podatkov, ki pokrivajo široko paleto občutljivih kategorij, vključno s konfliktnim jezikom, nepristojnostjo, seksualno eksplicitnim materialom, vsebino, povezanim z drogami, samopoškodovanjem in neželeno pošto. Ti nabori podatkov pomagajo pri modelih usposabljanja, ki lahko zaznajo več vrst škodljive vsebine v enem samem okviru [4].

6. Resnice resnosti in verjetnosti: AI klasifikatorji uporabljajo tako verjetnostne kot resnosti ocene za oceno potencialne škode vsebine. Rezultat verjetnosti odraža, kako verjetno je vsebina škodljiva, medtem ko ocena resnosti kaže na velikost škode. Ti rezultati so pogosto diskretizirani na ravni, kot so zanemarljive, nizke, srednje in visoke [2] [6].

7. Post-obdelava za poštenost: Tehnike, kot je poštenost, ki se zaveda po predelavi, se uporabljajo za klasifikatorje varnosti Debias. To je ključnega pomena, ker se klasifikatorji, usposobljeni za neuravnotežene podatke, lahko naučijo družbenih pristranskosti, kar vodi do nepoštenih rezultatov. Metode debizije pomagajo zagotoviti, da so klasifikatorji bolj pravični pri svojih ocenah [8].

Navedbe:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832V2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tacles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705V2