Saugos klasifikatoriai naudoja keletą metodų kenksmingam turiniui pažymėti, užtikrindami, kad PG sistemos, ypač didelių kalbų modeliai, galėtų nustatyti ir sušvelninti nesaugią ar įžeidžiančią medžiagą. Čia yra keletas naudojamų konkrečių metodų:
1. Mašinų mokymosi modeliai: Saugos klasifikatoriai dažnai naudoja mašinų mokymosi modelius, tokius kaip „Distilbert“, kurie gali būti patobulinami duomenų rinkiniuose, kuriuose yra saugių ir kenksmingų raginimų pavyzdžių. Šie modeliai išmoksta įvesties raginimus klasifikuoti kaip saugius ar kenksmingus, remiantis mokymo duomenų modeliais [3].
2. Prieštaringas greitas skydas (APS): APS modeliai yra mokomi įvairių duomenų rinkinių, tokių kaip Vikipedijos toksiškos komentarai (WTC), „Build-It Break-It Fix-It“ (BBF), bot-atvermerinis dialogas (BAD), antropiniai raudonųjų komandų bandymai (raudona) ir „BoT-Reversarial-Noisy-Noisy-Dialogu“ (juosta), kad būtų galima sustiprinti robovą. Šie modeliai padeda nustatyti ir sušvelninti kenksmingą turinį, nes yra veikiami įvairių potencialių išpuolių [1].
3. Jie priskiria balus tiek su kenksmingu turinio tikimybe, tiek sunkumu, leisdami pritaikyti turinio blokavimo slenksčius [2].
4. Keletas šūvių mokymasis: Ši technika leidžia AI sistemoms greitai prisitaikyti prie naujų kenksmingų turinio tipų, panaudojant bendrą temų supratimą ir mokymąsi iš minimalių paženklintų pavyzdžių. Tai leidžia sistemai efektyviau reaguoti į kintančias kenksmingo turinio formas [5].
5. Vieningi neskelbtinų turinio duomenų rinkiniai: Tyrėjai sukuria vieningus duomenų rinkinius, apimančius platų jautrių kategorijų, įskaitant konfliktinę kalbą, nešvankybę, seksualinę medžiagą, su narkotikais susijusį turinį, savęs žalojimą ir šlamštą. Šie duomenų rinkiniai padeda mokymo modeliams, kurie gali aptikti kelių tipų kenksmingą turinį pagal vieną sistemą [4].
6. Sunkumo ir tikimybių balai: AI klasifikatoriai naudoja tikimybės ir sunkumo balus, kad įvertintų galimą turinio žalą. Tikimybės balas atspindi tai, kaip tikėtina, kad turinys bus kenksmingas, o sunkumo balas rodo žalos dydį. Šie balai dažnai yra diskretizuojami į tokius lygius kaip nereikšmingas, žemas, vidutinis ir aukštas [2] [6].
7. Sąžiningumo apdorojimas: Technikos, tokios kaip sąžiningumas, žinomas po apdorojimo, naudojami „Debias Safety“ klasifikatoriams. Tai labai svarbu, nes klasifikatoriai, mokomi nesubalansuotų duomenų, gali išmokti visuomenės šališkumo, ir tai lemia nesąžiningus rezultatus. DebiaSing metodai padeda užtikrinti, kad klasifikatoriai būtų teisingesni vertinant [8].
Citatos:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safetyfilters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705V2