Techniky používané klasifikátormi bezpečnosti na identifikáciu škodlivého obsahu v systémoch AI

Aké konkrétne techniky používajú klasifikátory bezpečnosti na označenie škodlivého obsahu

Klasifikátory bezpečnosti využívajú niekoľko techník na označenie škodlivého obsahu a zabezpečujú, aby systémy AI, najmä veľké jazykové modely, mohli identifikovať a zmierniť nebezpečný alebo útočný materiál. Tu sú niektoré z použitých špecifických techník:

1. Modely strojového učenia: Klasifikátory bezpečnosti často využívajú modely strojového učenia, ako je Distilbert, ktoré sa dajú doladiť na súboroch údajov obsahujúcich príklady bezpečných a škodlivých výziev. Tieto modely sa učia klasifikovať vstupné výzvy ako bezpečné alebo škodlivé na základe vzorov v údajoch o tréningu [3].

2. Kontradiktórny rýchly štít (APS): Modely APS sú vyškolené na rôznych súboroch údajov, ako sú toxické komentáre Wikipedia (WTC), Build-IT Break-IT Fix-IT (BBF), BOT-edversarial dialóg (BAD), pokusy o antropiu červeného tímu (červené) a BOT-edersarial-noisy-noisy-Dialogue (Band) proti zvyšovaniu robustného spustenia. Tieto modely pomáhajú pri identifikácii a zmierňovaní škodlivého obsahu tým, že sú vystavené širokej škále potenciálnych útokov [1].

3. Konfigurovateľné filtre obsahu: Tieto filtre hodnotia obsah na základe preddefinovaných kategórií škôd, ako sú nenávistné reči, obťažovanie, sexuálne explicitný obsah a nebezpečný obsah. Priradia skóre za pravdepodobnosť a závažnosť toho, že obsah je škodlivý, čo umožňuje prispôsobiteľné prahové hodnoty blokovania obsahu [2].

4. MELÉ Učenie: Táto technika umožňuje systémom AI rýchlo sa prispôsobiť novým typom škodlivého obsahu využitím všeobecného porozumenia tém a učením sa z minimálnych označených príkladov. Umožňuje systému efektívnejšie reagovať na vyvíjajúce sa formy škodlivého obsahu [5].

5. Unifikované súbory údajov o citlivom obsahu: Vedci vytvárajú zjednotené súbory údajov, ktoré pokrývajú širokú škálu citlivých kategórií vrátane konfliktného jazyka, vulgárnosti, sexuálne explicitného materiálu, obsahu súvisiaceho s drogami, sebapoškodzovania a spamu. Tieto súbory údajov pomáhajú pri tréningových modeloch, ktoré dokážu zistiť viacero typov škodlivého obsahu v jednom rámci [4].

6. Závažnosť a pravdepodobnosť skóre: Klasifikátory AI používajú na vyhodnotenie potenciálneho poškodenia obsahu pravdepodobnosť aj závažnosť skóre. Skóre pravdepodobnosti odráža, ako je pravdepodobné, že obsah bude škodlivý, zatiaľ čo skóre závažnosti naznačuje veľkosť poškodenia. Tieto skóre sa často diskretizujú na úrovne, ako sú zanedbateľné, nízke, stredné a vysoké [2] [6].

7. Po spracovaní spravodlivosti: Techniky, ako je post-spracovanie, sa používajú na klasifikátory bezpečnosti debias. Je to rozhodujúce, pretože klasifikátory vyškolení na nevyvážené údaje sa môžu naučiť spoločenské zaujatosti, čo vedie k nespravodlivým výsledkom. Metódy debiasingu pomáhajú zabezpečiť, aby boli klasifikátori vo svojich hodnoteniach spravodlivejšie [8].

Citácie:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-Safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harmcatecories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705V2