Drošības klasifikatoru izmantotie paņēmieni, lai identificētu kaitīgu saturu AI sistēmās

Kādas īpašas metodes izmanto drošības klasifikatorus, lai apzīmētu kaitīgu saturu

Drošības klasifikatori izmanto vairākas metodes, lai apzīmētu kaitīgu saturu, nodrošinot, ka AI sistēmas, īpaši lielas valodas modeļi, var identificēt un mazināt nedrošu vai aizskarošu materiālu. Šeit ir dažas no izmantotajām metodēm:

1. Mašīnmācīšanās modeļi: drošības klasifikatori bieži izmanto mašīnmācīšanās modeļus, piemēram, Distilbert, kurus var precīzi noregulēt datu kopās, kurās ir drošu un kaitīgu uzvedņu piemēri. Šie modeļi iemācās klasificēt ievades pamudinājumus kā drošu vai kaitīgu, pamatojoties uz apmācības datu modeļiem [3].

2. Starpsavienojuma uzvedums vairogs (APS): APS modeļi tiek apmācīti dažādās datu kopās, piemēram, Wikipedia toksiskos komentāros (WTC), Build-It pārtraukuma fiksēt (BBF), bot-adversariālais dialogs (slikts), antropisks rediģēšanas mēģinājums (sarkanā krāsā) un bot-adveriālais un-dialogs (Band) uz uzlabojumu) un bot-Adveriālais-noveco-dialogs (Band) uz uzlabošanu. Šie modeļi palīdz identificēt un mazināt kaitīgo saturu, tiek pakļauti plašam potenciālo uzbrukumu klāstam [1].

3. Konfigurējami satura filtri: Šie filtri novērtē saturu, pamatojoties uz iepriekš noteiktām kaitējuma kategorijām, piemēram, naida runu, uzmākšanos, seksuālu saturu un bīstamu saturu. Viņi piešķir rādītājus gan par kaitīgu satura varbūtību, gan smagumu, ļaujot pielāgot satura bloķēšanai [2].

4. Mācīšanās maz. Tas ļauj sistēmai efektīvāk reaģēt uz attīstītajām kaitīgā satura veidiem [5].

5. Sensitīva satura vienotas datu kopas: Pētnieki izveido vienotas datu kopas, kas aptver plašu sensitīvu kategoriju klāstu, ieskaitot konfliktu valodu, rupjību, seksuālu materiālu, ar narkotikām saistītu saturu, paškaitējumu un surogātpastu. Šīs datu kopas palīdz apmācības modeļos, kas vienā ietvarā var noteikt vairāku veidu kaitīga satura veidus [4].

6. Smaguma un varbūtības rādītāji: AI klasifikatori izmanto gan varbūtības, gan smaguma rādītājus, lai novērtētu satura iespējamo kaitējumu. Varbūtības rādītājs atspoguļo to, cik iespējams, saturs ir kaitīgs, savukārt smaguma rādītājs norāda uz kaitējuma lielumu. Šie rādītāji bieži tiek diskretizēti tādā līmenī kā nenozīmīgs, zems, vidējs un augsts [2] [6].

7. Taisnīguma pēcapstrāde: tādas metodes kā taisnīguma apzināšanās pēcapstrāde tiek izmantota, lai debiētu drošības klasifikatori. Tas ir ļoti svarīgi, jo klasifikatori, kas apmācīti par nelīdzsvarotiem datiem, var apgūt sabiedrības aizspriedumus, izraisot negodīgus rezultātus. Debiasing metodes palīdz nodrošināt, ka klasifikatori ir taisnīgāki novērtējumos [8].

Atsauces:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2