Tehnici utilizate de clasificatorii de siguranță pentru identificarea conținutului dăunător în sistemele AI

Ce tehnici specifice folosesc clasificatorii de siguranță pentru a semnaliza conținutul dăunător

Clasificatorii de siguranță folosesc mai multe tehnici pentru a semnala conținut dăunător, asigurându -se că sistemele AI, în special modelele de limbaj mare, pot identifica și atenua materialele nesigure sau ofensive. Iată câteva dintre tehnicile specifice utilizate:

1. Modele de învățare automată: Clasificatorii de siguranță folosesc adesea modele de învățare automată precum Distilbert, care pot fi reglate bine pe seturi de date care conțin exemple de prompturi sigure și dăunătoare. Aceste modele învață să clasifice prompturile de intrare ca fiind sigure sau dăunătoare pe baza modelelor din datele de instruire [3].

2. Scutul prompt adversar (APS): Modelele APS sunt instruite pe seturi de date diverse, cum ar fi Wikipedia Toxic Comentarii (WTC), Build-It Break-It Fix-IT (BBF), Dialogul bot-adversarial (BAD), încercările rod-echipei antropice (roșu) și BOT-ADVERSARIAL-NOISY-DIALOG (BAND) pentru a îmbunătăți robustul BOT-ADVERSARIAL-NOISY-NOISY-DIALOG. Aceste modele ajută la identificarea și atenuarea conținutului dăunător, fiind expuse la o gamă largă de atacuri potențiale [1].

3. Filtre de conținut configurabil: Aceste filtre evaluează conținutul bazat pe categorii de daune predefinite, cum ar fi vorbirea de ură, hărțuire, conținut explicit sexual și conținut periculos. Aceștia atribuie scoruri atât pentru probabilitatea, cât și pentru severitatea conținutului dăunător, permițând praguri personalizabile pentru blocarea conținutului [2].

4. Învățare cu câteva fotografii: Această tehnică permite sistemelor AI să se adapteze rapid la noi tipuri de conținut dăunător, folosind o înțelegere generală a subiectelor și învățarea din exemple etichetate minime. Permite sistemului să răspundă la formele în evoluție de conținut dăunător mai eficient [5].

5. Seturi de date unificate pentru conținut sensibil: Cercetătorii creează seturi de date unificate care acoperă o gamă largă de categorii sensibile, inclusiv limbaj conflictual, profanitate, material explicit sexual, conținut legat de medicamente, auto-vătămare și spam. Aceste seturi de date ajută la modele de instruire care pot detecta mai multe tipuri de conținut dăunător într -un singur cadru [4].

6. Scoruri de severitate și probabilitate: Clasificatorii AI folosesc atât scoruri de probabilitate, cât și de severitate pentru a evalua potențialul daune al conținutului. Scorul de probabilitate reflectă cât de probabil este creată conținutul, în timp ce scorul de severitate indică amploarea daunelor. Aceste scoruri sunt adesea discretizate în niveluri precum neglijabile, scăzute, medii și mari [2] [6].

7. Post-procesare pentru echitate: tehnici precum post-procesare conștientă de echitate sunt folosite pentru clasificatorii de siguranță Debias. Acest lucru este crucial, deoarece clasificatorii instruiți pe date dezechilibrate pot învăța prejudecățile societății, ceea ce duce la rezultate nedrepte. Metodele de debasting ajută la asigurarea faptului că clasificatorii sunt mai echitabili în evaluările lor [8].

Citări:
[1] https://aclantology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-AI/generative-AI/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2