Teknikker, der bruges af sikkerhedsklassifikatorer til at identificere skadeligt indhold i AI -systemer

Hvilke specifikke teknikker bruger sikkerhedsklassifikatorer til at markere skadeligt indhold

Sikkerhedsklassifikatorer anvender flere teknikker til at markere skadeligt indhold, hvilket sikrer, at AI -systemer, især store sprogmodeller, kan identificere og afbøde usikkert eller stødende materiale. Her er nogle af de anvendte specifikke teknikker:

1. Maskinindlæringsmodeller: Sikkerhedsklassifikatorer bruger ofte maskinlæringsmodeller som Distilbert, som kan finjusteres på datasæt, der indeholder eksempler på sikre og skadelige prompter. Disse modeller lærer at klassificere input -prompter som sikre eller skadelige baseret på mønstre i træningsdataene [3].

2. Adversarial Prompt Shield (APS): APS-modeller er trænet på forskellige datasæt, såsom Wikipedia Toxic Comments (WTC), Build-It Break-It Fix-It (BBF), Bot-Aversarial Dialogue (Bad), Anthropic Red-Team Forsøg (rød) og bot-spidsarial-noisy-dialogue (bånd) til enhance til enhance mod robusthed mod modhed mod modhed mod mod entance mod mod entance mod mod mod entance mod mod mod mod mod mod entance mod mod mod mod mod entance mod mod entance mod en modhed mod modhed mod en modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modvægt mod mod enthed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modhed mod modvægt mod modvægt mod modvægt mod modvægt mod mod enthed mod enthed mod enhed mod modstridende anmodninger. Disse modeller hjælper med at identificere og afbøde skadeligt indhold ved at blive udsat for en lang række potentielle angreb [1].

3. Konfigurerbare indholdsfiltre: Disse filtre vurderer indhold baseret på foruddefinerede skaderekategorier såsom hadudtalelse, chikane, seksuelt eksplicit indhold og farligt indhold. De tildeler scoringer for både sandsynligheden og sværhedsgraden af, at indholdet er skadeligt, hvilket giver mulighed for tilpassede tærskler til blokering af indhold [2].

4. Få-shot-læring: Denne teknik giver AI-systemer mulighed for hurtigt at tilpasse sig nye typer skadeligt indhold ved at udnytte en generel forståelse af emner og læring af minimale mærkede eksempler. Det gør det muligt for systemet at reagere på at udvikle former for skadeligt indhold mere effektivt [5].

5. Unified Datasæt til følsomt indhold: Forskere skaber samlede datasæt, der dækker en bred vifte af følsomme kategorier, herunder konfliktmæssigt sprog, bande, seksuelt eksplicit materiale, narkotikarelateret indhold, selvskading og spam. Disse datasæt hjælper med træningsmodeller, der kan registrere flere typer skadeligt indhold under en enkelt ramme [4].

6. Alvorlighed og sandsynlighedsresultater: AI -klassifikatorer bruger både sandsynlighed og sværhedsgrad for at evaluere den potentielle skade på indholdet. Sandsynlighedsresultatet afspejler, hvor sandsynligt indholdet er at være skadeligt, mens sværhedsgraden indikerer størrelsen af skade. Disse scoringer diskretiseres ofte i niveauer såsom ubetydelige, lave, mellemstore og høje [2] [6].

7. Efterbehandling for retfærdighed: Teknikker som retfærdighedsbevidst efterbehandling bruges til Debias sikkerhedsklassifikatorer. Dette er afgørende, fordi klassifikatorer, der er trænet på ubalancerede data, kan lære samfundsmæssige partier, hvilket fører til urimelige resultater. Debiasing -metoder hjælper med at sikre, at klassifikatorerne er mere retfærdige i deres vurderinger [8].

Citater:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-i/generative-i/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-i-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2