Teknikker som brukes av sikkerhetsklassifiserere for å identifisere skadelig innhold i AI -systemer

Hvilke spesifikke teknikker bruker sikkerhetsklassifiserere for å flagge skadelig innhold

Sikkerhetsklassifiserere bruker flere teknikker for å flagge skadelig innhold, og sikrer at AI -systemer, spesielt store språkmodeller, kan identifisere og dempe utrygg eller støtende materiale. Her er noen av de spesifikke teknikkene som brukes:

1. Maskinlæringsmodeller: Sikkerhetsklassifiserere bruker ofte maskinlæringsmodeller som Distilbert, som kan finjusteres på datasett som inneholder eksempler på trygge og skadelige spørsmål. Disse modellene lærer å klassifisere inndatørshelter som trygge eller skadelige basert på mønstre i treningsdataene [3].

2. Adversarial Prompt Shield (APS): APS-modeller er opplært på forskjellige datasett som Wikipedia Toxic Comments (WTC), Build-It Break-It Fix-It (BBF), Bot-Adversarial Dialogue (Bad), Bandness Antropoge (Red) og Bot-adversarial-nyr-en-nyr-en-en-en-en-en-en-en-en-en-nyr-n-nyr-nyr-nyr-nyr-nyr-en-boble-motgangsanlegg (BBF), BBF), BBF), BBF). spørsmål. Disse modellene er med på å identifisere og avbøte skadelig innhold ved å bli utsatt for et bredt spekter av potensielle angrep [1].

3. Konfigurerbare innholdsfilter: Disse filtrene vurderer innhold basert på forhåndsdefinerte skadekategorier som hatefulle ytringer, trakassering, seksuelt eksplisitt innhold og farlig innhold. De tildeler score for både sannsynligheten og alvorlighetsgraden av innholdet som er skadelig, noe som gir mulighet for tilpassbare terskler for blokkering av innhold [2].

4. Få skuddlæring: Denne teknikken lar AI-systemer raskt tilpasse seg nye typer skadelig innhold ved å utnytte en generell forståelse av temaer og lære av minimale merkede eksempler. Det gjør det mulig for systemet å svare på utviklende former for skadelig innhold mer effektivt [5].

5. Unified Datasets for Sensitive Content: Forskere lager enhetlige datasett som dekker et bredt spekter av sensitive kategorier, inkludert konfliktspråk, banning, seksuelt eksplisitt materiale, medikamentrelatert innhold, selvskading og spam. Disse datasettene hjelper til med å trene modeller som kan oppdage flere typer skadelig innhold under et enkelt rammeverk [4].

6. Alvorlighetsgrad og sannsynlighetspoeng: AI -klassifiserere bruker både sannsynlighet og alvorlighetsgrad for å evaluere potensiell skade på innholdet. Sannsynlighetspoengene gjenspeiler hvor sannsynlig innholdet er å være skadelig, mens alvorlighetsgraden indikerer omfanget av skade. Disse score blir ofte diskretisert til nivåer som ubetydelige, lave, middels og høye [2] [6].

7. Etterbehandling for rettferdighet: Teknikker som rettferdighetsbevisste etterbehandling brukes til å debiere sikkerhetsklassifiserere. Dette er avgjørende fordi klassifiserere som er trent på ubalanserte data kan lære samfunnsskjevheter, noe som fører til urettferdige resultater. Debiasing -metoder er med på å sikre at klassifisererne er mer rettferdige i vurderingene [8].

Sitasjoner:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-lm-sikkerhet
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-category
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2