Tehnikad, mida ohutusklassifikaatorid kasutavad AI -süsteemides kahjuliku sisu tuvastamiseks

Milliseid konkreetseid tehnikaid ohutusklassifikaatoreid kahjuliku sisu märgistamiseks kasutavad

Ohutusklassifikaatorid kasutavad kahjuliku sisu märgistamiseks mitmeid tehnikaid, tagades, et AI -süsteemid, eriti suured keelemudelid, suudaksid tuvastada ja leevendada ohtlikku või solvavat materjali. Siin on mõned konkreetsed kasutatud tehnikad:

1. masinõppe mudelid: ohutusklassifikaatorid kasutavad sageli masinõppe mudeleid nagu Distilbert, mida saab täpsustada andmekogumitega, mis sisaldavad ohutute ja kahjulike viipete näiteid. Need mudelid õpivad klassifitseerima sisendjuhid ohutute või kahjulikena koolitusandmete mustrite põhjal [3].

2. Kõrguskilb (APS): APS-mudelid on koolitatud mitmesuguste andmekogumite, näiteks Vikipeedia toksiliste kommentaaride (WTC), ehitamise break-it fix-it (BBF), bot-adversariaalse dialoogi (halva), antropiliste punaste meeskondade (punase) ja BOT-i-noisy-Dialogue'iga (Band) vastu. Need mudelid aitavad kahjulikku sisu tuvastada ja leevendada, puutudes kokku mitmesuguste võimalike rünnakutega [1].

3. Konfigureeritavad sisufiltrid: need filtrid hindavad sisu eelnevalt määratletud kahjukategooriate põhjal nagu vihakõne, ahistamine, seksuaalselt selgesõnaline sisu ja ohtlik sisu. Nad määravad hinded nii sisu tõenäosuse kui ka raskuse kohta, mis võimaldab sisu blokeerimiseks kohandatavaid lävesid [2].

4. Vähesed laskuvad õppimised: see tehnika võimaldab AI-süsteemidel kiiresti kohaneda uut tüüpi kahjuliku sisuga, võimendades teemasid üldise mõistmise ja minimaalsete märgistatud näidete õppimisega. See võimaldab süsteemil reageerida kahjuliku sisu arenevatele vormidele tõhusamalt [5].

5. Tundliku sisu ühtsed andmekogumid: teadlased loovad ühtsed andmekogumid, mis hõlmavad laia valikut tundlikke kategooriaid, sealhulgas konfliktiline keel, rüvetus, seksuaalselt selgesõnaline materjal, narkootikumide seotud sisu, enesevigastamine ja rämpspost. Need andmekogumid aitavad koolitada mudeleid, mis suudavad ühe raamistiku kohaselt tuvastada mitut tüüpi kahjulikku sisu [4].

6. Raskusaste ja tõenäosuse hinded: AI klassifikaatorid kasutavad sisu võimaliku kahju hindamiseks nii tõenäosust kui ka raskusastet. Tõenäosusskoor kajastab, kui tõenäoline on sisu kahjulik, samas kui raskusaste näitab kahju ulatust. Neid hindeid diskreetitakse sageli sellisteks tasemeteks nagu ebaoluline, madal, keskmine ja kõrge [2] [6].

7. Õigluse järeltöötlus: selliseid tehnikaid nagu õiglus-teadlik järeltöötlus kasutatakse Debiase ohutusklassifikaatoritega. See on ülioluline, kuna tasakaalustamata andmete osas koolitatud klassifikaatorid võivad õppida ühiskondlikke eelarvamusi, põhjustades ebaõiglasi tulemusi. Delatusmeetodid aitavad tagada, et klassifikaatorid on oma hinnangutes õiglasemad [8].

Tsitaadid:
[1] https://aclanthology.org/2024.woah-do-12.pdf
[2] https://cloud.google.com/vertex-ai/generatiiv-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
]
]
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2