Tekniker som används av säkerhetsklassificerare för att identifiera skadligt innehåll i AI -system

Vilka specifika tekniker använder säkerhetsklassificerare för att flagga skadligt innehåll

Säkerhetsklassificerare använder flera tekniker för att flagga skadligt innehåll, vilket säkerställer att AI -system, särskilt stora språkmodeller, kan identifiera och mildra osäkert eller stötande material. Här är några av de specifika teknikerna som används:

1. Maskininlärningsmodeller: Säkerhetsklassificerare använder ofta maskininlärningsmodeller som Distilbert, som kan finjusteras på datasätt som innehåller exempel på säkra och skadliga instruktioner. Dessa modeller lär sig att klassificera inmatningsuppmaningar som säkra eller skadliga baserade på mönster i träningsdata [3].

2. Adversarial Prompt Shield (APS): APS models are trained on diverse datasets such as Wikipedia Toxic Comments (WTC), Build-It Break-It Fix-It (BBF), Bot-Adversarial Dialogue (BAD), Anthropic Red-Team Attempts (Red), and Bot-Adversarial-Noisy-Dialogue (BAND) to enhance robustness against adversarial prompts. Dessa modeller hjälper till att identifiera och mildra skadligt innehåll genom att utsättas för ett brett spektrum av potentiella attacker [1].

3. Konfigurerbara innehållsfilter: Dessa filter bedömer innehåll baserat på fördefinierade skadekategorier som hatprat, trakasserier, sexuellt uttryckligt innehåll och farligt innehåll. De tilldelar poäng för både sannolikheten och svårighetsgraden för att innehållet är skadligt, vilket möjliggör anpassningsbara trösklar för att blockera innehåll [2].

4. Få-skottinlärning: Denna teknik gör det möjligt för AI-system att snabbt anpassa sig till nya typer av skadligt innehåll genom att utnyttja en allmän förståelse för ämnen och lära av minimala märkta exempel. Det gör det möjligt för systemet att svara på utvecklande former av skadligt innehåll mer effektivt [5].

5. Unifierade datasätt för känsligt innehåll: Forskare skapar enhetliga datasätt som täcker ett brett utbud av känsliga kategorier, inklusive konfliktspråk, banning, sexuellt uttryckligt material, läkemedelsrelaterat innehåll, självskada och skräppost. Dessa datasätt hjälper till att träna modeller som kan upptäcka flera typer av skadligt innehåll under en enda ram [4].

6. Svårighets- och sannolikhetsresultat: AI -klassificerare använder både sannolikhets- och svårighetsresultat för att utvärdera den potentiella skadan på innehållet. Sannolikhetsresultatet återspeglar hur troligt innehållet är att vara skadligt, medan svårighetsgraden indikerar skadans storlek. Dessa poäng diskretiseras ofta i nivåer såsom försumbara, låga, medelstora och höga [2] [6].

7. Efterbehandling för rättvisa: Tekniker som rättvisa-medveten efterbehandling används för att debias säkerhetsklassificerare. Detta är avgörande eftersom klassificerare utbildade på obalanserade data kan lära sig samhällsfördomar, vilket kan leda till orättvisa resultat. Debiasing -metoder hjälper till att säkerställa att klassificerna är mer rättvisa i sina bedömningar [8].

Citeringar:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-wety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-category
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2