Technieken die door veiligheidsclassificaties worden gebruikt om schadelijke inhoud in AI -systemen te identificeren

Welke specifieke technieken gebruiken veiligheidsclassificaties om schadelijke inhoud te markeren

Veiligheidsclassificaties gebruiken verschillende technieken om schadelijke inhoud te markeren, zodat AI -systemen, met name grote taalmodellen, onveilig of aanstootgevend materiaal kunnen identificeren en verminderen. Hier zijn enkele van de specifieke technieken die worden gebruikt:

1. Modellen voor machine learning: veiligheidsclassificaties gebruiken vaak machine learning-modellen zoals Distilbert, die kunnen worden verfijnd op datasets met voorbeelden van veilige en schadelijke aanwijzingen. Deze modellen leren invoerprompts te classificeren als veilig of schadelijk op basis van patronen in de trainingsgegevens [3].

2. Adversarial Prompt Shield (APS): APS-modellen zijn getraind op diverse datasets zoals Wikipedia Toxic Reacties (WTC), Build-It Break-It Fix-It (BBF), BOT-Doersarial Dialogue (Bad), Anthropic Red-Team Pogns (Red) en Bot-Adversarial-Doisial-Dialogue (Band) To Twance Robustness To Ticversarial Procks. Deze modellen helpen bij het identificeren en verzachten van schadelijke inhoud door te worden blootgesteld aan een breed scala aan potentiële aanvallen [1].

3. Configureerbare contentfilters: deze filters beoordelen inhoud op basis van vooraf gedefinieerde schadecategorieën zoals haatspraak, intimidatie, seksueel expliciete inhoud en gevaarlijke inhoud. Ze wijzen scores toe voor zowel de waarschijnlijkheid als de ernst van de inhoud die schadelijk is, waardoor aanpasbare drempels mogelijk zijn voor het blokkeren van inhoud [2].

4. Weinig-shot leren: deze techniek stelt AI-systemen in staat om zich snel aan te passen aan nieuwe soorten schadelijke inhoud door gebruik te maken van een algemeen begrip van onderwerpen en leren uit minimale gelabelde voorbeelden. Het stelt het systeem in staat om te reageren op evoluerende vormen van schadelijke inhoud efficiënter [5].

5. Unified Datasets voor gevoelige inhoud: onderzoekers maken uniforme datasets die een breed scala aan gevoelige categorieën bestrijken, waaronder conflicterende taal, godslastering, seksueel expliciet materiaal, drugsgerelateerde inhoud, zelfbeschadiging en spam. Deze datasets helpen bij trainingsmodellen die meerdere soorten schadelijke inhoud kunnen detecteren onder een enkel framework [4].

6. Ernst- en waarschijnlijkheidsscores: AI -classificaties gebruiken zowel waarschijnlijkheid als ernstscores om de mogelijke schade van inhoud te evalueren. De waarschijnlijkheidsscore weerspiegelt hoe waarschijnlijk dat de inhoud schadelijk is, terwijl de ernstscore de omvang van schade aangeeft. Deze scores worden vaak gediscretiseerd in niveaus zoals verwaarloosbaar, laag, gemiddeld en hoog [2] [6].

7. Nutverwerking voor billijkheid: technieken zoals billijkheidsbewuste nabewerking worden gebruikt om veiligheidsclassificaties van veiligheid te debaseren. Dit is cruciaal omdat classificaties die zijn getraind op onevenwichtige gegevens maatschappelijke vooroordelen kunnen leren, wat leidt tot oneerlijke resultaten. Debiasmethoden helpen ervoor te zorgen dat de classificaties rechtvaardiger zijn in hun beoordelingen [8].

Citaten:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-System-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2