Techniky používané klasifikátory bezpečnosti k identifikaci škodlivého obsahu v systémech AI

Jaké konkrétní techniky používají klasifikátory bezpečnosti k označení škodlivého obsahu

Bezpečnostní klasifikátory využívají několik technik k označení škodlivého obsahu a zajišťují, že systémy AI, zejména velké jazykové modely, mohou identifikovat a zmírnit nebezpečný nebo urážlivý materiál. Zde jsou některé z použitých konkrétních technik:

1. Modely strojového učení: Klasifikátory bezpečnosti často využívají modely strojového učení, jako je Distilbert, které lze na datové sadě vyladit na datových sadách obsahujících příklady bezpečných a škodlivých výzev. Tyto modely se učí klasifikovat vstupní výzvy jako bezpečné nebo škodlivé na základě vzorců v datech tréninku [3].

2. Adverziální výzvy štít (APS): APS modely jsou vyškoleny na různých datových souborech, jako jsou toxické komentáře Wikipedia (WTC), Build-It Break-It Fix-It (BBF), bot-adverzního dialogu (špatné), antropické pokusy červeného týmu (červená) (červená) (červená) (červená) (červená) (červená) (červená) (červená) (červená) (červená) (červená) (červená) a červená) a červená) a červená) a červená). Tyto modely pomáhají při identifikaci a zmírnění škodlivého obsahu vystaveny široké škále potenciálních útoků [1].

3. Konfigurovatelné filtry obsahu: Tyto filtry hodnotí obsah na základě předdefinovaných kategorií škod, jako je nenávistná řeč, obtěžování, sexuálně explicitní obsah a nebezpečný obsah. Přiřazují skóre pro pravděpodobnost i závažnost obsahu, který je škodlivý, což umožňuje přizpůsobitelné prahové hodnoty pro blokování obsahu [2].

4. málo výukových učení: Tato technika umožňuje systémům AI rychle se přizpůsobit novým typům škodlivého obsahu využitím obecného porozumění tématům a učením z minimálních označených příkladů. Umožňuje systému efektivněji reagovat na vyvíjející se formy škodlivého obsahu [5].

5. Sjednocené datové sady pro citlivý obsah: Vědci vytvářejí sjednocené datové sady, které pokrývají širokou škálu citlivých kategorií, včetně konfliktního jazyka, vulgárnosti, sexuálně explicitního materiálu, obsahu souvisejícího s drogami, sebepoškozování a spam. Tyto datové sady pomáhají při školení modelů, které mohou detekovat více typů škodlivého obsahu v rámci jediného rámce [4].

6. Skóre závažnosti a pravděpodobnosti: Klasifikátory AI používají skóre pravděpodobnosti i závažnosti k vyhodnocení možného poškození obsahu. Skóre pravděpodobnosti odráží, jak je pravděpodobné, že obsah bude škodlivý, zatímco skóre závažnosti naznačuje velikost poškození. Tato skóre jsou často diskretizována do úrovní, jako je zanedbatelná, nízká, střední a vysoká [2] [6].

7. Následné zpracování spravedlivosti: Techniky, jako je následné zpracování, se používají k klasifikátorům bezpečnosti Debias. To je zásadní, protože klasifikátory vyškolené na nevyvážené údaje se mohou naučit společenské zkreslení, což vede k nespravedlivým výsledkům. Metody Debiasing pomáhají zajistit, aby klasifikátory byly ve svých hodnoceních spravedlivější [8].

Citace:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-sefety-filters
[3] https://github.com/aounon/certified-LLM-Safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2