Turvallisuusluokittelijoiden käyttämät tekniikat haitallisen sisällön tunnistamiseen AI -järjestelmissä

Mitä erityisiä tekniikoita turvallisuusluokittelijat käyttävät haitallisen sisällön liittämiseen

Turvallisuusluokittelijat käyttävät useita tekniikoita haitallisen sisällön liputtamiseksi varmistamalla, että AI -järjestelmät, etenkin suuret kielimallit, voivat tunnistaa ja lieventää vaarallista tai loukkaavaa materiaalia. Tässä on joitain käytettyjä erityisiä tekniikoita:

1. Koneoppimismallit: Turvallisuusluokittelijat käyttävät usein koneoppimista, kuten Distilbert, jotka voidaan hienosäätää tietojoukkoissa, jotka sisältävät esimerkkejä turvallisista ja haitallisista kehotuksista. Nämä mallit oppivat luokittelemaan syöttökehotteet turvallisiksi tai haitallisiksi harjoitustietojen kuvioiden perusteella [3].

2. Vilnallinen kehotus Shield (APS): APS-mallit koulutetaan erilaisiin tietojoukkoihin, kuten Wikipedia Toxic -kommentteihin (WTC), Build-it Break-it Fix-it (BBF), Bot-Adversarial Dialog (BAD), antropisten punaisten joukkueiden (Redsarial) ja Bot-Adversarial-nois-dialogue (band) kanssa, joka parantaa ryöstöä. Nämä mallit auttavat tunnistamaan ja lieventämään haitallista sisältöä altistumalla monille mahdollisille hyökkäyksille [1].

3. Konfiguroitavat sisällönsuodattimet: Nämä suodattimet arvioivat sisältöä ennalta määritettyjen haittoluokkien, kuten vihapuheen, häirinnän, seksuaalisen sisällön ja vaarallisen sisällön, perusteella. He osoittavat tulokset sekä sisällön todennäköisyydelle että vakavuudelle, mikä mahdollistaa muokattavien kynnysarvot sisällön estämiseksi [2].

4. Muutama laukaus oppiminen: Tämän tekniikan avulla AI-järjestelmät voivat sopeutua nopeasti uuden tyyppisiin haitallisiin sisältöihin hyödyntämällä yleistä ymmärrystä aiheista ja oppimisesta minimaalisista leimattuista esimerkeistä. Se antaa järjestelmälle mahdollisuuden reagoida haitallisen sisällön kehittyviin muodoihin tehokkaammin [5].

5. Herkän sisällön yhtenäiset tietojoukot: Tutkijat luovat yhtenäisiä tietojoukkoja, jotka kattavat laajan valikoiman arkaluontoisia luokkia, mukaan lukien ristiriitainen kieli, rumalaisuus, seksuaalisesti selkeä materiaali, huumeisiin liittyvä sisältö, itsensä vahingoittaminen ja roskapostin. Nämä tietojoukot auttavat koulutusmalleissa, jotka voivat havaita monen tyyppisiä haitallisia sisältöjä yhdessä kehyksen mukaisesti [4].

6. Vakavuus- ja todennäköisyyspisteet: AI -luokittelijat käyttävät sekä todennäköisyys- että vakavuuspisteitä sisällön mahdollisten haittojen arvioimiseksi. Todennäköisyyspiste heijastaa sitä, kuinka todennäköinen sisältö on haitallista, kun taas vakavuuspiste osoittaa haittojen suuruuden. Nämä pisteet diskreisoidaan usein tasoiksi, kuten vähäpätöiseksi, matalaksi, keskipitkällä ja korkealla [2] [6].

7. oikeudenmukaisuuden jälkikäsittely: Tekniikat, kuten oikeudenmukaisuustietoiset jälkikäsittely Tämä on ratkaisevan tärkeää, koska epätasapainoista tietoa koulutetut luokittelijat voivat oppia yhteiskunnallisia puolueellisuuksia, mikä johtaa epäreiluihin tuloksiin. Debiasing -menetelmät auttavat varmistamaan, että luokittelijat ovat arviointeissaan oikeudenmukaisempia [8].

Viittaukset:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-aai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system --tackles-harful-content/
.
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2