Technikák, amelyeket a biztonsági osztályozók használnak az AI rendszerek káros tartalmának azonosítására

Milyen konkrét technikákat használnak a biztonsági osztályozók a káros tartalom megjelölésére

A biztonsági osztályozók számos technikát alkalmaznak a káros tartalom megjelölésére, biztosítva, hogy az AI rendszerek, különösen a nagy nyelvi modellek azonosítsák és enyhítsék a nem biztonságos vagy sértő anyagokat. Íme néhány használt technika:

1. Gépi tanulási modellek: A biztonsági osztályozók gyakran használnak olyan gépi tanulási modelleket, mint a Distilbert, amelyet finoman beállíthatunk az adatkészletekre, amelyek példákat tartalmaznak a biztonságos és káros utasításokról. Ezek a modellek megtanulják, hogy a bemeneti utasításokat biztonságosnak vagy károsként osztályozzák az edzési adatok mintái alapján [3].

2. Versverziói prompt pajzs (APS): Az APS modelleket különféle adatkészleteken, például a Wikipedia Toxic Comments (WTC), a Build-It Break-It Fix-IT (BBF), a BOT-Adversarial Párbeszéd (BAD), az Antropic Red-Te-kísérletek (RED) és a bot-Adversarialis-dialogue (sáv), az áfversarialis és a bot-adversarialis-dialogue (BAD) képzésére. Ezek a modellek elősegítik a káros tartalom azonosítását és enyhítését azáltal, hogy a lehetséges támadások széles skálájának vannak kitéve [1].

3. Konfigurálható tartalmi szűrők: Ezek a szűrők előre definiált káros kategóriák, például gyűlöletbeszéd, zaklatás, szexuálisan kifejezett tartalom és veszélyes tartalom alapján értékelik a tartalmat. Pontszámokat adnak mind a tartalom valószínűségének, mind súlyosságának, amely lehetővé teszi a testreszabható küszöbértékeket a tartalom blokkolásához [2].

4. Néhány lövés tanulás: Ez a technika lehetővé teszi az AI rendszerek számára, hogy gyorsan alkalmazkodjanak az új típusú káros tartalomhoz azáltal, hogy kihasználják a témák általános megértését és a minimális címkézett példákból való tanulást. Ez lehetővé teszi a rendszer számára, hogy hatékonyabban reagáljon a káros tartalom fejlődő formáira [5].

5. Egységes adatkészletek az érzékeny tartalomhoz: A kutatók egységes adatkészleteket hoznak létre, amelyek az érzékeny kategóriák széles skáláját fedik le, beleértve a konfliktusos nyelvet, az ostobaságot, a szexuálisan kifejezett anyagokat, a drogfüggő tartalmat, az önkárosodást és a spamet. Ezek az adatkészletek segítenek az edzési modellekben, amelyek egyetlen keretben képesek észlelni a káros tartalmak többféle típusát [4].

6. Súlyosság és valószínűségi pontszámok: Az AI osztályozók mind a valószínűségi, mind a súlyossági pontszámokat használják a tartalom lehetséges károsodásának értékelésére. A valószínűségi pontszám azt tükrözi, hogy a tartalom mennyire káros, míg a súlyossági pontszám a kár nagyságát jelzi. Ezeket a pontszámokat gyakran olyan szintekre diszkretizálják, mint az elhanyagolható, alacsony, közepes és magas [2] [6].

7. A méltányosság utófeldolgozása: Az olyan technikákat, mint a méltányosság-tudatos utófeldolgozás, a Debias biztonsági osztályozókhoz használják. Ez elengedhetetlen, mivel az egyensúlytalan adatokkal képzett osztályozók megtanulhatják a társadalmi torzításokat, ami tisztességtelen eredményekhez vezet. A debiasing módszerek segítenek abban, hogy az osztályozók méltányosabbak legyenek értékeléseikben [8].

Idézetek:
[1] https://aclantology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-karful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2