AI sistemlerinde zararlı içeriği tanımlamak için güvenlik sınıflandırıcıları tarafından kullanılan teknikler

Güvenlik sınıflandırıcıları zararlı içeriği işaretlemek için hangi özel teknikler kullanıyor?

Güvenlik sınıflandırıcıları, AI sistemlerinin, özellikle büyük dil modellerinin, güvenli olmayan veya saldırgan materyalleri tanımlayabilmesini ve hafifletmesini sağlayarak zararlı içeriği işaretlemek için çeşitli teknikler kullanır. İşte kullanılan belirli tekniklerden bazıları:

1. Makine öğrenimi modelleri: Güvenlik sınıflandırıcıları genellikle Distilbert gibi makine öğrenme modellerini kullanır, bu da güvenli ve zararlı istemlerin örneklerini içeren veri kümelerinde ince ayar yapılabilir. Bu modeller, eğitim verilerindeki kalıplara dayanarak girdi istemlerini güvenli veya zararlı olarak sınıflandırmayı öğrenir [3].

2. Rakip istemi Kalkanı (APS): APS modelleri, Wikipedia toksik yorumları (WTC), yapı-IT-IT fix-it (BBF), bot-rekabetçi diyalog (bot-reklam arası diyalog (RED) ve bot-adversarial robüse karşı robüse karşı farklı veri kümeleri üzerinde eğitilmiştir. Bu modeller, çok çeşitli potansiyel saldırılara maruz kalarak zararlı içeriği tanımlamaya ve azaltmaya yardımcı olur [1].

3. Yapılandırılabilir İçerik Filtreleri: Bu filtreler, nefret söylemi, taciz, cinsel açıdan açık içerik ve tehlikeli içerik gibi önceden tanımlanmış zarar kategorilerine göre içeriği değerlendirir. İçeriğin zararlı olması için hem olasılık hem de ciddiyeti için puanlar atarlar ve içeriği engellemek için özelleştirilebilir eşiklere izin verirler [2].

4. Birkaç atış öğrenme: Bu teknik, AI sistemlerinin, konuların genel bir şekilde anlaşılmasını ve minimal etiketli örneklerden öğrenerek öğrenerek yeni zararlı içerik türlerine hızlı bir şekilde uyum sağlamasını sağlar. Sistemin gelişen zararlı içerik biçimlerine daha verimli bir şekilde yanıt vermesini sağlar [5].

5. Hassas içerik için birleşik veri kümeleri: Araştırmacılar, çatışma dili, küfür, cinsel açıdan açık materyal, ilaca bağlı içerik, kendine zarar ve spam dahil olmak üzere çok çeşitli hassas kategorileri kapsayan birleşik veri kümeleri oluştururlar. Bu veri kümeleri, tek bir çerçevede birden fazla zararlı içerik türünü tespit edebilen eğitim modellerine yardımcı olur [4].

6. Şiddet ve olasılık puanları: AI sınıflandırıcıları, içeriğin potansiyel zararını değerlendirmek için hem olasılık hem de şiddet puanlarını kullanır. Olasılık puanı, içeriğin ne kadar zararlı olduğunu yansıtırken, şiddet puanı zararın büyüklüğünü gösterir. Bu skorlar genellikle ihmal edilebilir, düşük, orta ve yüksek [2] [6] gibi seviyelere ayrılır.

7. Adalet için işleme sonrası: Adilliğe duyarlı işlem sonrası teknikler Debias güvenlik sınıflandırıcılarına kullanılır. Bu çok önemlidir, çünkü dengesiz veriler konusunda eğitilmiş sınıflandırıcılar toplumsal önyargıları öğrenebilir ve haksız sonuçlara yol açabilir. Debiasing yöntemleri, sınıflandırıcıların değerlendirmelerinde daha adil olmasını sağlamaya yardımcı olur [8].

Alıntılar:
[1] https://aclanthology.org/2024.woah-1.122.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-forety/concepts/harm-creation
[7] https://safety.google/content-forety/
[8] https://arxiv.org/html/2409.13705v2