Pengklasifikasi keselamatan menggunakan beberapa teknik untuk menandai konten yang berbahaya, memastikan bahwa sistem AI, terutama model bahasa besar, dapat mengidentifikasi dan mengurangi materi yang tidak aman atau ofensif. Berikut adalah beberapa teknik spesifik yang digunakan:
1. Model Pembelajaran Mesin: Pengklasifikasi keselamatan sering menggunakan model pembelajaran mesin seperti Distilbert, yang dapat disesuaikan dengan set data yang berisi contoh-contoh permintaan yang aman dan berbahaya. Model -model ini belajar untuk mengklasifikasikan prompt input sebagai aman atau berbahaya berdasarkan pola dalam data pelatihan [3].
2. Perisai Prompt Prompt (APS): Model APS dilatih pada beragam kumpulan data seperti Wikipedia Toxic Commentary (WTC), Build-It Break-It Fix-it (BBF), Bot-Adversarial Dialoge (Bad-Nois-Dial-Team To-Nois. Model -model ini membantu dalam mengidentifikasi dan mengurangi konten berbahaya dengan terpapar pada berbagai serangan potensial [1].
3. Filter Konten yang Dapat Dikonfigurasi: Filter ini menilai konten berdasarkan kategori bahaya yang telah ditentukan seperti pidato kebencian, pelecehan, konten eksplisit seksual, dan konten berbahaya. Mereka menetapkan skor untuk probabilitas dan keparahan konten yang berbahaya, memungkinkan ambang batas yang dapat disesuaikan untuk memblokir konten [2].
4. Pembelajaran beberapa-shot: Teknik ini memungkinkan sistem AI untuk beradaptasi dengan cepat dengan jenis baru konten berbahaya dengan memanfaatkan pemahaman umum tentang topik dan pembelajaran dari contoh berlabel minimal. Ini memungkinkan sistem untuk merespons bentuk -bentuk yang berkembang dari konten berbahaya lebih efisien [5].
5. Dataset Terpadu untuk Konten Sensitif: Para peneliti membuat kumpulan data terpadu yang mencakup berbagai kategori sensitif, termasuk bahasa konflik, kata-kata kotor, materi eksplisit seksual, konten terkait obat, melukai diri sendiri, dan spam. Dataset ini membantu dalam model pelatihan yang dapat mendeteksi beberapa jenis konten berbahaya di bawah satu kerangka kerja [4].
6. Skor keparahan dan probabilitas: Pengklasifikasi AI menggunakan probabilitas dan skor keparahan untuk mengevaluasi potensi kerusakan konten. Skor probabilitas mencerminkan seberapa besar kemungkinan konten menjadi berbahaya, sedangkan skor keparahan menunjukkan besarnya bahaya. Skor ini sering didiskritisasi ke dalam level seperti yang dapat diabaikan, rendah, sedang, dan tinggi [2] [6].
7. Pasca-Pemrosesan untuk Keadilan: Teknik-teknik seperti pasca-pemrosesan yang sadar keadilan digunakan untuk pengklasifikasi keselamatan Debias. Ini sangat penting karena pengklasifikasi yang dilatih pada data yang tidak seimbang dapat mempelajari bias sosial, yang mengarah ke hasil yang tidak adil. Metode DebiaSing membantu memastikan bahwa pengklasifikasi lebih adil dalam penilaian mereka [8].
Kutipan:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2