التقنيات التي تستخدمها مصنفات السلامة لتحديد المحتوى الضار في أنظمة الذكاء الاصطناعي

تستخدم مصنفات السلامة عدة تقنيات لإبلاغ المحتوى الضار ، وضمان أن أنظمة الذكاء الاصطناعى ، وخاصة نماذج اللغة الكبيرة ، يمكنها تحديد وتخفيف المواد غير الآمنة أو الهجومية. فيما يلي بعض التقنيات المحددة المستخدمة:

1. نماذج التعلم الآلي: تستخدم مصنفات السلامة في كثير من الأحيان نماذج التعلم الآلي مثل Distilbert ، والتي يمكن ضبطها على مجموعات البيانات التي تحتوي على أمثلة على المطالبات الآمنة والضارة. تتعلم هذه النماذج تصنيف مطالبات الإدخال على أنها آمنة أو ضارة بناءً على أنماط في بيانات التدريب [3].

2. درع موجه للقيود (APS): يتم تدريب نماذج APS على مجموعات بيانات متنوعة مثل التعليقات السامة ويكيبيديا (WTC) ، ومحاولات Build-It-It-It (BBF) ، و Bot-adversarial Dialogue (BAD) ، ومحاولات التصوير الحمراء (Red) ، و Bot-adversarial-Noisy (Band) على المدى المعزز. تساعد هذه النماذج في تحديد وتخفيف المحتوى الضار من خلال التعرض لمجموعة واسعة من الهجمات المحتملة [1].

3. مرشحات المحتوى القابلة للتكوين: تقوم هذه المرشحات بتقييم المحتوى بناءً على فئات الضرر المحددة مسبقًا مثل خطاب الكراهية والمضايقة والمحتوى الجنسي الصريح والمحتوى الخطير. يقومون بتعيين درجات لكل من احتمال وشدة المحتوى ضارًا ، مما يسمح بعتبة القابلة للتخصيص لحظر المحتوى [2].

4. تعلم القليل من اللقطة: تتيح هذه التقنية أنظمة الذكاء الاصطناعى للتكيف بسرعة مع أنواع جديدة من المحتوى الضار من خلال الاستفادة من الفهم العام للمواضيع والتعلم من الأمثلة المسمى الحد الأدنى. إنه يمكّن النظام من الاستجابة لأشكال متطورة للمحتوى الضار بشكل أكثر كفاءة [5].

5. مجموعات البيانات الموحدة للمحتوى الحساس: يقوم الباحثون بإنشاء مجموعات بيانات موحدة تغطي مجموعة واسعة من الفئات الحساسة ، بما في ذلك اللغة الصراع ، والألفاظ النابية ، والمواد الصريحة جنسياً ، والمحتوى المتعلق بالمخدرات ، وإيذاء الذات ، والبريد العشوائي. تساعد مجموعات البيانات هذه في نماذج التدريب التي يمكنها اكتشاف أنواع متعددة من المحتوى الضار تحت إطار واحد [4].

6. درجات الشدة والاحتمال: يستخدم مصنفات الذكاء الاصطناعى كل من درجات الاحتمالات والشدة لتقييم الضرر المحتمل للمحتوى. تعكس درجة الاحتمالات مدى احتمال أن يكون المحتوى ضارًا ، في حين تشير درجة الشدة إلى حجم الضرر. غالبًا ما يتم تقدير هذه الدرجات إلى مستويات مثل ضئيل ، منخفض ، متوسط ، وعالي [2] [6].

7. ما بعد المعالجة من أجل الإنصاف: تستخدم تقنيات مثل المعالجة التي تدرك الإنصاف في مصنفات السلامة Debias. هذا أمر بالغ الأهمية لأن المصنفات المدربين على البيانات غير المتوازنة يمكن أن تتعلم التحيزات المجتمعية ، مما يؤدي إلى نتائج غير عادلة. تساعد أساليب الإنصاف على ضمان أن تكون المصنفات أكثر إنصافًا في تقييماتهم [8].

الاستشهادات:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5]
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-ceators
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2

ما هي التقنيات المحددة التي تستخدمها مصنفات السلامة لإعلام المحتوى الضار