เทคนิคที่ใช้โดยตัวแยกประเภทความปลอดภัยเพื่อระบุเนื้อหาที่เป็นอันตรายในระบบ AI

ตัวแยกประเภทความปลอดภัยใช้เทคนิคต่าง ๆ ในการตั้งค่าสถานะเนื้อหาที่เป็นอันตรายเพื่อให้มั่นใจว่าระบบ AI โดยเฉพาะอย่างยิ่งแบบจำลองภาษาขนาดใหญ่สามารถระบุและลดเนื้อหาที่ไม่ปลอดภัยหรือน่ารังเกียจ นี่คือเทคนิคเฉพาะบางส่วนที่ใช้:

1. รูปแบบการเรียนรู้ของเครื่อง: ตัวแยกประเภทความปลอดภัยมักใช้รูปแบบการเรียนรู้ของเครื่องเช่น Distilbert ซึ่งสามารถปรับแต่งได้อย่างละเอียดในชุดข้อมูลที่มีตัวอย่างของการแจ้งเตือนที่ปลอดภัยและเป็นอันตราย โมเดลเหล่านี้เรียนรู้ที่จะจำแนกคำแนะนำอินพุตว่าปลอดภัยหรือเป็นอันตรายตามรูปแบบในข้อมูลการฝึกอบรม [3]

2. การป้องกันความเป็นคู่แข่ง (APS): โมเดล APS ได้รับการฝึกฝนในชุดข้อมูลที่หลากหลายเช่น Wikipedia Toxic Comments (WTC), Build-It Break-It Fix-It (BBF), Bot-Adversarial Dialogue (BAD) โมเดลเหล่านี้ช่วยในการระบุและบรรเทาเนื้อหาที่เป็นอันตรายโดยการสัมผัสกับการโจมตีที่อาจเกิดขึ้นได้หลากหลาย [1]

3. ตัวกรองเนื้อหาที่กำหนดค่าได้: ตัวกรองเหล่านี้ประเมินเนื้อหาตามหมวดหมู่อันตรายที่กำหนดไว้ล่วงหน้าเช่นคำพูดแสดงความเกลียดชังการล่วงละเมิดเนื้อหาที่ชัดเจนทางเพศและเนื้อหาที่เป็นอันตราย พวกเขากำหนดคะแนนสำหรับทั้งความน่าจะเป็นและความรุนแรงของเนื้อหาที่เป็นอันตรายทำให้สามารถกำหนดขีด จำกัด ที่ปรับแต่งได้สำหรับการปิดกั้นเนื้อหา [2]

4. การเรียนรู้ไม่กี่ครั้ง: เทคนิคนี้ช่วยให้ระบบ AI สามารถปรับตัวเข้ากับเนื้อหาที่เป็นอันตรายประเภทใหม่ได้อย่างรวดเร็วโดยใช้ประโยชน์จากความเข้าใจทั่วไปของหัวข้อและการเรียนรู้จากตัวอย่างที่มีป้ายกำกับน้อยที่สุด ช่วยให้ระบบสามารถตอบสนองต่อรูปแบบของเนื้อหาที่เป็นอันตรายได้อย่างมีประสิทธิภาพมากขึ้น [5]

5. ชุดข้อมูลแบบครบวงจรสำหรับเนื้อหาที่ละเอียดอ่อน: นักวิจัยสร้างชุดข้อมูลแบบครบวงจรที่ครอบคลุมหมวดหมู่ที่ละเอียดอ่อนหลากหลายรวมถึงภาษาที่ขัดแย้งกันคำหยาบคายวัสดุที่ชัดเจนทางเพศเนื้อหาที่เกี่ยวข้องกับยาเสพติดและสแปม ชุดข้อมูลเหล่านี้ช่วยในรูปแบบการฝึกอบรมที่สามารถตรวจจับเนื้อหาที่เป็นอันตรายหลายประเภทภายใต้กรอบเดียว [4]

6. คะแนนความรุนแรงและความน่าจะเป็น: ตัวแยกประเภท AI ใช้ทั้งความน่าจะเป็นและคะแนนความรุนแรงเพื่อประเมินอันตรายที่อาจเกิดขึ้นของเนื้อหา คะแนนความน่าจะเป็นสะท้อนให้เห็นถึงความเป็นไปได้ที่เนื้อหาจะเป็นอันตรายในขณะที่คะแนนความรุนแรงบ่งบอกถึงขนาดของอันตราย คะแนนเหล่านี้มักจะถูกแยกออกเป็นระดับเช่นเล็กน้อย, ต่ำ, กลาง, และสูง [2] [6]

7. การโพสต์การประมวลผลเพื่อความเป็นธรรม: เทคนิคเช่นการโพสต์การประมวลผลที่เป็นความยุติธรรมนั้นใช้สำหรับตัวแยกประเภทความปลอดภัย Debias สิ่งนี้มีความสำคัญเนื่องจากตัวจําแนกที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลที่ไม่สมดุลสามารถเรียนรู้อคติทางสังคมซึ่งนำไปสู่ผลลัพธ์ที่ไม่เป็นธรรม วิธีการ debiasing ช่วยให้มั่นใจได้ว่าตัวจําแนกมีความเท่าเทียมกันมากขึ้นในการประเมินของพวกเขา [8]

การอ้างอิง:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832V2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705V2

เทคนิคความปลอดภัยที่ใช้ในการตั้งค่าสถานะเนื้อหาที่เป็นอันตรายอย่างไร