安全分类器采用多种技术来标记有害内容,以确保AI系统(尤其是大型语言模型)可以识别和减轻不安全或令人反感的材料。这是一些使用的特定技术:
1。机器学习模型:安全分类器经常使用诸如Distilbert之类的机器学习模型,该模型可以在包含安全有害提示的示例的数据集中进行微调。这些模型学会根据培训数据中的模式将输入提示分类为安全或有害的[3]。
2. Adversarial Prompt Shield (APS): APS models are trained on diverse datasets such as Wikipedia Toxic Comments (WTC), Build-It Break-It Fix-It (BBF), Bot-Adversarial Dialogue (BAD), Anthropic Red-Team Attempts (Red), and Bot-Adversarial-Noisy-Dialogue (BAND) to enhance robustness against adversarial prompts.这些模型通过暴露于广泛的潜在攻击方面有助于识别和减轻有害内容[1]。
3。可配置的内容过滤器:这些过滤器根据预定义的危害类别(例如仇恨言论,骚扰,性明确内容和危险内容)评估内容。他们为内容的概率和严重程度分配了有害的概率和严重性,从而允许可自定义的阈值阻止内容[2]。
4。几乎没有学习的学习:这种技术允许AI系统通过利用对主题的一般理解和从最低标记的示例中学习的一般了解来快速适应新型有害内容。它使系统能够更有效地对不断发展的有害内容形式做出反应[5]。
5。敏感内容的统一数据集:研究人员创建统一的数据集,涵盖广泛的敏感类别,包括冲突语言,亵渎性,性明确的材料,与药物相关的内容,自我伤害和垃圾邮件。这些数据集有助于培训模型,这些模型可以在单个框架下检测多种类型的有害内容[4]。
6。严重性和概率分数:AI分类器同时使用概率和严重性评分来评估内容的潜在危害。概率分数反映了内容有害的可能性,而严重程度得分表示危害的程度。这些分数通常被离散分为可以忽略不计,低,中和高的水平[2] [6]。
7。公平后处理:公平意识的后处理等技术用于辩护安全分类器。这是至关重要的,因为接受了不平衡数据培训的分类器可以学习社会偏见,从而导致不公平的结果。辩护方法有助于确保分类器在评估中更加公平[8]。
引用:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2