안전 분류기는 여러 기술을 사용하여 유해한 컨텐츠를 표시하여 AI 시스템, 특히 대형 언어 모델이 안전하지 않거나 공격적인 자료를 식별하고 완화 할 수 있도록합니다. 사용 된 특정 기술은 다음과 같습니다.
1. 기계 학습 모델 : 안전 분류기는 종종 Distilbert와 같은 기계 학습 모델을 사용하여 안전하고 유해한 프롬프트의 예를 포함하는 데이터 세트에서 미세 조정할 수 있습니다. 이 모델은 훈련 데이터의 패턴에 따라 입력 프롬프트를 안전하거나 유해한 것으로 분류하는 법을 배웁니다 [3].
2. APS (Adversarial Prompt Shield) : APS 모델은 Wikipedia 독성 댓글 (WTC), Build-It Break-IT Fix-IT (BAD), BAT-Adversarial Dialogue (BAD), 의인성 빨간색 타이프 (RED) 및 봇-어도 대역-앙상보고 (대역)와 같은 다양한 데이터 세트에 대해 교육을받습니다. 이 모델은 광범위한 잠재적 공격에 노출되어 유해한 내용을 식별하고 완화하는 데 도움이됩니다 [1].
3. 구성 가능한 컨텐츠 필터 :이 필터는 증오 음성, 괴롭힘, 성적으로 명시적인 콘텐츠 및 위험한 콘텐츠와 같은 사전 정의 된 피해 범주를 기반으로 컨텐츠를 평가합니다. 컨텐츠의 확률과 심각성에 대한 점수를 부여하여 콘텐츠를 차단하기위한 사용자 정의 가능한 임계 값을 허용합니다 [2].
4. 소수의 학습 :이 기술을 통해 AI 시스템은 주제에 대한 일반적인 이해를 활용하고 최소한의 라벨이 붙은 예에서 학습을 통해 새로운 유형의 유해한 컨텐츠에 빠르게 적응할 수 있습니다. 이 시스템은 진화하는 형태의 유해한 콘텐츠에보다 효율적으로 응답 할 수 있습니다 [5].
5. 민감한 콘텐츠에 대한 통합 데이터 세트 : 연구자들은 상충 언어, 욕설, 성적으로 노골적인 자료, 약물 관련 내용, 자해 및 스팸을 포함한 광범위한 민감한 범주를 다루는 통합 데이터 세트를 만듭니다. 이 데이터 세트는 단일 프레임 워크에서 여러 유형의 유해한 콘텐츠를 감지 할 수있는 교육 모델에 도움이됩니다 [4].
6. 심각도 및 확률 점수 : AI 분류기는 확률 및 심각도 점수를 모두 사용하여 콘텐츠의 잠재적 피해를 평가합니다. 확률 점수는 콘텐츠가 유해 할 가능성을 반영하는 반면, 심각도 점수는 피해의 크기를 나타냅니다. 이 점수는 종종 무시할만한, 낮음, 중간 및 높은 수준으로 분리됩니다 [2] [6].
7. 공정성을위한 후 처리 : 공정성 인식 사후 처리와 같은 기술은 안전 분류기를 토론하는 데 사용됩니다. 불균형 데이터로 훈련 된 분류기는 사회적 편견을 배울 수있어 불공정 한 결과를 초래하기 때문에 이것은 중요합니다. Debiasing Methods는 분류기가 평가에서 더 평등 한 상태를 보장하는 데 도움이됩니다 [8].
인용 :
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2