AIシステムの有害なコンテンツを識別するために安全分類器が使用する手法

安全分類器が有害なコンテンツにフラグを立てるために使用する特定のテクニック

安全分類器は、有害なコンテンツにフラグを立てるためにいくつかの手法を採用しており、AIシステム、特に大規模な言語モデルが安全でないまたは攻撃的な素材を特定して軽減できるようにします。使用される特定の手法のいくつかは次のとおりです。

1。機械学習モデル：安全分類器は、Distilbertのような機械学習モデルを利用することがよくあります。これは、安全で有害なプロンプトの例を含むデータセットで微調整できます。これらのモデルは、トレーニングデータのパターンに基づいて、入力プロンプトを安全または有害として分類することを学びます[3]。

2。敵対的なプロンプトシールド(APS)：APSモデルは、Wikipedia Toxic Comments(WTC)、Build-IT IT Fix-IT(BBF)、ボット副次的対話(BAD)、駆虫薬のレッドチームの試み(赤)、ボット - 傍観者 - ノイジャルの障害に対する障害者向けのロバスに耐えられないような多様なデータセットでトレーニングされています。これらのモデルは、幅広い潜在的な攻撃にさらされることにより、有害なコンテンツを特定して軽減するのに役立ちます[1]。

3。構成可能なコンテンツフィルター：これらのフィルターは、ヘイトスピーチ、嫌がらせ、性的に露骨なコンテンツ、危険なコンテンツなどの事前定義された害のカテゴリに基づいてコンテンツを評価します。彼らは、コンテンツが有害であることの確率と重大度の両方のスコアを割り当て、コンテンツをブロックするためのカスタマイズ可能なしきい値を可能にします[2]。

4。少数のショット学習：この手法により、AIシステムは、トピックの一般的な理解を活用し、最小限のラベルのある例から学習することにより、新しいタイプの有害なコンテンツに迅速に適応できます。これにより、システムは、有害なコンテンツの進化する形態に応答することができます[5]。

5.敏感なコンテンツの統一されたデータセット：研究者は、競合言語、冒とく、性的に露骨な素材、薬物関連のコンテンツ、自傷、スパムなど、幅広い機密カテゴリをカバーする統一されたデータセットを作成します。これらのデータセットは、単一のフレームワークの下で複数のタイプの有害なコンテンツを検出できるトレーニングモデルに役立ちます[4]。

6.重大度と確率スコア：AI分類器は、確率と重大度の両方のスコアを使用して、コンテンツの潜在的な害を評価します。確率スコアは、コンテンツがどの程度有害であるかを反映していますが、重大度スコアは危害の大きさを示します。これらのスコアは、多くの場合、無視できる、低、中、高[2] [6]などのレベルに離散化されます。

7。公平性のためのポスト処理：公平性に触れる後処理などのテクニックは、Debiasの安全分類器に使用されます。不均衡なデータで訓練された分類器は、社会的偏見を学び、不公平な結果につながるため、これは重要です。脱毛方法は、分類器が評価においてより公平であることを保証するのに役立ちます[8]。

引用：
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2