AIの安全性の確保：人類のポリシーとテクニック

人類は、責任あるスケーリングポリシー(RSP)、AI安全レベル(ASL)、安全フィルター、検出モデル[2] [5]など、さまざまな手法とポリシーを通じてAIモデルの安全性を保証します。ユーザーの安全性は、信頼性が高く、解釈可能で操縦可能なAIシステムを作成するという人類の使命の中心です[5]。

重要な安全対策：
*責任あるスケーリングポリシー(RSP)人類はRSPを開発して、ますます能力のあるAIモデルにリンクされたリスクを管理しました[2]。このポリシーは、AI安全レベル(ASL)と呼ばれるフレームワークを導入し、危険な生物学的材料の処理に使用される米国政府のバイオセーフティレベル(BSL)基準からインスピレーションを得ています[2] [7]。 RSPは人類の理事会によって正式に承認されており、ポリシーの変更も理事会によって承認されなければなりません[2]。
* AI安全レベル(ASL)ASLフレームワークは、壊滅的なリスクのモデルの可能性に安全性、セキュリティ、および運用基準が適切であることを保証するように設計されています[2] [7]。 ASLレベルが高いほど、安全性のより厳しいデモンストレーションが必要です[2]。この政策は、AIの経済的および社会的価値のバランスをとって、深刻なリスク、特にモデル自体による意図的な誤用または意図しない破壊的な行動から生じる可能性のある壊滅的なリスクを緩和する必要性です[2]。
*安全フィルター人類は、プロンプトに安全フィルターを使用します。これは、検出モデルが有害としてフラグを立てるとモデルからの応答をブロックする可能性があります[5]。また、安全フィルターが強化されているため、検出モデルの感度を高めることができます[5]。人類は、ポリシーに繰り返し違反しているユーザーに強化された安全フィルターを一時的に適用し、NOまたは少数の違反の後にこれらのコントロールを削除する可能性があります[5]。
*検出モデル人類は、使用ポリシーに基づいて潜在的に有害なコンテンツにフラグを立てる検出モデルを利用します[5]。

追加のセーフガード：
*基本的なセーフガードこれらには、各API呼び出しにリンクされたIDを保存して、特定の違反コンテンツを特定し、人類のAUPを違反する個人を追跡するためにユーザーにIDを割り当てることが含まれます[1]。また、顧客が許可された用途を理解し、Claude [1]を利用する前に顧客にプラットフォーム上のアカウントにサインアップするよう要求することを検討します。
*中間保護人類は、クロードとのエンドユーザーの相互作用を限られたプロンプトに制限するカスタマイズフレームワークを作成するか、クロードが特定の知識コーパスを確認し、ユーザーが違反行動に従事する能力を低下させることができます[1]。また、潜在的に有害なプロンプトを検出し、害を減らすためのリアルタイムアクションの管理を支援するために、人類によって構築された無料のリアルタイムモデレーションツールである追加の安全フィルターも有効になります[1]。
* Claudeに送られる前に、すべてのエンドユーザープロンプトに対してモデレートAPIを実行している高度な保護ガードは、それらが有害ではないことを保証します[1]。
*包括的なセーフガード人類は、内部のヒューマンレビューシステムを設定して、ClaudeまたはModeration APIが有害としてマークするプロンプトにフラグを立てるため、違反率の高いユーザーを制限または削除するために介入することができます[1]。

人類は、厳密な研究と高度な安全技術の適用を通じて達成されるAIシステムの信頼性と解釈可能性にも取り組んでいます[2]。解釈可能性における重要なブレークスルーは、「単一大まかな特徴抽出」のために人類のスパース自動エンコーダーを使用したことです。これにより、複雑なニューラルネットワークが理解可能なコンポーネントに単純化されます[2]。

引用：
[1] https://support.anthropic.com/en/articles/9199617-api-strust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-アプローチからユーザーセーフティ
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

人類はどのようにそのAIモデルの安全性を保証しますか