人類は、そのハイブリッドAIモデルの安全性と信頼性をどのように保証しますか

人類は、ストレステスト、安全プロトコル、責任あるスケーリングポリシーを含むいくつかの測定を通じて、AIの安全性と信頼性を保証します[1]。彼らは、バイオセーフティレベルをモデルにしたAI安全レベル（ASL）を利用して、潜在的なリスクに基づいて安全対策を決定します[2] [3]。

人類の安全アプローチの重要なコンポーネント：
*責任あるスケーリングポリシー（RSP）人類は、AI安全レベル（ASL）のシステムを採用しています[3]。 AIシステムが特定の危険な能力を実証している場合、人類は、特定のセーフガードが実装されるまで、それを展開したり、より強力なモデルをトレーニングしたりすることを約束します[3]。
*危険な能力が無意識のうちに作成されないようにするために、定期的に危険な機能を頻繁にテストする人類検査を頻繁にテストします[3]。
*危険な能力を検出するために設計されたモデル評価では、これらの評価は、誤って重要な安全性のしきい値を超えるのを防ぐための保守的な「警告サイン」として機能します[2]。評価は複数の難易度段階で構成され、以前の評価が警告サインを示す場合にのみ後の段階が実行される場合があります[2]。
*手続き上のコミットメントASLSは、安全なトレーニングと展開を可能にするために、人類のモデルとセキュリティに当てはまる必要があるものを指定します[2]。
*監視とロギング：内部使用のために、生成された出力と対応する入力は、少なくとも30日間ログに記録および保持されます。これらのログは異常な活動について監視され、アラームは真剣に受け止められ、迅速に応答されます[2]。
*階層型アクセス：限られた場合、壊滅的な危害に関連する機能を備えたモデルは、危険な機能から分離できない正当かつ有益なユースケースを持つ吟味されたユーザーの選択グループが利用できる場合があります。十分な監視[2]。
*脆弱性とインシデントの開示：人類は、赤い世話の結果、国家安全保障の脅威、および自律的な複製の脅威をカバーする他のラボ（セキュリティまたは法的制約の対象）との脆弱性とインシデント開示プロセスに従事します[2]。
*モデルの脆弱性に対する迅速な対応：壊滅的な害を可能にする新たに発見されたモデルの脆弱性を通知すると、人類は速やかに緩和またはパッチを適用することを約束します[2]。
* 2つのパーティコントロール：フロンティアAIモデルの開発、トレーニング、ホスティング、および展開に関与するすべてのシステムに適用されます。これには、単一の人が生産批判的な環境に永続的なアクセスを持たないシステム設計が含まれます。代わりに、彼らはビジネスの正当化を持つ同僚から時間制限されたアクセスを要求する必要があります[8]。
*ユーザーの安全機能これらには、潜在的に有害なコンテンツ、プロンプトの安全フィルター、およびポリシーに繰り返し違反するユーザーの安全フィルターの強化をフラグするための検出モデルが含まれます[7]。

人類はまた、検出モデルを使用して、プロンプトの潜在的に有害なコンテンツと安全フィルターにフラグを立てます[7]。彼らは、追加の安全機能に積極的に投資し、実験を行っており、危害を軽減するためのツールを提供しており、ユーザーがこれらの措置に関するフィードバックを提供することを奨励しています[7]。

引用：
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelererationeconomy.com/ai/anthropic-leads-the-ais-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-アプローチからユーザーセーフティ
[8] https://www.anthropic.com/news/frontier-model-security

困惑からの回答：https：//www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output