人類は、「責任あるスケーリングポリシー」(RSP)を採用して、ますます能力のあるAIモデルにリンクされているリスクを管理します[5]。このポリシーは、AI安全レベル(ASL)と呼ばれるフレームワークを使用して、危険な生物学的材料を処理するための米国政府のバイオセーフティレベルの基準からインスピレーションを引き出しています[5]。 ASLフレームワークは、モデルの壊滅的なリスクの可能性に適した安全性、セキュリティ、および運用基準を実装するように設計されており、ASLレベルが高いほど、より厳しい安全性のデモを必要とします[5]。
人類の最高の現在のモデルはASL-2にあります[4]。同社は、ASL-2およびASL-3の封じ込めおよび展開措置を定義しており、ASL-3モデルをトレーニングする前にASL-4の安全対策を定義することを約束します[4]。 ASL-1は、意味のある壊滅的なリスクをもたらさないシステムを指します[5]。
人類はまた、AIの行動をより予測可能で理解しやすくするために、AIシステム、特に深い学習モデルの内部作業を分析および理解することを含む、機械的解釈性にも投資されています[5]。
引用:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptituity.io/en/articles/8892919
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections on-Responsible-scaling-policy