GPT-4.5評価：CBRNおよび説得リスクの軽減

CBRNと説得に関連するリスクの緩和においてGPT-4.5はどれほど効果的ですか

GPT-4.5は、化学的、生物学的、放射線学的、核(CBRN)の脅威と説得に関連するリスクの緩和における有効性について評価されています。その機能と緩和の詳細な概要は次のとおりです。

CBRNリスク

GPT-4.5は、CBRN脅威の中程度のリスクとして分類されます。この分類は、既知の生物学的脅威の再現の運用計画を支援するモデルの能力を評価する評価に基づいています。ただし、このリスクは、主に重要なドメインの専門知識を既に所有している専門家を支援するため、限られていると見なされます[1]。

CBRNのリスクを軽減するために、GPT-4.5はいくつかの戦略を採用しています。

- トレーニング前の緩和：モデルは、正当な使用が制限されている、またはまったくないCBRN増殖に関連するデータを除外します。これにより、モデルの潜在的に危険な情報への暴露を減らすのに役立ちます[1]。
- モデルの堅牢性：GPT-4.5は、CBRNの脅威に関連する操作に抵抗する能力を向上させることにより、悪意のある敵対的なユーザーに耐えるように設計されています[1]。
- 監視と検出：CBRNタスクに関連する活動を監視および検出し、誤用が迅速に特定され、対処されるようにするための専用の努力がなされます[1]。

##説得リスク

GPT-4.5は、説得のための中程度のリスク指定も搭載しています。これは、信念や行動を操作するために使用できる説得力のあるコンテンツを生成する際の最先端のパフォーマンスによるものです[2]。

説得のリスクに対処するために、GPT-4.5に次の緩和が組み込まれています。

- 安全トレーニング：このモデルは、世論に影響を与えたり操作したりするための誤用を防ぐことを目的とした、責任を持って政治的説得タスクを処理するための特定のトレーニングを受けます[1]。
- 影響力の運用の監視：影響力、過激主義、不適切な政治活動に関連する虐待の疑いの継続的な監視と調査があります。これは、潜在的な説得リスクを特定し、軽減するのに役立ちます[1]。
- 説得の評価の再考：Openaiは、現実世界の説得リスクを評価するためのアプローチを再評価し、時間の経過とともにコンテンツのパーソナライズ、配布、プレゼンテーションなどの要因に焦点を当てています[2]。

全体として、GPT-4.5はCBRNと説得の両方に中程度のリスクをもたらしますが、これらのリスクを最小限に抑えるために堅牢な一連の緩和を採用しています。これらには、高度なフィルタリング、安全トレーニング、継続的な監視が含まれ、モデルが責任を持って安全に使用されるようにします。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_272025025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-the-the-the-irresponsible/