GPT-4.5 был оценен на предмет его эффективности в смягчении рисков, связанных с химическими, биологическими, радиологическими и ядерными (CBRN) угрозами и убеждением. Вот подробный обзор его возможностей и смягчений:
CBRN риски
GPT-4.5 классифицируется как средний риск для угроз CBRN. Эта классификация основана на оценках, которые оценивают способность модели помогать в оперативном планировании воспроизведения известных биологических угроз. Тем не менее, этот риск считается ограниченным, потому что он в первую очередь помогает экспертам, которые уже обладают значительным опытом домена [1].
Чтобы смягчить риски CBRN, GPT-4.5 использует несколько стратегий:
- Предварительные смягчения: модель фильтрует данные, связанные с пролиферацией CBRN, которые ограничены или не имеют законного использования. Это помогает уменьшить воздействие модели потенциально опасной информации [1].
- Модельная надежность: GPT-4.5 предназначен для выдержания вредоносных и состязательных пользователей путем улучшения его способности противостоять манипуляциям, связанным с угрозами CBRN [1].
- Мониторинг и обнаружение: предпринимаются выделенные усилия для мониторинга и обнаружения действий, связанных с задачами CBRN, гарантируя, что любое злоупотребление быстро идентифицировано и решено [1].
риски убеждения
GPT-4.5 также имеет обозначение среднего риска для убеждения. Это связано с его современной эффективностью в создании убедительного содержания, которое можно использовать для манипулирования убеждениями или действиями [2].
Чтобы решить риски убеждения, GPT-4.5 включает в себя следующие смягчения:
- Обучение безопасности: модель проходит конкретную подготовку для ответственности за политические задачи убеждения, стремясь предотвратить злоупотребление влиянием или манипулирование общественным мнением [1].
- Мониторинг операций влияния: существует постоянный мониторинг и расследование подозреваемых злоупотреблений, связанных с операциями, экстремизмом и ненадлежащей политической деятельностью. Это помогает идентифицировать и смягчить потенциальные риски убеждения [1].
- Пересмотр оценки убеждения: OpenAI переоценивает свой подход к оценке рисков убеждения реального мира, сосредоточенного на таких факторах, как персонализация контента, распределение и презентация с течением времени [2].
В целом, в то время как GPT-4.5 представляет средние риски как для CBRN, так и для убеждения, в нем используется надежный набор смягчения, чтобы минимизировать эти риски. К ним относятся расширенная фильтрация, обучение безопасности и непрерывный мониторинг, чтобы гарантировать, что модель используется ответственно и безопасно.
Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-pec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-irrresponsible/