상충되는 지침 및 안전 개선을 처리하는 GPT-4.5 향상

GPT-4.5의 성능은 상충되는 지침을 처리 할 때 이전 버전과 어떻게 비교됩니까?

GPT-4.5는 특히 명령어 계층에 대한 고착을 강화하여 이전 버전과 비교하여 충돌 지침을 처리 할 때 성능이 향상된 것을 보여줍니다. 이 계층 구조를 통해 모델은 사용자 입력보다 시스템 메시지를 우선시하여 상충되는 프롬프트의 위험을 완화 할 수 있습니다. 평가에서 GPT-4.5는 일반적으로 시스템 및 사용자 메시지가 충돌하는 시나리오에서 GPT-4O를 능가하여 안전 지침을 따르고 적대적 프롬프트에 의해 속이는 것을 피할 수있는 능력이 향상됩니다 [1] [5].

충돌 지침 처리의 주요 개선

1. 명령 계층 평가 : GPT-4.5는 사용자 메시지에 대한 시스템 지침에 따라 정확도가 향상됩니다. 예를 들어, 모델에 수학 질문에 대한 답을 제공하지 말라고 지시받는 시나리오에서 GPT-4O보다 GPT-4O보다 더 잘 수행됩니다 [1].

2. 신속한 주입 완화 : 시스템 메시지 우선 순위를 정해 GPT-4.5는 안전 지침을 무시할 수있는 신속한 주사 및 기타 공격의 위험을 줄입니다. 이것은 모델의 무결성을 유지하고 오용을 방지하는 데 중요합니다 [1] [5].

3. 현실적인 시나리오 : 수학 교사 역할을 할 때와 같은보다 현실적인 시나리오에서 GPT-4.5는 무단 정보를 제공하는 데 속이는 시도에 저항하는 것이 좋습니다. 그러나 성능은 완벽하지 않으며 제공된 특정 컨텍스트와 지시에 따라 달라질 수 있습니다 [1].

4. 안전 평가 : GPT-4.5는 유해한 콘텐츠 요청을 준수하지 않도록 엄격한 안전 평가를받습니다. 안전하지 않은 컨텐츠를 거부하는 데 잘 수행되는 반면, 이전 모델보다 더 많은 반복을 불러 일으켜 모호하거나 잠재적으로 위험한 프롬프트를 처리하는 데 신중한 접근 방식을 나타냅니다 [1].

전반적으로 GPT-4.5는 시스템 지침에 더 밀접하게 준수하고 적대적 사용자 입력의 영향을 줄임으로써 충돌 지침을 처리하는 데 상당한 개선을 제공합니다. 그러나 모든 AI 모델과 마찬가지로 모든 형태의 조작에 면역이 아니며 지속적인 안전 평가 및 업데이트로 계속 발전하고 있습니다 [1] [5].

인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-comped
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-toconsider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significently_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model reelease
[8] https://www.axios.com/2025/02/02/27/chatgpt-45-model-openai-reasoning