GPT-4.5 : 충돌 지침을 처리하는 성능 향상

GPT-4.5의 성능은 상충되는 지침을 처리 할 때 이전 버전과 어떻게 비교됩니까?

GPT-4.5는 특히 향상된 명령어 계층을 통해 이전 버전과 비교하여 충돌 지침을 처리 할 때 성능이 향상되었습니다. 이 기능을 사용하면 모델이 사용자 입력보다 시스템 메시지를 우선 순위로 삼고 프롬프트 주입과 관련된 위험을 완화 할 수 있으며 안전 지침을 무시할 수있는 기타 공격을 완화 할 수 있습니다.

상충되는 메시지 유형과 관련된 평가에서 GPT-4.5는 일반적으로 GPT-4O보다 성능이 우수합니다. 이 모델은 최고 우선 순위 메시지의 지침을 따르도록 교육을 받았으며, 이는 시스템 및 사용자 메시지가 충돌하는 시나리오에서 도움이됩니다. 예를 들어, 모델에 수학 질문에 대한 답을 제공하지 말라고 지시받는 시나리오에서 GPT-4.5는 모든 평가에서 GPT-4O1을 능가하지는 않지만 GPT-4O와 비교하여 이러한 시스템 지침에 대한 더 나은 준수를 보여줍니다 [1].

또한, GPT-4.5는 사용자 프롬프트를 통해 특정 문구 나 암호를 공개하는 것을 방지 해야하는 시나리오에서 평가되었습니다. 이러한 평가에서 GPT-4.5는 잘 수행되어 충돌하는 사용자 입력에 직면해도 보안을 유지하고 시스템 지침을 따르는 능력을 나타냅니다 [1].

그러나 GPT-4.5는 상충되는 지침을 처리 할 때 이전 모델을 향상 시키지만 특정 복잡한 시나리오에서 여전히 도전에 직면 해 있습니다. 적대적 프롬프트를 시뮬레이션하는 빨간 팀링 평가에서 모델의 성능은 경우에 따라 안전하지 않은 출력을 생성 할 수 있지만 일반적으로 이러한 도전적인 테스트에서 GPT-4O보다 더 잘 수행됩니다 [1].

전반적으로, 충돌 지침을 처리하는 GPT-4.5의 개선 사항은 안전 지침 및 시스템 지침을 엄격하게 준수 해야하는 응용 프로그램에보다 신뢰할 수있는 선택입니다.

인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-comped
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-toconsider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significently_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model reelease
[8] https://www.axios.com/2025/02/02/27/chatgpt-45-model-openai-reasoning