GPT-4.5는 명령어 계층을 통해 시스템과 사용자 메시지 간의 충돌하는 지침을 처리하도록 설계되었습니다. 이 계층 구조는 모델이 사용자 메시지보다 시스템 메시지를 우선시하여 신속한 주입 또는 모델의 안전 지침을 무시할 수있는 기타 공격과 같은 상충되는 프롬프트와 관련된 위험을 완화하는 데 도움이됩니다.
명령 계층의 주요 기능
1. 메시지 분류 : GPT-4.5는 시스템 메시지와 사용자 메시지의 두 가지 유형을 구별합니다. 시스템 메시지는 더 높은 권한으로 간주되며 안전 지침 또는 모델에 대한 특정 지침을 설정하는 데 사용됩니다.
2. 충돌 해결 : 시스템 및 사용자 메시지가 충돌하면 GPT-4.5가 시스템 메시지의 지침을 따르도록 교육을받습니다. 이를 통해 모델은 안전 지침을 준수하고 유해하거나 허용되지 않는 활동에 관여하지 않도록합니다.
3. 평가 및 훈련 : 모델은 다양한 시나리오를 통해 충돌을 처리하는 능력에 대해 평가됩니다. 예를 들어, 모델에 수학 문제 (시스템 메시지)에 대한 답을 제공하지 말라고 지시받는 시나리오에서 사용자는이를 속이려고 시도합니다 (사용자 메시지) GPT-4.5는 사용자의 시도에 저항하고 시스템 지침에 따라야합니다.
4. 성능 : GPT-4.5는 일반적으로 이러한 평가에서 잘 수행되어 시스템 사용자 메시지 충돌을 처리 할 때 GPT-4O와 같은 이전 모델보다 개선을 보여줍니다. 그러나 GPT-4O 또는 GPT-4O1과 같이 수행되지 않을 수있는 특정 시나리오가 있으며, 예를 들어 특정 탈옥 시험에서와 같이 정보가 공개되는 경우와 같이 [1] [7].
안전 평가
GPT-4.5는 증오 또는 불법적 인 조언과 같은 허용되지 않은 콘텐츠를 생성하지 않도록 엄격한 안전 평가를받습니다. 이러한 평가는 또한 안전 주제와 관련된 양성 프롬프트를 과도하게 반복하는 모델의 경향을 평가합니다. 이 분야에서 모델의 성능은 충돌하는 지침을 처리 할 때 안전과 신뢰성을 유지하는 데 중요합니다 [1].
모델 사양 및 권한 수준
모델 사양은 다양한 유형의 지침에 대한 권한 수준을 간략하게 설명하고, 플랫폼 수준의 지침은 가장 높은 권한을 갖고 개발자 및 사용자 지침이 뒤 따릅니다. 이 계층 구조는 GPT-4.5가 안전을 우선시하고 지침을 준수하는 동시에 설정 경계 내에서 사용자와 개발자의 사용자 정의를 허용하도록합니다 [2] [5].
전반적으로, GPT-4.5의 상충되는 지침을 처리하는 능력은 디자인의 주요 측면으로, 사용자와 상호 작용하면서 안전과 무결성을 유지할 수 있도록합니다.
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-scec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/