GPT-4.5는 특히 명령어 계층 시스템을 통해 충돌하는 메시지를 처리하기위한 여러 기술을 사용합니다. 이 계층 구조는 메시지의 우선 순위 순서를 설정하여 사용자 메시지, 대화 기록 및 도구 출력보다 시스템 메시지가 우선 순위를 정하는지 확인합니다 [1] [2].
명령 계층
1. 시스템 메시지 대 사용자 메시지 : GPT-4.5는 충돌하는 사용자 메시지를 통한 시스템 메시지의 지침을 따르도록 교육을 받았습니다. 이는 사용자 입력이 시스템에서 설정 한 안전 지침 또는 서식 규칙을 무시하려고 시도 할 수있는 시나리오에서 중요합니다 [1] [2].
2. 충돌 해결 : 모델은 다른 유형의 메시지 간의 충돌을 해결하는 능력에 대해 평가됩니다. 예를 들어, 시스템 메시지가 모델에 특정 문구 나 비밀번호를 공개하지 않도록 지시하고 사용자 메시지가 모델을 속이려고 시도하면 GPT-4.5는 시스템 메시지의 지침을 준수하도록 설계되었습니다 [1].
3. 교육 및 평가 : GPT-4.5는 시스템 및 사용자 메시지가 충돌하는 복잡한 시나리오를 처리 할 수 있도록 광범위한 교육 및 평가를 거칩니다. 여기에는 모델이 시스템 명령어를 따르는 중에서 모델이 선택 해야하는 시나리오 또는이를 모순하는 사용자의 요청을 선택 해야하는 시나리오가 포함됩니다 [1] [2].
감독 미세 조정 (SFT)
GPT-4.5는 또한 감독 된 미세 조정 (SFT)을 사용하는데, 여기에는 상충되는 메시지가있는 특정 예제에 대한 모델을 훈련시키는 것이 포함됩니다. 이 기술은 사용자 입력에 대한 시스템 지침을 인식하고 우선 순위를 정하는 모델의 능력을 향상시켜 상충되는 시나리오를 처리 할 때 성능을 향상시키는 데 도움이됩니다 [3].
새로운 정렬 기술
또한, GPT-4.5는 인간의 선호도와 의도에 대한 이해를 향상시키는 새로운 정렬 기술을 통합합니다. 이러한 기술은 모델이 시스템과 사용자 메시지의 컨텍스트와 의도를 더 잘 해석하여 충돌을 처리 할 때보다 정보에 근거한 결정을 내릴 수 있도록 도와줍니다 [5].
전반적으로, 충돌하는 메시지를 처리하기위한 GPT-4.5의 접근 방식은 고급 교육 방법을 구조화 된 지침 계층과 결합하여 모델이 안전성과 시스템 지침 준수를 우선시하는지 확인합니다.
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[5] https://venturebeat.com/ai/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significently_and/