GPT-4.5는 명령 계층을 통해 충돌하는 지침을 처리하도록 설계되었으며, 이는 사용자 메시지보다 시스템 메시지를 우선시하여 안전 지침을 우선적으로 주입하는 것과 같은 위험을 완화합니다 [1]. 그러나 GPT-4.5가 새로운 유형의 상충되는 지침에 적응할 수 있는지 여부는 복잡한 질문입니다.
교육 및 평가
GPT-4.5는 감독 된 미세 조정 (SFT) 및 인간 피드백 (RLHF)의 강화 학습과 같은 전통적인 방법과 결합 된 새로운 감독 기술을 사용하여 교육을 받았습니다 [1]. 이러한 방법은 사용자 의도와 모델의 정렬과 지침을보다 정확하게 따르는 능력을 향상시키는 것을 목표로합니다. 이 모델은 시스템 및 사용자 메시지가 충돌하는 다양한 시나리오에서 평가되어 GPT-4O와 같은 이전 모델보다 개선을 보여줍니다 [1].
새로운 상충되는 지침에 대한 적응성
GPT-4.5는 알려진 유형의 충돌 지침을 처리 할 때 더 나은 성능을 보여 주지만 완전히 새로운 유형의 충돌에 적응하는 능력은 다음과 같습니다.
1. 일반화 능력 : GPT-4.5의 교육에는 감독되지 않은 학습 스케일링이 포함되어있어 더 넓은 맥락을 일반화하고 이해하는 능력을 향상시킵니다 [1]. 이를 통해 새로운 상충되는 지침에서 패턴을 인식하는 데 도움이 될 수 있습니다.
2. 명령 계층 : 모델의 명령어 계층은 시스템 메시지를 우선 순위로 정리하도록 설계되었으며, 이는 사전 정의 된 규칙을 안전하게 유지하고 준수하는 데 도움이됩니다. 그러나 새로운 상충되는 지침 이이 계층의 범위를 벗어나면 모델은 추가 교육이나 미세 조정없이 적응하는 데 어려움을 겪을 수 있습니다.
3. 신속한 엔지니어링 및 스캐 폴딩 : 사용자는 고급 프롬프트 기술 또는 스캐 폴딩을 사용하여 새로운 지침을 이해하고 따르는 모델을 안내 할 수 있습니다. 이 접근법은 모델이 [1]에 대해 명시 적으로 훈련 된 것 이상의 행동을 이끌어내는 데 도움이 될 수 있습니다.
4. 제한 및 안전 평가 : 개선에도 불구하고 GPT-4.5는 여전히 복잡한 또는 새로운 시나리오를 처리하는 데 어려움을 겪고 있습니다. 안전 평가에 따르면 모델은 알려진 작업에서 잘 수행되는 반면, 예상치 못한 상황에서 지침을 따르지 않을 위험이 항상 있습니다 [1].
결론
GPT-4.5는 상충되는 지침을 처리하는 데있어 전임자보다 능력이 있지만, 완전히 새로운 유형의 갈등에 대한 적응성은 교육 데이터와 설계에 의해 제한됩니다. 새로운 시나리오를 효과적으로 처리하기 위해 추가 미세 조정 또는 창의적 프롬프트 전략이 필요할 수 있습니다. GPT-4.5와의 지속적인 연구 및 사용자 상호 작용은이 분야의 기능과 한계에 대한 통찰력을 제공 할 것입니다.
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-large-lange-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-nlec-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significently_and/