Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon GPT-4.5를 위해 새로운 정렬 기술이 개발 된 것


GPT-4.5를 위해 새로운 정렬 기술이 개발 된 것


GPT-4.5의 경우 OpenAI는 소규모 모델에서 파생 된 데이터를 사용하여 더 크고 강력한 모델을 교육 할 수있는 새롭고 확장 가능한 정렬 기술을 개발했습니다. 이러한 기술은 인간의 필요와 의도를 이해하는 모델의 능력을 향상시키고 조향성, 뉘앙스 및 자연 대화 기능을 향상시킬 수 있도록 설계되었습니다.

키 정렬 기술

1. 확장 가능한 정렬 :이 접근법은 소규모 모델을 사용하여 더 큰 모델에 대한 고품질 교육 데이터를 생성하는 것입니다. 이 방법은 교육 과정을 가속화하고 미묘한 지침을 따르는 모델의 능력을 향상시킵니다. 그러나 소규모 모델에 존재하는 바이어스 또는 오류를 증폭시키는 위험을 도입한다 [4] [5].

2. 전통적인 방법의 조합 : GPT-4.5는 감독 된 미세 조정 (SFT) 및 인간 피드백 (RLHF)의 강화 학습과 같은 전통적인 방법과 함께 새로운 감독 기술의 조합을 사용하여 훈련되었습니다. SFT는 인간의 표지 된 예에서 학습하는 것이 포함되며, 이는 효과적이지만 느리고 비쌀 수 있습니다. RLHF는 인간 선호도에 따라 출력을 순위에 올랐으며, 이는 때때로 과적으로 피팅으로 이어질 수있어 AI가 지나치게 조심 스럽거나 덜 창의적으로 만들 수 있습니다 [4] [5] [7].

3. 인간의 필요에 대한 이해 향상 : 새로운 정렬 기술은 모델을 가르치는 데 중점을 둡니다. 모델이보다 복잡한 문제를 해결하고보다 미묘한 방식으로 사용자와 상호 작용하기 때문에 이것은 중요합니다 [1] [3] [5].

새로운 기술의 영향

GPT-4.5의 새로운 정렬 기술은 몇 가지 개선을 초래했습니다.

- 자연적인 상호 작용 : 내부 테스터는 GPT-4.5가 특히 감정적으로 충전 된 쿼리를 다루는 데 더 자연스럽고 직관적이라고 느낍니다. 그것은 조언, 확산 좌절을 제공하거나 필요한 경우 사용자의 말을들을 수 있습니다 [1] [3].
- 미학적 직관과 창의성 :이 모델은 더 강한 미학적 직관과 창의성을 보여 주므로 창의적인 작문 및 디자인과 같은 작업에 특히 유용합니다 [1] [3].
- 환각 감소 : GPT-4.5는 감독되지 않은 학습의 발전으로 인해 환각이 줄어들어 세계 모델 정확도와 연관 사고를 향상시킵니다 [5] [6].

전반적으로, 이러한 기술은 GPT-4.5를보다 반응적이고 효율적이며 사용자 의도에 맞게 조정하는 동시에 대형 언어 모델을 확장하는 것과 관련된 몇 가지 문제를 해결하는 것을 목표로합니다.

인용 :
[1] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-chatgpt-4-5
[2] https://arxiv.org/html/2502.11681v2
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://www.zdnet.com/article/openai-finally-unveils-4-5-heres-what-can-do/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model reelease
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/