문제 해결 질문, 특히 멀티 모달 문제 해결 및 바이러스와 같은 복잡한 도메인에서 GPT-4.5의 정확도는 사용 가능한 정보에 명시 적으로 자세히 설명되지 않습니다. 그러나 GPT-4.5는 전임자에 비해 특정 지역에서 개선을 보여 주었다. 예를 들어, 패턴과 도면 연결을 인식하는 데 더 나은 성능을 발휘하여 문제 해결 기능을 향상시킬 수 있습니다 [5].
특정 평가 측면에서 GPT-4.5는 일반적으로 안전하지 않은 내용을 거부하고 일부 안전 관련 평가에서 GPT-4O 및 O1과 동등하게 수행됩니다 [1] [4]. 그러나 질문에 대한 답변의 정확성과 관련하여 GPT-4.5는 특정 데이터 세트에서 크게 개선되었습니다. 예를 들어, 환각과 정확도를 평가하는 PersonQA 데이터 세트에서 GPT-4.5는 0.78의 정확도와 0.19의 환각 속도를 달성하여 GPT-4O 및 O1을 능가합니다 [1] [4].
공정성 및 편견 평가에서 GPT-4.5는 GPT-4O와 유사하게 수행되지만 명백한 질문에 대한 편견없는 답변을 제공하는 데있어 O1에 의해 성능이 우수합니다 [1] [4]. GPT-4.5는 충돌하는 메시지를 처리하고 안전 지침을 준수하는 데있어 개선을 입증했지만, 문제 해결 문제의 전반적인 정확도는 구체적으로 이용 가능한 데이터에서 GPT-4O 및 O1과 직접 비교되지 않습니다 [1] [4].
일반적으로 GPT-4.5의 패턴을 인식하고 연결을 드러내는 능력은 문제 해결 작업에서 성능을 향상시킬 수 있지만이 도메인의 특정 비교는 제한적입니다. 업계 관측자들은 데이터 추출과 같은 특정 작업의 개선에 주목했다. 여기서 GPT-4.5는 필드를보다 정확하게 추출하여 GPT-4O보다 성능이 우수합니다 [7]. 그러나 문제 해결 질문에 대한 자세한 비교는 사용 가능한 정보에 제공되지 않습니다.
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_relered_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_272225.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model reelease
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-n-dd question-frice/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-better/746991