Precisão do GPT-4.5 na solução de problemas e comparações de desempenho

Como a precisão do GPT-4.5 em questões de solução de problemas se compara à do GPT-4O e O1

A precisão do GPT-4.5 sobre questões de solução de problemas, particularmente em domínios complexos, como solução de problemas multimodais e virologia, não é explicitamente detalhada nas informações disponíveis. No entanto, o GPT-4.5 mostrou melhorias em determinadas áreas em comparação com seus antecessores. Por exemplo, ele tem um desempenho melhor no reconhecimento de padrões e nas conexões de desenho, o que pode potencialmente aprimorar seus recursos de solução de problemas [5].

Em termos de avaliações específicas, o GPT-4.5 geralmente realiza em pé de igualdade com o GPT-4O e O1 ao recusar conteúdo inseguro e em algumas avaliações relacionadas à segurança [1] [4]. No entanto, quando se trata de precisão em responder a perguntas, o GPT-4.5 mostrou melhorias significativas em determinados conjuntos de dados. Por exemplo, no conjunto de dados Pessoqa, que avalia alucinações e precisão, o GPT-4.5 atinge uma precisão de 0,78 e uma taxa de alucinação de 0,19, superando o GPT-4O e O1 [1] [4].

Nas avaliações de justiça e viés, o GPT-4.5 tem um desempenho semelhante ao GPT-4O, mas é superado pelo O1 ao fornecer respostas imparciais a perguntas inequívocas [1] [4]. Embora o GPT-4.5 tenha demonstrado melhorias no manuseio de mensagens conflitantes e aderindo às instruções de segurança, sua precisão geral na solução de problemas especificamente não é comparada diretamente ao GPT-4O e O1 nos dados disponíveis [1] [4].

Em geral, a capacidade do GPT-4.5 de reconhecer padrões e elaborar conexões pode melhorar seu desempenho nas tarefas de solução de problemas, mas comparações específicas nesse domínio são limitadas. Os observadores da indústria observaram melhorias em determinadas tarefas, como a extração de dados, onde o GPT-4.5 supera o GPT-4O extraindo campos com mais precisão [7]. No entanto, comparações detalhadas especificamente para solucionar questões não são fornecidas nas informações disponíveis.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_inciorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-Rlease
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991