GPT-4.5 vs. GPT-4O: Comparação de redução e precisão de alucinação e precisão

Como o desempenho do GPT-4.5 se compara ao GPT-4O em termos de alucinações

GPT-4.5 e GPT-4O são modelos avançados de linguagem desenvolvidos pelo OpenAI, cada um com melhorias distintas sobre seus antecessores. Ao comparar seu desempenho em termos de alucinações, o GPT-4.5 demonstra uma redução significativa nas taxas de alucinação em comparação ao GPT-4O.

Redução de alucinação no GPT-4.5

-Taxa de alucinação: o GPT-4.5 possui uma taxa de alucinação de aproximadamente 19% quando testada no conjunto de dados Pessoqa, que é uma melhoria substancial em relação à taxa do GPT-4O de cerca de 52% [2] [5]. Essa redução indica que o GPT-4.5 é mais confiável e menos propenso a gerar informações que não são fundamentadas em dados factuais.
-Técnicas de melhoria: A redução nas alucinações no GPT-4.5 é atribuída a novas técnicas de supervisão combinadas com métodos tradicionais como ajuste fino supervisionado (SFT) e aprendizado de reforço com o feedback humano (RLHF) [1]. Esses métodos ajudam a melhorar a precisão e a confiabilidade do modelo.

Comparação de desempenho ###

-Precisão: em termos de precisão no conjunto de dados PessoqA, o GPT-4.5 atinge uma precisão mais alta de 78%, em comparação com os 28%do GPT-4O [2] [5]. Isso sugere que não apenas o GPT-4.5 alucina menos, mas também fornece respostas mais precisas.
- Confiabilidade geral: a menor taxa de alucinação e maior precisão do GPT-4.5 o tornam uma escolha mais confiável para aplicativos que exigem informações precisas e confiáveis. No entanto, ambos os modelos têm desempenho semelhante em certas avaliações, como avaliações de justiça e viés [5].

Em resumo, o GPT-4.5 supera o GPT-4O em termos de redução e precisão da alucinação, tornando-a uma opção mais confiável para tarefas que requerem informações precisas e factuais. No entanto, ambos os modelos têm seus pontos fortes e fracos em diferentes domínios e avaliações.

Citações:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_cards
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-hey-comparpare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences to-consider