GPT-4.5: Precisão aprimorada com taxas reduzidas de alucinação

Existem domínios onde a taxa de alucinação do GPT-4.5 é particularmente baixa

O GPT-4.5, o modelo mais recente do OpenAI, demonstra uma redução significativa nas taxas de alucinação em comparação com seus antecessores. Embora geralmente mostre uma taxa de alucinação de cerca de 37%, existem domínios e avaliações específicos em que seu desempenho é notavelmente melhor.

Técnicas de redução de alucinação

O GPT-4.5 emprega novas técnicas de supervisão, incluindo o ajuste fino supervisionado (SFT) e o aprendizado de reforço com o feedback humano (RLHF), que contribuem para sua menor taxa de alucinação [1] [3]. Esses métodos ajudam a melhorar a precisão e a confiabilidade do modelo, garantindo que ele gere informações fundamentadas em dados factuais.

desempenho em domínios específicos

- Avaliação do PESOLQA: No conjunto de dados Pessoqa, que testa a capacidade de um modelo de responder a perguntas sobre pessoas com precisão, o GPT-4.5 mostra uma taxa de alucinação de cerca de 19%. Isso é menor que sua taxa geral e indica que em domínios envolvendo informações factuais sobre indivíduos, o GPT-4.5 tem um bom desempenho com menos alucinações [3].

-Tarefas relacionadas ao idioma: o GPT-4.5 se destaca em tarefas de escrita e programação, oferecendo explicações detalhadas e assistência na solução prática de problemas. Embora as taxas de alucinação específicas para essas tarefas não sejam detalhadas, o melhor reconhecimento de padrões e a base de conhecimento mais ampla do modelo contribuem para saídas mais precisas e confiáveis [1] [5].

- Comparação com outros modelos: em certas avaliações, como o modelo de raciocínio de O1, a taxa de alucinação do GPT-4.5 é maior (37% vs. 44% para O1). No entanto, o GPT-4.5 foi projetado para aplicações de uso mais geral, em vez de tarefas de raciocínio especializadas [5].

No geral, a taxa de alucinação do GPT-4.5 é particularmente baixa em domínios, onde foi extensivamente treinado e avaliado, como no conjunto de dados do PersonQA. No entanto, seu desempenho pode variar entre diferentes tarefas e avaliações, refletindo os desafios contínuos na redução de alucinações nos modelos de IA.

Citações:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_expling_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-específicos-data-from-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-laying-users-expand-access-next-Week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386