GPT-4.5 Dokładność rozwiązywania problemów i porównań wydajności

W jaki sposób dokładność GPT-4.5 w zakresie rozwiązywania problemów w porównaniu z dokładnością GPT-4O i O1

Dokładność GPT-4.5 w zakresie rozwiązywania problemów, szczególnie w złożonych domenach, takich jak multimodalne rozwiązywanie problemów i wirusologia, nie jest wyraźnie szczegółowa w dostępnych informacjach. Jednak GPT-4.5 wykazał poprawę w niektórych obszarach w porównaniu z jego poprzednikami. Na przykład osiąga lepsze wyniki w rozpoznawaniu wzorów i rysowania połączeń, co może potencjalnie zwiększyć jego możliwości rozwiązywania problemów [5].

Pod względem konkretnych ocen GPT-4.5 zazwyczaj działa na równi z GPT-4O i O1 w odmawianiu niebezpiecznych treści i niektórych ocen związanych z bezpieczeństwem [1] [4]. Jednak jeśli chodzi o dokładność odpowiadania na pytania, GPT-4.5 wykazał znaczną poprawę w niektórych zestawach danych. Na przykład w zestawie danych Personqa, który ocenia halucynacje i dokładność, GPT-4,5 osiąga dokładność 0,78 i szybkość halucynacji 0,19, przewyższając GPT-4O i O1 [1] [4].

W sprawiedliwości i ocenach odchylenia GPT-4.5 działa podobnie do GPT-4O, ale jest przewyższony przez O1 w dostarczaniu obiektywnych odpowiedzi na jednoznaczne pytania [1] [4]. Podczas gdy GPT-4.5 wykazał poprawę w zakresie obchodzenia się z sprzecznymi wiadomościami i przestrzeganiem instrukcji bezpieczeństwa, jego ogólna dokładność w rozwiązywaniu problemów nie jest bezpośrednio porównywana z GPT-4O i O1 w dostępnych danych [1] [4].

Ogólnie rzecz biorąc, zdolność GPT-4.5 do rozpoznawania wzorców i rysowania połączeń może zwiększyć jego wydajność w zadaniach związanych z rozwiązywaniem problemów, ale specyficzne porównania w tej dziedzinie są ograniczone. Obserwatorzy branży zauważyli poprawę niektórych zadań, takich jak ekstrakcja danych, w których GPT-4.5 przewyższa GPT-4O, dokładniej wyodrębniając pól [7]. Jednak szczegółowe porównania specjalnie dla pytań dotyczących rozwiązywania problemów nie są przedstawione w dostępnych informacjach.

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_release_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[5] https://www.thheverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-inal-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-ts-price/
[8] https://community.openai.com/t/gpt-4-vs-gppt-4o-hhich-is-the-better/746991