GPT-4.5トラブルシューティングとパフォーマンスの比較における精度

トラブルシューティングの質問に対するGPT-4.5の精度は、GPT-4OおよびO1の精度とどのように比較されますか

特にマルチモーダルトラブルシューティングやウイルス学などの複雑なドメインでのトラブルシューティングの質問に対するGPT-4.5の精度は、利用可能な情報に明示的に詳述されていません。ただし、GPT-4.5は、前任者と比較して特定の分野で改善を示しています。たとえば、パターンを認識し、接続を描画する際にパフォーマンスが向上し、トラブルシューティング機能が強化される可能性があります[5]。

特定の評価に関しては、GPT-4.5は一般に、安全でないコンテンツを拒否し、一部の安全関連の評価でGPT-4OとO1と同等に機能します[1] [4]。ただし、質問への回答の正確性に関しては、GPT-4.5は特定のデータセットの大幅な改善を示しています。たとえば、幻覚と精度を評価するPersonQAデータセットでは、GPT-4.5は0.78の精度と0.19の幻覚速度を達成し、GPT-4OとO1 [1] [4]を上回ります。

公平とバイアスの評価では、GPT-4.5はGPT-4Oと同様に機能しますが、O1によっては、明確な質問に偏りのない回答を提供する際にアウトパフォームされています[1] [4]。 GPT-4.5は、競合するメッセージの処理と安全指示に準拠することの改善を実証していますが、特にトラブルシューティングの質問における全体的な精度は、利用可能なデータでGPT-4OおよびO1と直接比較されません[1] [4]。

一般に、GPT-4.5のパターンを認識して接続を描画する能力は、トラブルシューティングタスクのパフォーマンスを向上させる可能性がありますが、このドメインでの特定の比較は限られています。業界のオブザーバーは、GPT-4.5がフィールドをより正確に抽出することによりGPT-4Oを上回るデータ抽出などの特定のタスクの改善に注目しています[7]。ただし、トラブルシューティングに関する詳細な比較は、利用可能な情報には提供されていません。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releaded_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_272025025025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-5-Orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-cpt-4-vs-gpt-3-5-comparison-in-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991