人類のクロード3.5ソネット：生成AIの新しいベンチマーク

AnthropicのハイブリッドAIモデルは、パフォーマンスの観点から他のAIモデルと比較してどのように比較されますか

Anthropic's Claude 3.5 Sonnetは、いくつかの領域でChatGPT-4oなどの競合他社を上回る新しい強力な生成AIモデルです[1]。内部エージェントコーディング評価では、Claude 3.5 Sonnetは問題の64％を解決し、Claude 3 Opusは38％を解決しました[1]。大学院レベルの推論では、ChATGPT-4oの53％[1]と比較して59％を獲得しました。テキストをめぐる推論では、Claude 3.5 Sonnetは87％を獲得し、ChatGPT-4O（83％）、GoogleのGemini（74％）、およびMetaのLlama（83％）を上回りました[1]。ただし、CHATGPT-4Oは、数学の問題解決でClaude 3.5よりも5％正確でした[1]。

MMLU、GPQA、GSM8K、MATH、MGSM、Humanval、Drop、Big-Bench-Hard、Arc-Challenge、およびHellaswagベンチマーク全体で、AnthropicのデータはGPT-4を上回ることを示唆しています[2]。これらのテストには、事実や数学から推論やコード生成まで、幅広い知識が含まれます[2]。

AnthropicのClaude 3モデル、特にOpusは、一般に、さまざまなタスクでOpenaiのGPT-4とGoogleのGeminiモデルよりも優れています[3]。 Claude 3は、Codingタスクで優れたパフォーマンスを示し、Humanval、Autporforming GPT-4（67％）、Gemini 1.0 Pro（67.7％）などのベンチマークで84.9％を獲得しました[3]。 Claude 3 Sonnetは、GPT-4とGeminiが時々苦労した複雑な定量分析タスクにも優れていました[3]。

人類は、Claude 3ファミリー[7]でデータをトレーニングするために、テキストを超えて視覚入力に拡大しました。 Claude 3モデルでは、新しいマルチモーダルサポート機能[4]を使用して、ユーザーが写真、チャート、ドキュメントなどのデータを分析することもできます。

AIモデルを選択する際、企業は正確性、速度、プライバシー、展開またはメンテナンスの容易さ、およびコストを検討する必要があります[4]。

引用：
[1] https://www.euronews.com/next/2024/06/20/anthropic-launches-its-latest-most-powerful-generative-ai-model
[2] https://synthedia.substack.com/p/anthropic-says-it-dethroned
[3] https://www.voiceflow.com/articles/anthropic-ai
[4] https://www.pymnts.com/news/artificial-intelligence/2024/how-anthropics-new-claude-3-ai-model-stacks--the competition/
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitute.io/post/navigating-the-ai-landscape-openai-vs-anthopic-vs-google-in-2024
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-fformance-and-price-salvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-anthropic-vs-google-vs-openai