Anthropic's Claude 3.5 Sonnetは、いくつかの領域でChatGPT-4oなどの競合他社を上回る新しい強力な生成AIモデルです[1]。内部エージェントコーディング評価では、Claude 3.5 Sonnetは問題の64%を解決し、Claude 3 Opusは38%を解決しました[1]。大学院レベルの推論では、ChATGPT-4oの53%[1]と比較して59%を獲得しました。テキストをめぐる推論では、Claude 3.5 Sonnetは87%を獲得し、ChatGPT-4O(83%)、GoogleのGemini(74%)、およびMetaのLlama(83%)を上回りました[1]。ただし、CHATGPT-4Oは、数学の問題解決でClaude 3.5よりも5%正確でした[1]。
MMLU、GPQA、GSM8K、MATH、MGSM、Humanval、Drop、Big-Bench-Hard、Arc-Challenge、およびHellaswagベンチマーク全体で、AnthropicのデータはGPT-4を上回ることを示唆しています[2]。これらのテストには、事実や数学から推論やコード生成まで、幅広い知識が含まれます[2]。
AnthropicのClaude 3モデル、特にOpusは、一般に、さまざまなタスクでOpenaiのGPT-4とGoogleのGeminiモデルよりも優れています[3]。 Claude 3は、Codingタスクで優れたパフォーマンスを示し、Humanval、Autporforming GPT-4(67%)、Gemini 1.0 Pro(67.7%)などのベンチマークで84.9%を獲得しました[3]。 Claude 3 Sonnetは、GPT-4とGeminiが時々苦労した複雑な定量分析タスクにも優れていました[3]。
人類は、Claude 3ファミリー[7]でデータをトレーニングするために、テキストを超えて視覚入力に拡大しました。 Claude 3モデルでは、新しいマルチモーダルサポート機能[4]を使用して、ユーザーが写真、チャート、ドキュメントなどのデータを分析することもできます。
AIモデルを選択する際、企業は正確性、速度、プライバシー、展開またはメンテナンスの容易さ、およびコストを検討する必要があります[4]。
引用:
[1] https://www.euronews.com/next/2024/06/20/anthropic-launches-its-latest-most-powerful-generative-ai-model
[2] https://synthedia.substack.com/p/anthropic-says-it-dethroned
[3] https://www.voiceflow.com/articles/anthropic-ai
[4] https://www.pymnts.com/news/artificial-intelligence/2024/how-anthropics-new-claude-3-ai-model-stacks--the competition/
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitute.io/post/navigating-the-ai-landscape-openai-vs-anthopic-vs-google-in-2024
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-fformance-and-price-salvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-anthropic-vs-google-vs-openai