Anthropic's Claude 3.5 Sonet: Nová referenčná hodnota v generatívnej AI

Ako porovnáva hybridný model AI spoločnosti Anthropic s inými modelmi AI z hľadiska výkonu

Anthropic's Claude 3.5 Sonnet je nový a výkonný generatívny model AI, ktorý prevyšuje konkurenti, ako je Chatgpt-4o v niekoľkých oblastiach [1]. Pri vyhodnotení interného agenta kódovania Claude 3,5 Sonnet vyriešilo 64% problémov, zatiaľ čo Claude 3 OPUS vyriešil 38% [1]. Pri zdôvodnení na úrovni absolventov získal 59% 59% v porovnaní s 53% Chatgpt-4o [1]. Pri zdôvodnení textu Claude 3,5 Sonnet skóroval 87%, prekonal chatgpt-4o (83%), Google's Gemini (74%) a Meta's Llama (83%) [1]. Chatgpt-4o však bol o 5% presnejší ako Claude 3,5 pri riešení matematických problémov [1].

Cez MMLU, GPQA, GSM8K, MATH, MGSM, Humaneval, Drop, Big Bench-Hard, Arc-Challenge a Hellaswag Benchmarks, údaje Antropic naznačujú, že prekonávajú GPT-4 [2]. Tieto testy zahŕňajú širokú škálu vedomostí, od faktov a matematiky po zdôvodnenie a generovanie kódu [2].

Modely Claude 3 Anthropic, najmä Opus, vo všeobecnosti prekonávajú modely GPT-4 a Gemini spoločnosti Google v rôznych úlohách [3]. Claude 3 vykazoval vynikajúci výkon v kódovacích úlohách, bodoval 84,9%v referenčných hodnotách ako Humaneval, prekonal GPT-4 (67%) a Gemini 1,0 Pro (67,7%) [3]. Claude 3 Sonnet tiež vynikal z komplexných kvantitatívnych analytických úloh, kde GPT-4 a Blíženci niekedy bojovali [3].

Anthropic sa rozšíril nad rámec textu do vizuálneho vstupu na výcvikové údaje s rodinou Claude 3 [7]. Modely Claude 3 tiež umožňujú používateľom analyzovať údaje vrátane obrázkov, grafov a dokumentov prostredníctvom svojej novej funkcie multimodálnej podpory [4].

Pri výbere modelu AI by podniky mali zvážiť presnosť, rýchlosť, súkromie, ľahké nasadenie alebo údržbu a náklady [4].

Citácie:
[1] https://www.euronews.com/next/2024/06/20/anthropic-launches-its-latest-most-most-powerful-generative-ai-model
[2] https://synthedia.substack.com/p/anthropic-says-it-just-Dethroned
[3] https://www.voiceflow.com/articles/anthropic-ai
[4] https://www.pynts.com/news/artificial-intelligence/2024/how-anthropics-new-claude-3-ai-model-tacks-packs-packs-against-the-competition/
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitude.io/post/navigating-the-ai-landscape-openai-vs-anthropic-vs-oogle-ai-in-2024
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-ff-performance-and-price-salvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-anthropic-vs-oogle-vs-openai