Antropic's Claude 3.5 Sonnet: novo merilo v generativnem AI

Kako se antropični hibridni model AI primerja z drugimi modeli AI v smislu zmogljivosti

Antropic's Claude 3.5 Sonnet je nov in močan generativni AI model, ki na več področjih presega konkurente, kot je Chatgpt-4o [1]. V notranjem ocenjevanju agentskega kodiranja je Claude 3.5 Sonnet rešil 64% težav, Claude 3 Opus pa 38% [1]. Pri sklepanju na diplomiran je dosegel 59% v primerjavi s 53% Chatgpt-4o [1]. V sklepanju o besedilu je Claude 3.5 Sonnet dosegel 87%, kar je presegalo Chatgpt-4O (83%), Googlove Gemini (74%) in Meta's Llama (83%) [1]. Vendar je bil Chatgpt-4o pri reševanju problemov za reševanje problemov 5% natančnejši kot Claude 3.5 [1].

Po podatkih Anthropic v celotnem MMLU, GPQA, GSM8K, MGSM, MGSM, Humanoval, Drop, Ext-Bench-Trgovi, Arc-Challenge in Hellaswag, Anthropic-ovi podatki kažejo, da presega GPT-4 [2]. Ti testi zajemajo široko paleto znanja, od dejstev in matematike do sklepanja in ustvarjanja kode [2].

Antropic's Claude 3 modeli, zlasti OPUS, na splošno presegajo OpenAI-jeve modele GPT-4 in Googlove GEMINI na različnih nalogah [3]. Claude 3 je pokazal vrhunsko uspešnost pri kodiranju nalog, saj je dosegel 84,9%na merilih, kot so Humaneval, ki so presegli GPT-4 (67%) in Gemini 1.0 Pro (67,7%) [3]. Claude 3 Sonnet se je odlično odrezal tudi pri zapletenih kvantitativnih analizah, kjer sta se včasih borila GPT-4 in Gemini [3].

Antropic se je presegel besedilo v vizualni vnos za podatke o treningu z družino Claude 3 [7]. Modeli Claude 3 omogočajo tudi uporabnikom, da analizirajo podatke, vključno s slikami, grafikoni in dokumenti, s svojo novo multimodalno funkcijo podpore [4].

Pri izbiri modela AI morajo podjetja upoštevati natančnost, hitrost, zasebnost, enostavnost uvajanja ali vzdrževanja in stroške [4].

Navedbe:
[1] https://www.euronews.com/next/2024/06/20/anthropic-launches-its-latest-most-powerful-generative-aa-model
[2] https://synthedia.substack.com/p/anthropic-says-it-yst-dehroning
[3] https://www.voiceflow.com/articles/anthropic-ai
[4] https://www.pymnts.com/news/artificial-intelligence/2024/how-anthropics-new-claude-3-ai-model-stacks-up-against-the-competition/
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitude.io/post/navigating-the-ai-landscape-openai-vs-anthropic-Vs-google-aa-in-in-2024
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-off-performance-and-price-salvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-Coparison-2024-anthropic-vs-google-vs-Openai