Anthropic's Claude 3.5 Sonnet: Et nyt benchmark i generativ AI

Hvordan sammenlignes Anthropics hybrid AI -model med andre AI -modeller med hensyn til ydeevne

Anthropics Claude 3.5 Sonnet er en ny og kraftfuld generativ AI-model, der overgår konkurrenter som ChatGPT-4O på flere områder [1]. I en intern agentkodningsevaluering løste Claude 3,5 Sonnet 64% af problemer, mens Claude 3 Opus løste 38% [1]. På ræsonnement på kandidatniveau scorede det 59% sammenlignet med ChatGPT-4Os 53% [1]. I resonnement over tekst scorede Claude 3.5 Sonnet 87%, der overgik ChatGpt-4O (83%), Googles Gemini (74%) og Metas LLAMA (83%) [1]. Chatgpt-4O var imidlertid 5% mere nøjagtig end Claude 3.5 i matematikproblemløsning [1].

På tværs af MMLU, GPQA, GSM8K, Math, MGSM, Humaneval, Drop, Big-Bench-Hard, Arc-Challenge og Hellaswag Benchmarks, antyder Anthropics data, at de overgår GPT-4 [2]. Disse test omfatter en bred vifte af viden, fra fakta og matematik til ræsonnement og kodegenerering [2].

Anthropics Claude 3-modeller, især Opus, overgår generelt Openais GPT-4 og Googles Gemini-modeller på forskellige opgaver [3]. Claude 3 viste overlegen ydelse i kodningsopgaver, scorede 84,9%på benchmarks som Humaneval, der overgår GPT-4 (67%) og Gemini 1,0 Pro (67,7%) [3]. Claude 3 Sonnet udmærkede sig også ved komplekse kvantitative analyseopgaver, hvor GPT-4 og Gemini undertiden kæmpede [3].

Antropisk er udvidet ud over tekst til visuelle input til træningsdata med Claude 3 -familien [7]. Claude 3 -modellerne giver også brugerne mulighed for at analysere data, herunder billeder, diagrammer og dokumenter, gennem sin nye multimodale supportfunktion [4].

Når man vælger en AI -model, skal virksomheder overveje nøjagtighed, hastighed, privatliv, let implementering eller vedligeholdelse og omkostninger [4].

Citater:
)
[2] https://synthedia.substack.com/p/anthropic-says-it-just-Dethroned
[3] https://www.voiceflow.com/articles/anthropic-i
)
[5] https://cloud.google.com/solutions/anthropic
)
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-off-performance-and-price-salvos-in-i-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-antropic-vs-google-vs-openai