Anthropic's Claude 3.5 Sonnet: Benchmark baru di AI generatif

Bagaimana model AI hibrida antropik dibandingkan dengan model AI lainnya dalam hal kinerja

Anthropic's Claude 3.5 Sonnet adalah model AI generatif baru dan kuat yang mengungguli pesaing seperti ChatGPT-4O di beberapa bidang [1]. Dalam evaluasi pengkodean agen internal, Claude 3.5 soneta memecahkan 64% masalah, sedangkan Claude 3 opus memecahkan 38% [1]. Pada penalaran tingkat pascasarjana, mencetak 59% dibandingkan dengan 53% chatgpt-4o [1]. Dalam penalaran atas teks, Claude 3.5 sonnet mencetak 87%, mengungguli ChatGPT-4O (83%), Google Gemini (74%), dan Llama Meta (83%) [1]. Namun, chatgpt-4o 5% lebih akurat daripada Claude 3.5 dalam pemecahan masalah matematika [1].

Di seberang MMLU, GPQA, GSM8K, Matematika, MGSM, Humaneval, Drop, Big Bigh-Hard, Arc-Challenge, dan Hellaswag Benchmarks, data antropik menunjukkan bahwa itu mengungguli GPT-4 [2]. Tes -tes ini mencakup berbagai pengetahuan, dari fakta dan matematika hingga penalaran dan pembuatan kode [2].

Model Claude 3 Anthropic, terutama Opus, umumnya mengungguli GPT-4 Openai dan model Gemini Google pada berbagai tugas [3]. Claude 3 menunjukkan kinerja yang unggul dalam tugas pengkodean, mencetak 84,9%pada tolok ukur seperti humaneval, mengungguli GPT-4 (67%) dan Gemini 1.0 Pro (67,7%) [3]. Claude 3 Sonnet juga unggul dalam tugas analisis kuantitatif yang kompleks, di mana GPT-4 dan Gemini terkadang berjuang [3].

Antropik telah berkembang melampaui teks menjadi input visual untuk data pelatihan dengan keluarga Claude 3 [7]. Model Claude 3 juga memungkinkan pengguna untuk menganalisis data, termasuk gambar, bagan, dan dokumen, melalui fitur dukungan multimodal yang baru [4].

Saat memilih model AI, bisnis harus mempertimbangkan akurasi, kecepatan, privasi, kemudahan penyebaran atau pemeliharaan, dan biaya [4].

Kutipan:
[1] https://www.euronews.com/next/2024/06/20/anthropic-launches-its-latest-most-powerfulful-generative-ai-model
[2] https://synthedia.substack.com/p/anthropic-says-it-just-dethroned
[3] https://www.voiceflow.com/articles/anthropic-ai
[4] https://www.pymnts.com/news/artificial-intelligence/2024/how-anthropics-new-claude-3-ai-model-stacks-up-against-the-competition/
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitude.io/post/navigating-the-ai-anlandscape-openai-vs-anthropic-vs-google-ai-in-2024
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-off-performance-and-pice-salvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-anthropic-vs-google-vs-openai