Antropic'in Claude 3.5 Sonnet: Üretken AI'da yeni bir ölçüt

Antropik'in hibrid AI modeli performans açısından diğer AI modelleriyle nasıl karşılaştırılır?

Antropic'in Claude 3.5 sonnet, çeşitli alanlarda chatgpt-4o gibi rakiplerden daha iyi performans gösteren yeni ve güçlü bir üretken AI modelidir [1]. Bir iç aracı kodlama değerlendirmesinde, Claude 3.5 sonnet problemlerin% 64'ünü çözerken, Claude 3 Opus% 38'i çözdü [1]. Lisansüstü düzeydeki akıl yürütmede, ChatGPT-4O'nun% 53'üne kıyasla% 59 puan aldı [1]. Metin üzerinde akıl yürütmede, Claude 3.5 sonnet%87 puan aldı, chatgpt-4o (%83), Google'ın İkizleri (%74) ve Meta'nın Llama (%83) [1]. Bununla birlikte, chatgpt-4o, matematik problem çözmesinde Claude 3.5'ten% 5 daha doğruydu [1].

MMLU, GPQA, GSM8K, Matematik, MGSM, Humaneval, Drop, Big Bench-Hard, Arc-Challenge ve Hellaswag karşılaştırmalarında Antropic'in verileri GPT-4'ten daha iyi performans gösterdiğini göstermektedir [2]. Bu testler, gerçeklerden ve matematikten akıl yürütme ve kod üretimine kadar geniş bir bilgi yelpazesini kapsamaktadır [2].

Antropic'in Claude 3 modelleri, özellikle Opus, genellikle Openai'nin GPT-4'ünü ve Google'ın İkizler modellerini çeşitli görevlerde daha iyi performans gösterir [3]. Claude 3, kodlama görevlerinde üstün performans gösterdi, Humaneval gibi kriterlerde%84.9 puan aldı, GPT-4 (%67) ve Gemini 1.0 Pro (%67.7) [3]. Claude 3 sonnet ayrıca GPT-4 ve Gemini'nin bazen mücadele ettiği karmaşık nicel analiz görevlerinde de başarılı oldu [3].

Antropik, Claude 3 ailesi ile eğitim verileri için metnin ötesine geçmiştir [7]. Claude 3 modelleri ayrıca yeni multimodal destek özelliği ile kullanıcıların resimler, grafikler ve belgeler dahil verileri analiz etmesine izin verir [4].

Bir AI modeli seçerken, işletmeler doğruluk, hız, gizlilik, dağıtım kolaylığı veya bakım ve maliyeti dikkate almalıdır [4].

Alıntılar:
[1] https://www.euronews.com/next/2024/06/20/anthropic-laches-its-latest-fowerful-benerativative-ai-model
[2] https://synthedia.substack.com/p/anthropic-tays-it--dethroned
[3] https://www.voiceflow.com/articles/anthropic-ai
[4] https://www.pymnts.com/news/artical-intielligence/2024/how-antropics-new-claude-3-ai-model-stacks-up-against-to-competition/
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitude.io/post/navigating-the-ai-landscape-openai-vs-antropic-vs-google-ain-in-2024
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-formance-and-price-alvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-antropic-vs-google-vs-openai