Antropic's Claude 3.5 Sonnet: jauns etalons ģeneratīvā AI

Kā Antropic hibrīda AI modelis salīdzina ar citiem AI modeļiem veiktspējas ziņā

Anthropic's Claude 3.5 Sonnet ir jauns un spēcīgs ģeneratīvs AI modelis, kas vairākās jomās pārspēj tādus konkurentus kā Chatgpt-4o [1]. Iekšējā aģentiskā kodēšanas novērtējumā Claude 3,5 sonets atrisināja 64% problēmu, bet Claude 3 OPUS atrisināja 38% [1]. Pēc absolventa līmeņa argumentācijas tas ieguva 59%, salīdzinot ar Chatgpt-4o 53% [1]. Ar spriešanu par tekstu Claude 3.5 Sonnet ieguva 87%, pārspējot Chatgpt-4o (83%), Google Dvīņi (74%) un Meta's Llama (83%) [1]. Tomēr ChATGPT-4O bija par 5% precīzāks nekā Claude 3.5 matemātikas problēmu risināšanā [1].

Visā MMLU, GPQA, GSM8K, matemātikā, MGSM, Humaneval, Drop, Big-Hard, Arc-Challenge un Hellaswag etalonos, Antropic dati liecina, ka tas pārspēj GPT-4 [2]. Šie testi aptver plašu zināšanu klāstu, sākot no faktiem un matemātikas līdz argumentācijai un kodu ģenerēšanai [2].

Anthropic's Claude 3 modeļi, īpaši OPU, parasti pārspēj Openai GPT-4 un Google Dvīņu modeļus dažādos uzdevumos [3]. Claude 3 parādīja izcilu veiktspēju kodēšanas uzdevumos, vērtējot 84,9%uz etaloniem, piemēram, humaneval, pārspējot GPT-4 (67%) un Gemini 1,0 Pro (67,7%) [3]. Claude 3 Sonnet arī izcēlās ar sarežģītiem kvantitatīvās analīzes uzdevumiem, kur dažreiz cīnījās GPT-4 un Dvīņi [3].

Anthropic ir paplašinājies ārpus teksta uz vizuālu ievadi apmācības datiem ar Claude 3 ģimeni [7]. Claude 3 modeļi arī ļauj lietotājiem analizēt datus, ieskaitot attēlus, diagrammas un dokumentus, izmantojot jauno multimodālo atbalsta funkciju [4].

Izvēloties AI modeli, uzņēmumiem jāapsver precizitāte, ātrums, privātums, izvietošanas vai apkopes vienkāršība, kā arī izmaksas [4].

Atsauces:
[1.]
[2] https://synthedia.substack.com/p/anthropic-says-it-just-dethroned
[3] https://www.voiclow.com/articles/anthropic-ai
.
[5] https://cloud.google.com/solutions/anthropic
[6.]
[7] https://www.nextplatform.com/2024/03/05/anthropic-fires-ff-performance-and-price-salvos-in-ai-war/
[8] https://big-agi.com/blog/ai-api-comparison-2024-anthropic-vs-google-vs-openai