Antropic's Claude 3.5 sonett: uus võrdlusalus generatiivses AI -s

Kuidas võrrelda Anthropici hübriid AI mudel teiste AI mudelitega jõudluse osas

Anthropici Claude 3.5 sonett on uus ja võimas generatiivne AI-mudel, mis edestab mitmes valdkonnas selliseid konkurente nagu ChatGPT-4O [1]. Agendi sisemise kodeerimise hindamisel lahendas Claude 3.5 sonett 64% probleemidest, Claude 3 Opus aga 38% [1]. Lõpetajataseme põhjendustel oli see 59%, võrreldes ChatGPT-4O 53% -ga [1]. Teksti üle põhjendamisel viskas Claude 3.5 Sonnet 87%, edestades ChatGPT-4O (83%), Google'i Kaksikuid (74%) ja Meta laama (83%) [1]. ChatGPT-4O oli aga matemaatikaprobleemide lahendamisel 5% täpsem kui Claude 3.5 [1].

MMLU, GPQA, GSM8K, matemaatika, MGSM, Humaneval, Drop, Bigingi-Hardi, kaare-kaare- ja Hellaswagi võrdlusalused viitavad Anthropici andmed sellele, et see edestab GPT-4 [2]. Need testid hõlmavad laia valikut teadmisi, alates faktidest ja matemaatikast kuni mõttekäikude ja koodide genereerimiseni [2].

Anthropici Claude 3 mudelid, eriti Opus, edestavad üldiselt OpenAi GPT-4 ja Google'i Kaksikute mudeleid erinevatel ülesannetel [3]. Claude 3 näitas kodeerimisülesannetes paremat jõudlust, skoorides sellistel võrdlusalustel nagu Humaneval, edestades GPT-4 (67%) ja Gemini 1.0 Pro (67,7%) [3] [3]. Claude 3 sonett paistis silma ka keerukate kvantitatiivsete analüüsiülesannete täitmisel, kus mõnikord pingutasid GPT-4 ja Kaksikud [3].

Antropiline on laienenud tekstist visuaalseks sisendiks, et koolitada andmeid Claude 3 perega [7]. Claude 3 mudelid võimaldavad kasutajatel oma uue multimodaalse tugifunktsiooni kaudu ka andmeid, sealhulgas pilte, diagramme ja dokumente, analüüsida [4].

AI -mudeli valimisel peaksid ettevõtted arvestama täpsuse, kiiruse, privaatsuse, juurutamise lihtsuse ja hoolduse lihtsuse ja kuludega [4].

Tsitaadid:
]
]
[3] https://www.voiceflow.com/articles/anthropic-ai
]
[5] https://cloud.google.com/solutions/anthropic
]
]
]