Anthropic's Claude 3.5 Sonnet: Một điểm chuẩn mới trong AI thế hệ

Làm thế nào để mô hình AI lai của Anthropic so sánh với các mô hình AI khác về hiệu suất

Sonnet Claude 3.5 của Anthropic là một mô hình AI mới và mạnh mẽ vượt trội so với các đối thủ như TNTGPT-4O trong một số lĩnh vực [1]. Trong một đánh giá mã hóa tác nhân nội bộ, Claude 3,5 Sonnet đã giải quyết được 64% các vấn đề, trong khi Claude 3 Opus đã giải quyết 38% [1]. Theo lý luận cấp sau đại học, nó đã đạt 59% so với 53% của TATGPT-4O [1]. Để lý luận về văn bản, Claude 3,5 Sonnet đạt 87%, vượt trội hơn TATGPT-4O (83%), Song Tử của Google (74%) và Meta's Llama (83%) [1]. Tuy nhiên, TATGPT-4O chính xác hơn 5% so với Claude 3.5 trong giải quyết vấn đề toán học [1].

Trên khắp MMLU, GPQA, GSM8K, MATH, MGSM, Humaneval, Drop, Big Bench-Hard, Arc-Challenge và Hellaswag, dữ liệu của Anthropic cho thấy nó vượt trội so với GPT-4 [2]. Các bài kiểm tra này bao gồm một loạt các kiến thức, từ sự kiện và toán học đến lý luận và tạo mã [2].

Các mô hình Claude 3 của Anthropic, đặc biệt là OPUS, nói chung vượt trội so với các mô hình GPPT-4 của Openai và Google trên các tác vụ khác nhau [3]. Claude 3 cho thấy hiệu suất vượt trội trong các nhiệm vụ mã hóa, đạt 84,9%trên các điểm chuẩn như Nhân đạo, vượt trội hơn GPT-4 (67%) và Gemini 1.0 Pro (67,7%) [3]. Claude 3 Sonnet cũng xuất sắc trong các nhiệm vụ phân tích định lượng phức tạp, trong đó GPT-4 và Gemini đôi khi phải vật lộn [3].

Nhân học đã mở rộng ra ngoài văn bản thành đầu vào trực quan để đào tạo dữ liệu với họ Claude 3 [7]. Các mô hình Claude 3 cũng cho phép người dùng phân tích dữ liệu, bao gồm hình ảnh, biểu đồ và tài liệu, thông qua tính năng hỗ trợ đa phương thức mới [4].

Khi chọn mô hình AI, các doanh nghiệp nên xem xét độ chính xác, tốc độ, quyền riêng tư, dễ triển khai hoặc bảo trì và chi phí [4].

Trích dẫn:
[1] https://www.euronews.com/next/2024/06/20/anthropic-launches-its-latest-most-powerful-generative-ai-model
[2] https://synthedia.substack.com/p/anthropic-says-it-just-dethroned
[3] https://www.voiceflow.com/articles/anthropic-ai
.
[5] https://cloud.google.com/solutions/anthropic
[6] https://www.promptitude.io/post/navigating-the-ai-landscape-openai-vs-anthropic-vs-google-ai-in-2024
.
[8] https://big-agi.com/blog/ai-api-comparison-2024-anthropic-vs-google-vs-openai