Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Những điểm chuẩn cụ thể nào có DeepSeek và Copilot đã được kiểm tra chống lại


Những điểm chuẩn cụ thể nào có DeepSeek và Copilot đã được kiểm tra chống lại


Deepseek và Copilot đã được thử nghiệm so với các điểm chuẩn khác nhau, thể hiện khả năng của họ ở các khu vực khác nhau.

Điểm chuẩn

Deepseek, đặc biệt là mô hình R1 của nó, đã được đánh giá trên một số điểm chuẩn:

- Điểm chuẩn toán học: Deepseek R1 đã thực hiện mạnh mẽ trong toán học, đạt 79,8% trên điểm chuẩn AIME 2024, hơi trước O1-1217 của Openai ở mức 79,2%. Trên điểm chuẩn toán học-500, Deepseek R1 đã đạt được 97,3%ấn tượng, vượt qua O1-1217 của Openai ở mức 96,4%[3] [5].

- Điểm chuẩn mã hóa: Trong các tác vụ mã hóa, Deepseek R1 đã đạt được 96,3% cạnh tranh trên điểm chuẩn CodeForces, theo sát O1-1217 của Openai ở mức 96,6%. Trên điểm chuẩn được xác minh của SWE, Deepseek R1 đã đạt 49,2%, trước O1-1217 của Openai ở mức 48,9%[3] [5].

- Điểm chuẩn kiến ​​thức chung: Deepseek R1 đạt 71,5% trên điểm chuẩn GPQA Diamond, theo dõi O1-1217 của Openai ở mức 75,7%. Trên điểm chuẩn MMLU, Deepseek R1 đạt được 90,8%, so với O1-1217 của Openai ở mức 91,8%[3] [5].

- An ninh và an toàn: Deepseek R1 đã được kiểm tra các lỗ hổng bảo mật bằng cách sử dụng điểm chuẩn Harmbench, bao gồm các danh mục như tội phạm mạng và thông tin sai lệch. Mô hình cho thấy tỷ lệ thành công tấn công 100%, cho thấy mối quan tâm bảo mật đáng kể so với các mô hình khác như O1 của Openai [1].

Điểm chuẩn Copilot

Copilot, cụ thể trong bối cảnh của Excel, đã được thử nghiệm chống lại Deep Seek trong một so sánh trực tiếp:

- Tạo công thức Excel: Copilot đấu tranh với việc tạo công thức do yêu cầu tiết kiệm ô tô của nó, trong khi Deep Seek cung cấp các giải pháp linh hoạt hơn, giải quyết các vấn đề trong ít nỗ lực hơn [2].

-Giải thích về Công thức Excel: Copilot cung cấp các giải thích dựa trên cú pháp, trong khi Seek Seek Deep cung cấp các phân tích rõ ràng hơn, thực tế hơn về các công thức phức tạp, khiến nó trở nên thân thiện hơn với người dùng [2].

Mặc dù Copilot chưa được đánh dấu rộng rãi theo cách tương tự như DeepSeek về các tác vụ lý luận và mã hóa khác nhau, nhưng nó được công nhận về khả năng của nó trong hỗ trợ mã hóa, đặc biệt là trong Microsoft Môi trường [4].

Trích dẫn:
[1)
.
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
.
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-performance-compares-against-other-ai-tools-248368
.