Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon เกณฑ์มาตรฐานที่เฉพาะเจาะจงมีการทดสอบแบบลึกและนักแต่งเพลง


เกณฑ์มาตรฐานที่เฉพาะเจาะจงมีการทดสอบแบบลึกและนักแต่งเพลง


Deepseek และ Copilot ได้รับการทดสอบกับเกณฑ์มาตรฐานต่างๆโดยแสดงความสามารถของพวกเขาในพื้นที่ต่าง ๆ

เกณฑ์มาตรฐาน Deepseek

Deepseek โดยเฉพาะแบบจำลอง R1 ได้รับการประเมินในหลายเกณฑ์มาตรฐาน:

- เกณฑ์มาตรฐานคณิตศาสตร์: Deepseek R1 ดำเนินการอย่างมากในวิชาคณิตศาสตร์ทำคะแนน 79.8% ตามเกณฑ์มาตรฐาน AIME 2024 ก่อนหน้าของ Openai ของ Openai เล็กน้อยที่ 79.2% ในเกณฑ์มาตรฐานคณิตศาสตร์ -500 Deepseek R1 ประสบความสำเร็จ 97.3%ที่น่าประทับใจเหนือกว่า Openai ของ O1-1217 ที่ 96.4%[3] [5]

- มาตรฐานการเข้ารหัส: ในงานการเข้ารหัส Deepseek R1 ประสบความสำเร็จในการแข่งขัน 96.3% ตามเกณฑ์มาตรฐาน CodeForces อย่างใกล้ชิดหลังจาก OpenAI ของ OPONAI ที่ 96.6% บนเกณฑ์มาตรฐานที่ผ่านการตรวจสอบของ SWE-bench, Deepseek R1 ได้คะแนน 49.2%ก่อนหน้า Openai ของ Openai เล็กน้อยที่ 48.9%[3] [5]

- เกณฑ์มาตรฐานความรู้ทั่วไป: Deepseek R1 ได้คะแนน 71.5% จากเกณฑ์มาตรฐานเพชร GPQA, ต่อท้าย O1-1217 ที่ 75.7% บนเกณฑ์มาตรฐาน MMLU Deepseek R1 ประสบความสำเร็จ 90.8%หลัง Openai ของ Openai เล็กน้อยที่ 91.8%[3] [5]

- ความปลอดภัยและความปลอดภัย: Deepseek R1 ได้รับการทดสอบสำหรับช่องโหว่ด้านความปลอดภัยโดยใช้ Harmbench Benchmark ซึ่งรวมถึงหมวดหมู่เช่นอาชญากรรมไซเบอร์และข้อมูลที่ผิด โมเดลแสดงอัตราความสำเร็จในการโจมตี 100% ซึ่งบ่งบอกถึงความกังวลด้านความปลอดภัยที่สำคัญเมื่อเทียบกับรุ่นอื่น ๆ เช่น OpenAI ของ O1 [1]

มาตรฐาน Copilot

Copilot โดยเฉพาะในบริบทของ Excel ได้รับการทดสอบกับการค้นหาลึกในการเปรียบเทียบแบบตัวต่อตัว:

- การสร้างสูตร Excel: Copilot ต่อสู้กับการสร้างสูตรเนื่องจากความต้องการสำหรับการประหยัดอัตโนมัติในขณะที่ Deep Seek จัดหาวิธีแก้ปัญหาที่ยืดหยุ่นมากขึ้นแก้ไขปัญหาในความพยายามน้อยลง [2]

-Excel Formula คำอธิบาย: Copilot เสนอคำอธิบายตามไวยากรณ์ในขณะที่ Deep Seek ให้การแบ่งสูตรที่ซับซ้อนมากขึ้นและมีประโยชน์มากขึ้นทำให้เป็นมิตรกับผู้ใช้มากขึ้น [2]

ในขณะที่ Copilot ยังไม่ได้รับการเปรียบเทียบอย่างกว้างขวางในลักษณะเดียวกับ Deepseek ในการใช้เหตุผลและการเข้ารหัสที่หลากหลาย แต่ก็เป็นที่ยอมรับสำหรับความสามารถในการให้ความช่วยเหลือในการเข้ารหัสโดยเฉพาะอย่างยิ่งภายในสภาพแวดล้อมของ Microsoft [4]

การอ้างอิง:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-performance-compares-against-ether-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/