DeepSeek-R1和Cohere's Command R(2024年8月)都是高级语言模型,但它们在性能,体系结构和定价方面表现出明显的差异。
建筑与培训:
- DeepSeek-R1是一个6710亿个参数外科(MOE)模型,每个令牌为370亿个激活参数。它是使用大规模增强学习的培训,专注于推理能力。该模型结合了增强学习的两个阶段和两个监督微调的阶段,以增强推理和非争议能力[1] [3]。
-Comner R(2024年8月)由Cohere开发,具有增强的多语言检索生成(RAG)和工具使用功能。它在数学,代码和推理任务方面表现出色,提供的结果可与其前身命令R+[1] [3]相媲美。
性能基准:
- DeepSeek-R1在包括数学和代码任务在内的许多推理基准中与OpenAI的O1模型相当。它在诸如Alpacaeval 2.0和Arenahard之类的创意和长篇文章任务中表现出色,在这些领域的其他模型都优于其他模型[2]。 DeepSeek-R1在MMLU基准测试中得分90.8%,MMLU-PRO的得分为84%,表现出强大的推理能力[1]。
-Command R(2024年8月)在MMLU基准中获得67%的分数,人类Val的得分为70%,表明代码生成和解决问题的表现稳定[1]。但是,尚未报告其在MMLU-PRO和其他特定推理基准测试方面的性能。
定价和成本:
- DeepSeek-R1比Command R(2024年8月)要贵得多,投入成本为每百万个令牌和产出成本为0.55美元,为每百万个令牌2.19美元。这使得输入和输出令牌的昂贵约3.7倍[1] [3]。
-Command R(2024年8月)提供较低的成本,输入令牌的价格为每百万美元0.15美元,产出令牌为每百万美元0.60美元[1] [4]。
开源和社区:
- DeepSeek-R1是开源的,可以进行社区驱动的改进和修改。这种开放性可以导致更透明的发展和自定义可能性[1] [5]。
-Command R(2024年8月)不是开源的,这限制了社区参与其开发和定制[1]。
提示灵敏度:
- DeepSeek-R1对提示很敏感,很少射击会导致其性能降低。建议使用清晰说明的零射击提示来获得最佳结果[2]。
- 在可用信息中,没有具体提及命令R(2024年8月)的迅速灵敏度。
总而言之,尽管这两种模型都具有强大的推理能力,但DeepSeek-R1在某些基准测试中表现出色,并具有开源灵活性,但成本更高。 Command R(2024年8月)更具成本效益,并在代码生成等特定领域提供竞争性能。
引用:
[1] https://docsbot.ai/models/compare/command-r-08-2024/deepseek-r1
[2] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-in-rank-ranks-against-openais-o1
[3] https://docsbot.ai/models/compare/deepseek-r1/command-r-08-2024
[4] https://artaveranalysis.ai/models/command-r
[5] https://blog.promptlayer.com/deepseek-r1-vs-o1/
[6] https://artaveranalysis.ai/models
[7] https://artaveranalysis.ai/models/command-r-03-2024
[8] https://explodingtopics.com/blog/list-of-llms