DeepSeek R1模型解读与使用
DeepSeek在推出R1预览版两个月后,发布了R1的正式版本,并且开源了模型,开放了API调用。我们直接来解读一下这款模型。
这是官方的性能评测图。从左到右分别是DeepSeek-R1,o1正式版,32B蒸馏版R1,o1-mini,DeepSeek-V3。
采用的指标我们看一下:
好的,我来用中文解释一下图片中的这些参数指标:
- 数学推理: AIME 2024, MATH-500
- 编程技能: Codeforces
- 复杂问题解答: GPQA Diamond
- 一般知识: MMLU
- 软件工程: SWE-bench Verified
整体来说是偏理科的。
从图中我们可以看到DeepSeek-R1与OpenAI-o1的基本上旗鼓相当的。在代码,数学和复杂问题,远超DeepSeek-V3。而32B蒸馏版从指标上与o1-mini相当,数学比o1-mini强,代码差一些。
然后我们再看一下它的蒸馏版模型。蒸馏小模型什么意思,大概科普一下。就是用一个参数更高的模型输出的答案,来训练一个低级的模型,从而让低级模型性能提升。简单来说就是老师教学生。下面有个图表,这里可以重点关注DeepSeek-R1-Distill-Qwen-32B这个模型,这也是他们官方标注的,基座采用了Qwen32B的模型,在数学,代码,复杂问题的测试集中跟o1-mini一个水准,远高于GPT4o,Claude3.5-Sonnet,DeepSeek-V3。32B的模型基本都可以达到1元/百万tokens级别的价格。
我们再来看一下价格。缓存命中1元/百万tokens,未命中输入4元/百万tokens,输出16元百万tokens。最大上下文64K,最大输出8K。不算便宜,但还行,价格是涨价后DeepSeek-V3的2倍。
让我们再看看这张价格对比图,对比的是o1-mini,和o1。很直观,在性能达到o1相当级别的情况下,成本降低了27.5倍。很好的平替。相比国内的推理模型,价格不算便宜,但性能目前确实最好的,通义千问QWQ预览版输入价格3.5元/百万tokens,输出7元/百万tokens,智谱GLM-ZERO预览版,输入输出10元/百万tokens。
对openai又是致命的一击。我想说OpenAI可能对DeepSeek相当有意见,当年价格战就是DeepSeek开始的,标题就是“性能比肩GPT4,价格降低一百倍”,有些公司的营收预期直接降了100倍,对估值影响也大呀。好不容易OpenAI搞了个贵东西,又给降了快30倍价格。不知道以后o3会不会故技重施。
在此浅谈一下推理模型的使用。首先推理模型是用来解决疑难杂症的,普通问答不建议用推理模型。我们可以看到在指标对比中,MMLU,也就是通用问题指标,其实并没有比非推理模型好。
有了deepseek-r1以后,是对o1很好的平替,大家可以多去使用,毕竟o1原来太贵了,就算能用也不太敢多用。主要就针对复杂的逻辑推理,不光是代码和数学,包括公司经营分析,场景决策等等,也是可以的。至于在cursor和cline等智能体编程工具中表现怎么样,我不确定,因为这些工具本身已经有专门的推理工作流,在分析代码方面或许还是挺有优势。这种工具烧token又很厉害,至少我很少会用o1,现在可以试试了。
好,现在的客户端和开发者平台都已经更新了DeepSeek-R1,大家可以自己去使用。有问题欢迎交流,我们下期再见。
转载请注明来自石家庄天鲲化工设备有限公司 ,本文标题:《DeepSeek R1模型解读与使用》
还没有评论,来说两句吧...