AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


QwQ 32B vs. DeepSeek R1 自测 ,目前DeepSeek R1官网版最佳平替

发布日期:2025-03-13 07:31:31 浏览次数: 1541 来源:Joyce Birkins
推荐语

深入对比QwQ 32B和DeepSeek R1两大AI模型性能,探索官网版与本地版的优劣。

核心内容:
1. DeepSeek R1官网版与本地70B版在思考深度、内容结构等方面的对比分析
2. QwQ 32B在参数减少情况下,与DeepSeek R1官网版相当的表现
3. 优化标题和vlog脚本结构的任务中,QwQ 32B与DeepSeek R1推理过程的差异解析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
image

这篇文章我是用英文写的原文, 中文是机翻的,因此读起来有些太板正了。文末有对各家大模型翻译的吐槽,之后还是中文写,这篇就这样了。

DeepSeek R1 70B本地版和官网版测试: 思考深度、内容结构、语言风格、搜索能力有出入我主要用这两个问题分别测试了DeepSeek R1的官方网站版本和本地70B版本。

Marc Andreessen最近的一次AI采访是什么?主要内容是什么?

撰写一篇长文,深入分析两种观点:“美国芯片出口禁令有利于美国AI的发展”和“美国芯片出口禁令将阻碍美国AI的发展”。

众所周知,推理模型主要在一些有限领域(如数学、科学和编程)中通过可验证奖励进行训练。而作为一名博主,我主要关注文本生成测试,例如搜索或分析并解释各种主题。在QwQ 32B中,我也用中文发送了这两个问题。

结论是,对于这两个问题,QwQ 32B的表现与DeepSeek R1官方网站版本相当。然而,QwQ 32B的参数显著减少,因此其生成速度更快,且不会造成无法忍受的延迟。


对于第一个问题,QwQ 32B提供了清晰且逻辑结构良好的回答,与DeepSeek R1官方网站相似。它们都生成了长篇幅、结构化的句子,而DeepSeek R1 70B仅生成了几段简短的回答。

至于美国芯片出口问题,DeepSeek R1官方版本和QwQ 32B都提出了第三种路径,并对这两种观点存在的原因进行了全面分析,显示了更深层次和更专业的思考。

image

Comparison

为了比较QwQ 32B和DeepSeek R1官方网站版本的推理过程,我要求他们优化标题并改善一个中英混合的YouTube vlog脚本结构。我提供了主要结构、旁白、场景和标题,因此他们的任务只是优化标题并增强视频结构。

以下是他们的回答:最明显的区别在于DeepSeek的推理过程更长,并且对vlog脚本结构进行了更清晰的分析,毕竟它有671B参数,而QwQ只有32B。但最终的回应结果来看,QwQ 32B反而提供了更多的文本,而DeepSeek的风格太简洁精准了

整体上,它们都生成了长篇且结构良好的回答。

image

针对YouTube Vlog脚本问题的详细推理对比:

回答风格:DeepSeek R1提供了更为克制、冷静且精确的回答,类似于Claude,更加贴近用户的指示。而QwQ 32B则呈现了更活泼、更有创意且轻松的回答,类似于ChatGPT系列,显得更加随意。

从对比他们生成的vlog标题可以清楚地看出这一点:

DeepSeek R1的标题:"Vexed, Conflicted Senses in Anticipation of the Coming Spring | A Visual Diary of Winter’s Last Breath"

QwQ 32B的标题:"Spring is Coming BUT Winter Won’t Let Go! My Chaotic Vlog Journey"

原始标题:"Vexed, Conflicted Senses in Anticipation of the Coming Spring"

关注点:DeepSeek R1详细分析了整体结构,见下图左边实心绿色方框,而QwQ 32B则集中在结论部分,下图右边虚线绿色方框标注。在虚线框总结部分DeepSeek R1结合了镜头类型和音效,专注增强vlog的视觉和听觉方面,更专业。相比之下,QwQ 32B重点考虑SEO相关元素,如标题、标签、关键词和描述。

共享推理过程:尽管在内容重点和语言风格上存在这些差异,但两个模型遵循相同的推理过程。下图我用标记的方框,画线的句子都能看出来。包括 "first," "look at the script," and "SEO title,"部分,能看出结构是一样的

image

详细最终回答对比:

DeepSeek R1和QwQ 32B在保持相同总体结构的同时表现出截然不同的风格差异。DeepSeek R1在旁白风格上更简洁精致,而QwQ 32B则采用了更具情感和生活化的语气。例如,DeepSeek R1提供了一条简洁却富有内省意味的台词:"I replant, reorganize, rewrite… but nothing feels new. Just rearranged dust." 而QwQ 32B则呈现出更具动态性和沉浸感的叙述:"I’ve been prepping for this. Repotting plants, adding fertilizer… anything to jumpstart spring’s energy. But…"

在推理阶段,DeepSeek R1深入探讨了结构分析,而在最终回答阶段,QwQ 32B生成了更多文字,并生动描绘了更多场景。一个明显的例子是scene 2——DeepSeek R1以单一旁白呈现,与其他场景长度保持一致,而QwQ 32B将其扩展为三个不同部分,每个部分都有自己的旁白,使场景更具表现力和层次感。此外,DeepSeek R1的简洁性导致整体场景较少,仅留下scene 4,而QwQ 32B包含了场景6,从而提供了更广泛的叙事范围。

尽管存在这些风格和分析上的差异,其回答的基本结构仍然相同。两者遵循相同的顺序,涵盖场景1到4、结尾场景和关键增强。分歧在于具体的分析方法、语言风格、表情符号、关键词和专业术语的使用。最终,虽然DeepSeek R1优先考虑清晰度和精确性,QwQ 32B倾向于创造力和参与感,但两者都保持了相同的核心信息和框架。


Epilogue

总体而言,QwQ 32B是DeepSeek R1最高效的平替方案,性能显著优于DeepSeek R1 70B。尽管参数少得多,其响应长度和核心框架保持相同,仅在风格和细节存在差异。

至于豆包(Doubao),虽然具备推理阶段,但其响应明显较短且缺乏深度。我主要用其处理简单任务(如文字转换)。有趣的是,面对相同问题时,豆包使用中文应答,而另两个模型则用英文响应。

image

由于免费计划的限制,我没有测试Claude或ChatGPT。此外,我注意到LLM这个术语不再被使用,它们现在都被称作大推理模型(LRM)。此外,传统的scaling law正在演变,模型现在更多地关注RL scaling law

这篇文章我是用英文写的原文, 中文是机翻的。在翻译过程中发现豆包,Claude 3.5 Sonnet和Qwen 2.5 Max的翻译风格如此相像, 用词风格都太像了,更别说内容结构了, 比这篇QwQ 32B跟DeepSeek R1的对比还像

上图豆包,下面Qwen 2.5 Max

image

但如果是DeepSeek R1翻译则完全不是上面这种风格, 它的审慎用词精准简洁已经成为特色了,一看就能看出来

上面第一张图则是Claude, 跟豆包和Qwen 2.5 Max翻译得差不多, 机器味太重。而中翻英用Claude或者ChatGPT就自然得多,看来还得用中文写

image

Joyce Birkins

image

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询