AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


QwQ总结能力测评,32b小模型真能超过deepseek吗

发布日期:2025-03-08 21:29:42 浏览次数: 1565 来源:口袋大数据
推荐语

阿里QwQ-32B小模型挑战DeepSeek,性能对比一探究竟。

核心内容:
1. 阿里QwQ-32B与DeepSeek-r1性能对比
2. QwQ基于冷启动的强化学习策略
3. 内容总结能力测试结果分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

最近阿里通义QwQ-32B在一系列基准测试中进行了评估,各项能力甚至接近deepseek-r1,一个32b模型竟然和671b模型能力差不多。

 

阿里是用了什么魔法嘛,我们先来看看他们介绍是怎么做到的吧。

 

QWQ基于冷启动开展大规模强化学习。初始阶段,特别针对数学和编程任务进行RL训练。与依赖传统奖励模型不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码反馈。


方法上其实看不出太大的区别,那么是不是真的有这么厉害呢,talk is cheap,让我们来直接来看看对比的结果吧。
我这里主要以内容总结能力做了测试,因为原文较长就不全部贴出来了,但是主要就包含了几个重要信息,有来渝就业创业40万(含市外6万)离校前就业率不低于75%,未就业年底帮扶率超90%。全市提供机关事业单位岗位1.6万个左右,市属国企和区县属国企等提供岗位1万个以上,落实"三支一扶""西部计划"等基层服务项目,拓展基层就业服务岗位,提供就业岗位1万个以上。完善创业支持,发放创业贷款13亿等
对比下来,deepseek-r1总结的最全面,还自动把提供岗位数量1.6万+1万+1万合并成3.6万,意思上仍然正确。
qwq总结的也不错,但是漏掉了提供岗位的总数量,相较于deepseek-r1差了一点。
至于deepseek蒸馏版本70b以及32b的模型,丢失信息就更多了,基本上关键数字都没有保留。
输出结果可以看下图:
对比的部分代码:
  def _stream_query(self, model_name, question):        """流式查询模型"""        reasoning_content = ""        answer_content = ""        is_answering = False                completion = self.client.chat.completions.create(            model=model_name,            messages=[{"role""user""content": question}],            stream=True        )                self.console.print(Panel.fit(            "[bold blue]思考过程[/bold blue]"            border_style="blue",            padding=(12)        ))                for chunk in completion:            if not chunk.choices:                continue                        delta = chunk.choices[0].delta            if hasattr(delta, 'reasoning_content'and delta.reasoning_content is not None:                self.console.print(delta.reasoning_content, end='', highlight=False)                reasoning_content += delta.reasoning_content            else:                if delta.content != "" and is_answering is False:                    self.console.print(Panel.fit(                        "[bold green]完整回复[/bold green]"                        border_style="green",                        padding=(12)                    ))                    is_answering = True                                self.console.print(delta.content, end='', highlight=False)                answer_content += delta.content
最后说一下结论,qwq跟deepseek-r1还是有一定的差距,这个也是自然,毕竟模型参数差这么多。
但是对于服务器资源有限的情况,如果你想部署deepseek所谓70b的蒸馏版本,那就完全不如选择qwq了,不但所需资源更少,效果还更好。

 


写在最后


2025年的今天,AI创新已如井喷,几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人,我坚信AI不是替代人类,而是让我们从重复工作中解放出来,专注于更有创造性的事情,关注我们公众号口袋大数据,一起探索大模型落地的无限可能




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询