支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek发布最新版V3,代码和审美有了质的提升,附5大维度测评

发布日期:2025-03-25 04:35:57 浏览次数: 1615 来源:GeekSavvy
推荐语

DeepSeek V3模型全新升级,性能卓越,体验前沿AI技术。

核心内容:
1. DeepSeek V3模型性能大幅提升,128k上下文窗口支持
2. 实测案例证明V3在代码、审美、数学推理等方面的优秀表现
3. 免费开源可商用,V3模型现已同步更新至官网、App和小程序

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


就在3月24日晚,也就是刚刚,没有预兆,DeepSeek 悄悄在 Hugging Face 平台上面更新了它的 V3 模型,DeepSeek-V3-0324。



看了许多 X 网友的帖子发现,DeepSeek-V3-0324 模型(以下统称最新版V3)在前端代码的生成能力上有了质的提升,审美方面也提升了不少,甚至有网友说可以媲美 Claude 3.7 Sonnet。



网友表示最新版 V3 的编码能力已经接近目前地表最强扛把子 Claude 3.7 了。



DeepSeek 也在官方微信群通知,V3 模型已经完成小版本的升级,该版本的最新模型也已经同步至官网、App 和小程序,关闭“深度思考”就可体验。



最新版 V3 主要更新:


1. 上下文窗口达到 128k(之前64k);

2. 代码能力有了质的提升,审美也跟上了;

3. 还是老规矩,免费、开源、可商用。


01 模型规模与架构


DeepSeek-V3 模型参数 685B,每个 token 激活 37 亿参数,继续沿用 “混合专家系统”(MoE)架构,由 256 个 “专家模型” 组成,根据问题选择 8 位专家协作,采用多头潜在注意力(MLA)降低推理时 KV 缓存,提升推理效率;引入无辅助损失的负载平衡策略,动态调整专家负载;使用多 token 预测(MTP)目标,增加训练信号密度,提高数据效率 。


同时,最新版 V3 上下文窗从 64k 提升到128k,支持超长文本理解和生成。不过,有细心的群友发现论文已经的 128k 了,但是官方 API 文档中还是 64k,可能是做了限制,又或是还没更新。




从最新版 V3 与其同类产品的基准性能中,V3 在数学、代码、逻辑推理、知识问答等方面表现优秀,相比 V2 版本有显著提升。



02 实测案例


02.1 代码能力及审美


输入:

用 Vue 3 或 React 编写一个动态天气卡片组件,要求:

1. 响应式布局,适配移动端和桌面端

2. 包含天气图标(如晴/雨/云)、温度、城市搜索输入框

3. 背景色根据天气类型动态变化(如晴天为渐变橙,雨天为渐变蓝)

4. 悬停时有微交互动画(如卡片浮动)
附:使用 Tailwind CSS 或 CSS-in-JS 实现样式。





以上的效果,一遍就过,输入城市名字,就能给出响应的天气卡片,同时背景颜色也会根据天气情况适应变化(当然天气我没配API,都是随机的),响应式布局也ok,网页移动端均适配,审美确实也不错,跟上了。


02.2 数学推理能力


输入:若一个长方体的长、宽、高分别增加 10%、20%、15%,体积增加了多少百分比?


测试模型能否正确分步计算,并给出逻辑清晰的解释。



从模型给出的答案来看,这个数学题的解题思路还是非常清晰的,输出速度也非常快,也没有过多的废话。


02.3 多轮对话与知识问答


输入:量子计算的主要优势是什么?


模型回答后,继续追问:它与传统计算机在 Shor 算法上的具体区别是什么?


继续追问:用表格总结一下量子计算和传统计算的主要区别


连续追问细节,测试上下文保持能力。



刚好前段时间看到朋友关于量子计算的文章,就问了一个关于量子计算的问题,从有限的知识,整体来看,连续追问 3 次之后,上下文的关联能力和一致性还是很不错的,懂量子计算的朋友们也帮我检查一下回答的质量怎么样,欢迎评论区留言。


02.4 高难度翻译


输入:

将以下包含文化隐喻的句子翻译成英语,并解释如何处理隐喻部分:“这个算法像‘老黄牛’一样稳定,但缺乏‘灵鹤’的灵活性。”



用豆包、百度翻译进行验证。




翻译效果不错,翻译成英文的句子再让豆包、百度翻译都能进行中文意思的还原,处理隐喻部分也解释到位。


02.5 长文本理解与摘要


输入:请用500字概括这篇论文的主要贡献和方法



我用 DeepSeek-V3-0324 的论文进行了长文本的测试,论文字数应该是有几万字的,并且是全英,总结的效果和追问都很准确,该模型就是在 2048 个 NVIDIA H800 GPU 的集群上训练出来的。


Last but not least


从以上 5 个方面,包括代码能力、数学推理能力、上下文关联、翻译以及长文本理解来看,V3 确实有了质的提升,尤其是代码能力,生成速度快,审美能力也大幅度提升,相比以往大多数模型的审美,确实像网友所说,可以跟 Claude 3.7 Sonnet 媲美了。



最后,还有就是刚刚开源的最新版 V3 同样可商用,该模型权重已开源在 HuggingFace,可用于研究和商业用途。


AI Coding,它在东方升起来了。


DeepSeek nb!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询