微信扫码
添加专属顾问
我要投稿
DeepSeek V3模型全新升级,性能卓越,体验前沿AI技术。 核心内容: 1. DeepSeek V3模型性能大幅提升,128k上下文窗口支持 2. 实测案例证明V3在代码、审美、数学推理等方面的优秀表现 3. 免费开源可商用,V3模型现已同步更新至官网、App和小程序
就在3月24日晚,也就是刚刚,没有预兆,DeepSeek 悄悄在 Hugging Face 平台上面更新了它的 V3 模型,DeepSeek-V3-0324。
看了许多 X 网友的帖子发现,DeepSeek-V3-0324 模型(以下统称最新版V3)在前端代码的生成能力上有了质的提升,审美方面也提升了不少,甚至有网友说可以媲美 Claude 3.7 Sonnet。
网友表示最新版 V3 的编码能力已经接近目前地表最强扛把子 Claude 3.7 了。
DeepSeek 也在官方微信群通知,V3 模型已经完成小版本的升级,该版本的最新模型也已经同步至官网、App 和小程序,关闭“深度思考”就可体验。
最新版 V3 主要更新:
1. 上下文窗口达到 128k(之前64k);
2. 代码能力有了质的提升,审美也跟上了;
3. 还是老规矩,免费、开源、可商用。
01 模型规模与架构
DeepSeek-V3 模型参数 685B,每个 token 激活 37 亿参数,继续沿用 “混合专家系统”(MoE)架构,由 256 个 “专家模型” 组成,根据问题选择 8 位专家协作,采用多头潜在注意力(MLA)降低推理时 KV 缓存,提升推理效率;引入无辅助损失的负载平衡策略,动态调整专家负载;使用多 token 预测(MTP)目标,增加训练信号密度,提高数据效率 。
同时,最新版 V3 上下文窗从 64k 提升到128k,支持超长文本理解和生成。不过,有细心的群友发现论文已经的 128k 了,但是官方 API 文档中还是 64k,可能是做了限制,又或是还没更新。
从最新版 V3 与其同类产品的基准性能中,V3 在数学、代码、逻辑推理、知识问答等方面表现优秀,相比 V2 版本有显著提升。
02 实测案例
02.1 代码能力及审美
输入:
用 Vue 3 或 React 编写一个动态天气卡片组件,要求:
1. 响应式布局,适配移动端和桌面端
2. 包含天气图标(如晴/雨/云)、温度、城市搜索输入框
3. 背景色根据天气类型动态变化(如晴天为渐变橙,雨天为渐变蓝)
4. 悬停时有微交互动画(如卡片浮动)
附:使用 Tailwind CSS 或 CSS-in-JS 实现样式。
以上的效果,一遍就过,输入城市名字,就能给出响应的天气卡片,同时背景颜色也会根据天气情况适应变化(当然天气我没配API,都是随机的),响应式布局也ok,网页移动端均适配,审美确实也不错,跟上了。
02.2 数学推理能力
输入:若一个长方体的长、宽、高分别增加 10%、20%、15%,体积增加了多少百分比?
测试模型能否正确分步计算,并给出逻辑清晰的解释。
从模型给出的答案来看,这个数学题的解题思路还是非常清晰的,输出速度也非常快,也没有过多的废话。
02.3 多轮对话与知识问答
输入:量子计算的主要优势是什么?
模型回答后,继续追问:它与传统计算机在 Shor 算法上的具体区别是什么?
继续追问:用表格总结一下量子计算和传统计算的主要区别
连续追问细节,测试上下文保持能力。
刚好前段时间看到朋友关于量子计算的文章,就问了一个关于量子计算的问题,从有限的知识,整体来看,连续追问 3 次之后,上下文的关联能力和一致性还是很不错的,懂量子计算的朋友们也帮我检查一下回答的质量怎么样,欢迎评论区留言。
02.4 高难度翻译
输入:
将以下包含文化隐喻的句子翻译成英语,并解释如何处理隐喻部分:“这个算法像‘老黄牛’一样稳定,但缺乏‘灵鹤’的灵活性。”
用豆包、百度翻译进行验证。
翻译效果不错,翻译成英文的句子再让豆包、百度翻译都能进行中文意思的还原,处理隐喻部分也解释到位。
02.5 长文本理解与摘要
输入:请用500字概括这篇论文的主要贡献和方法
我用 DeepSeek-V3-0324 的论文进行了长文本的测试,论文字数应该是有几万字的,并且是全英,总结的效果和追问都很准确,该模型就是在 2048 个 NVIDIA H800 GPU 的集群上训练出来的。
Last but not least
从以上 5 个方面,包括代码能力、数学推理能力、上下文关联、翻译以及长文本理解来看,V3 确实有了质的提升,尤其是代码能力,生成速度快,审美能力也大幅度提升,相比以往大多数模型的审美,确实像网友所说,可以跟 Claude 3.7 Sonnet 媲美了。
最后,还有就是刚刚开源的最新版 V3 同样可商用,该模型权重已开源在 HuggingFace,可用于研究和商业用途。
AI Coding,它在东方升起来了。
DeepSeek nb!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-26
硬核,字节一口气开源了两个类Manus智能体项目
2025-03-26
解密Manus:MCP协议让人人都能构建智能Agent
2025-03-25
首发!优刻得云平台上新DeepSeek-V3-0324模型
2025-03-25
仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型
2025-03-25
万卡集群真实部署,已节省数百万 GPU 小时!MoE 通信优化技术 COMET 开源
2025-03-25
阿里开源 Qwen2.5-VL-32B:小模型,大能量
2025-03-25
DeepSeek V3-0324 模型更新分析报告,被我和AI协作的9张图总结了
2025-03-25
OpenManus源码小读
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-25
2025-03-25
2025-03-24
2025-03-22
2025-03-19
2025-03-17
2025-03-17
2025-03-13