微信扫码
添加专属顾问
我要投稿
DeepSeek V3模型惊艳升级,性能提升惊人,实测结果令人期待。 核心内容: 1. DeepSeek V3模型低调上线,实测性能对比R1版本 2. 编程、数学、情商测试全面碾压,DeepSeek表现强劲 3. V3模型开源许可证更新,商业用途友好,影响深远
你好啊,我是欧巴。
刚下班到家,屁股还没坐热。
发现 DeepSeek 新模型悄悄发布了!
好好好,现在都喜欢搞偷袭是吧。
并且刚升级的 V3 模型已经上线各官方入口,关闭深度思考模式就能体验到。
回想起 DeepSeek V3 的初代模型一出场就技惊四座,凭借 557.6 万美元的训练成本取得和全球顶尖 AI 大模型同样的性能,引起圈儿内震惊。
我还记得当时梁文锋在接受访谈时谦虚的说了一句意味深长的话:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”
按照一贯调性,这次“小更新”肯定没有表面看起来那么简单。
来,话不多说,咱们一测究竟。
咱们先直接拿出当时测 Claude 3.7 Sonnet 的例子,这是目前全球最强的“AI 编程模型”。
(猛戳回顾?)连夜实测Claude 3.7 Sonnet,AI编程的天花板又被干碎了
提示词:创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风(例如移动的云、摇曳的树木)、雨(例如落下的雨滴)、太阳(例如闪耀的光线)、雪(例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。
回答完事儿后,点击代码块右下角的运行 HTML 进行预览。
说实话,真就没啥大差别,我只能说太强了,这哪是小更新???
同样的例子再来看 R1 的表现。
刚更新的 V3 效果直接碾压 R1,这提升效果一看就感受到了吧。
光是 V3 的版本更新都这么强了,上半年即将发布的 R2 模型得强成啥样,不敢想象。。
还有今年会发布的 V4,真是越来越期待了。
解释下,DeepSeek V3 和 R1 的关系。
V3 是基础模型,R1 是在 V3 的基础上进一步发展而来的推理模型。也就是说基础模型是地基,只有地基打得好,推理模型才能把楼建的高。
继续测,问他一道 2024 阿里巴巴全球数学竞赛的题目。
意料之中回答正确,轻松拿捏。
既然编程和数学都难不倒他,那就只能拿出情商了,咱们直接拿出测 GPT-4.5 情商的问题。
(猛戳回顾?)GPT-4.5实测,80%的人都严重低估它了
提示词:我心情不太好,什么也不想做
这回答就像 GPT-4.5 一样,是一个善解人意的好友啊,安全感直接拉满了。
DeepSeek 你这回可真的谦虚过头了。。
目前各大测评榜单还没有出跑分,但光看实测,就已经是拳打 OpenAI,脚踢 Claude 的存在了。
最后还有个变化值得一提,这次 DeepSeek 升级 V3 模型后,将开源许可证变成了和 R1 模型一样的 MIT 协议。
程序员朋友们一定知道,MIT 协议是非常友好的,在开源软件中被广泛使用,这意味着完全可以将它用于商业用途。
看似不经意的一个小更新,其实正在悄悄酝酿着一场更大的风暴。
也许 AI 江湖的天花板,又要被 DeepSeek 亲手刷新了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-01
FunctionCall还没学会,又来了MCP,一文搞懂他们的区别
2025-04-01
真格基金戴雨森:长聊 AI Agent,各行业都会遭遇「李世石时刻」(上)
2025-04-01
真格基金戴雨森:长聊 AI Agent,各行业都会遭遇「李世石时刻」(下)
2025-04-01
MCP 和 Function Calling:概念
2025-04-01
伯克利大学35页综述:多智能体LLM系统为何会失败?
2025-04-01
【深度】一文解读Claude如何思考——大模型是真懂是装懂?
2025-04-01
AI Agent:大模型落地应用的“最后一公里”?
2025-04-01
通用Agent?炒作吹牛还是Agent的ChatGpt时刻?我来给大火的Manus祛祛魅
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28
2025-03-27
2025-03-27