微信扫码
添加专属顾问
我要投稿
2025年AI大模型领域的最新动态,DeepSeek如何引领行业变革? 核心内容: 1. 大模型能力边界的拓展与AI Agent的复杂任务执行能力 2. Manus及其复刻产品在大模型规划方案中的关键作用 3. DeepSeek在技术深耕与行业变革中的挑战与机遇
踏入 2025 年,大模型领域的竞争愈发白热化,迭代速度日新月异。大模型的能力边界也在持续拓展,早已不局限于简单的聊天交互。当下,诸多 AI Agent 依托大模型强大的规划与调度能力,能够灵活调用各类工具,完成复杂任务,近期爆火的 Manus 及其各类复刻产品便是有力例证。
据悉,Manus 整合了 Computer use、虚拟机、Multi - agent 协同等一系列前沿工具,为 AI 大模型的规划方案搭建起通往现实的桥梁,其中,虚拟机更是发挥着举足轻重的作用,堪称让大模型规划得以落地执行的关键一环。不出意外的话,深耕技术的 DeepSeek 也将顺应这一快节奏趋势,其推理模型的下一个版本 R2 或许已在紧锣密鼓的研发进程中,距离问世之日想必也为时不远。
2024 年 10 月 22 日,Anthropic 发布了 Claude 3.5 Sonnet 升级版,其中 Computer use (beta) 功能格外亮眼。这一功能让 Claude 3.5 Sonnet 能够与计算机桌面环境工具交互,它能调用操作系统工具包来感知并适应计算机整体环境,而不只是依赖特定工具完成单一任务。
实际测试下来,Claude可以通过截图定位、鼠标移动点击、键盘输入等操作将网页的指定内容以预定义的格式保存在本地文件。官方示例代码通过与 Anthropic API 交互的代理采样循环来实现,包含 ComputerTool、EditTool、BashTool 这三个核心工具类。虽然目前 Claude 在处理滚动、拖动、缩放等操作时存在困难,但随着技术发展,Agent 将极大地改变工作方式,实现人与科技的深度协作。
DeepSeek 以其独特的强化学习和开源的方式和开放的心态给行业带来了变革的动力。然而,随着行业标准的不断提高和用户需求的日益多样化,DeepSeek 也面临着诸多需要解决的问题和需要突破的瓶颈。今天我们就来推演下DeepSeek未来的发展路径。
DeepSeek 在追求模型准确度的道路上,选择了一条与众不同的路径,它聚焦于各种数学题以及逻辑题目的强化学习。在传统的语言大模型训练过程中,训练的重点往往放在对语言体系概率分布的把握上。这种训练方式使得模型能够生成更符合人类语言习惯、听起来 “像那么回事” 的输出,就如同擅长辞藻修饰和表达的 “文科生”。然而,这种方式却在逻辑推理和对错判断能力上存在明显的短板。
与之形成鲜明对比的是,DeepSeek 通过强化学习,仿佛从 “文科生” 转变为了 “理科生”。在面对问题时,它不再仅仅满足于生成看似合理的表述,而是能够凭借强化学习所获得的能力,清晰地判断自己的回答正确与否。这种对自身输出结果的准确判断能力,是提升模型在复杂任务中表现的关键因素。通过不断地对数学和逻辑题目进行强化学习,DeepSeek 能够深入理解问题的内在逻辑结构,从而在处理实际任务时,能够更加准确地把握问题的本质,做出更为精准的回答。
在逻辑推理上,读万卷书的ChatGPT,还是不如做万道题的DeepSeek。好记性,不如烂笔头。
这种基于强化学习来提升模型能力的思路,在编程领域同样具有巨大的潜力和适用性。编程任务的独特复杂性,决定了它对模型能力有着极高要求。大部分编程题目有精准的答案,为强化学习提供了理想的训练条件。强化学习的核心是通过不断尝试和反馈来优化模型行为,编程题目明确的对错判断标准,能让模型在训练中获得及时准确的反馈,进而有效调整自身算法和策略。
此外,编程过程中的各类操作和决策,可视为一系列动作选择。模型需依据不同编程需求与上下文环境,挑选合适的代码片段、函数调用等,这与强化学习中智能体根据环境状态做出最优决策的过程高度契合。所以,利用强化学习训练编程模型,能助力模型更好地掌握编程逻辑与技巧,提升编程的效率和质量。
同时,编程任务的复杂性还体现在,一方面需要如在线集成开发环境(IDE)这样特定的环境来确保代码正确编译和运行;另一方面,要经过一系列严格的测试环节,像自动化测试体系,以此验证代码的功能正确性、性能及安全性等。
例如Clacky.AI这样的AI辅助编程平台,就充分利用了人工智能云开发环境(CDE),提供全栈支持(目前涵盖 Python、Node.js、Golang、Ruby),不仅仅能够提升开发速度,更重要的是可以迅速验证大模型规划和输出的代码,立马验证结果是否符合预期。强化学习与编程领域的深度融合,将可能迅速提升大模型的逻辑推理能力。
不少人断言,大模型的发展已渐近尾声,理由是互联网上可供训练的数据已然消耗殆尽。然而,这种观点忽略了一个关键事实:互联网过往留存的数据,大多仅呈现结果,过程数据极度匮乏。就拿 CSDN、Reddit 这类平台来说,即便上面有详尽的技术过程总结文章,也难免遗漏海量关键信息。凭借这些碎片化内容,用户想要重现复杂问题,近乎天方夜谭。
实际上,倘若 AI 技术与各类云基础设施能够更加便捷地记录开发全程的每一个环节数据,例如把过程都录制成视频,那么有价值的数据量将呈爆发式增长,保守估计,会比当下互联网现存数据多出万倍以上。如此一来,大模型训练的潜力远未耗尽,或许才刚刚踏上波澜壮阔牛市行情的征程。
在大模型攻克编码的这一关以后,下一步肯定是需要把客户沟通、需求拆解、项目规划、设计建模、编码实现、代码审查、功能测试、集成测试、部署上线、运维管理以及版本控制等一系列软件工程环节深度融合起来。借助大模型的分析与整合能力,更精准地理解客户意图,将复杂需求细化为可执行的任务模块,高效完成功能测试流程。通过打通这些关键环节,形成一条从需求到落地的完整智能开发链路,全面提升软件开发的效率与质量。
在从需求转化为代码的正向开发流程中,大模型同样具备从反向路径学习现有软件的能力。当下,全球范围内存在着海量成熟的软件,它们都配备了操作文档、直观的界面以及详细的使用手册等。大模型可借助虚拟机环境模拟软件运行的真实场景,利用机器人流程自动化(RPA)技术模拟人类操作软件的行为,或者通过应用程序编程接口(API)与软件进行交互通信。
通过这些方式,大模型不断对现有软件展开全面且深入的测试。这不仅能让其熟练掌握软件的调用方法,精准把握软件的功能特性和操作逻辑,还能实现对软件功能的像素级复刻。这一过程并非简单的模仿,而是对软件背后的设计理念、业务逻辑和用户交互方式的深度剖析与学习。大模型从中汲取宝贵的经验,进一步优化自身的知识体系和生成能力,为在正向开发流程中更好地满足复杂多样的需求、提升软件开发的质量和效率提供有力支撑。
Model Context Protocol(MCP)是由Anthropic于2024年11月推出的开放协议,旨在通过标准化方式连接AI模型与外部数据源及工具,解决AI应用与现有系统集成的难题。其核心价值在于提供统一的“通用插座”,让AI能像使用本地资源一样直接调用数据库、操作代码库、发送消息等,例如在IDE中自动获取浏览器控制台日志或修复代码错误。
MCP采用客户端-主机-服务器架构,通过JSON-RPC协议实现安全上下文交互。开发者可基于该协议快速构建专用服务器(如访问GitHub、管理AWS资源),而无需重复开发底层功能。其优势包括:
标准化接口:类似Type-C的通用协议,支持跨平台兼容与生态扩展1;
数据隐私:敏感信息本地处理,避免上传云端;
模块化设计:功能逐步扩展,支持动态更新上下文。
目前,MCP已集成到Cursor、Claude Desktop等工具,并涌现出PostgreSQL查询、Kubernetes管理等开源服务器,覆盖开发、数据分析、企业服务等场景。未来,随着更多服务商加入,AI将更深度融入工作流,实现从“提供建议”到“自主执行”的跨越。
类似MCP Server的 协议是支持大模型落地的关键,为 AI 大模型在编程领域发展筑牢基础。它为模型打造稳定高效的运行环境,让 DeepSeek 这样的大模型能与软件产品和 API 流畅交互。在此环境中,DeepSeek 可精准理解编程需求,调用合适 API 实现功能,并通过自动化测试验证代码正确性。同时,还能有效监控和管理模型运行,及时解决问题,保障编程任务高效执行。
为在编程领域实现更大突破,DeepSeek 必须具备快速且灵活地与各类软件产品及 API 交互的能力。这不仅需要其持续优化与外部接口的交互方式,也对软件提出了更高要求。软件应将接口标准化,确保一致性和兼容性,以方便 DeepSeek 调用;同时,测试流程也需标准化,以便 DeepSeek 准确判断 API 调用结果的正确性。
当前的 MCP 协议主要面向开源软件,未涉及成本和功能性评估。然而,大量商业软件遵循 “一分钱一分货” 的原则,不同软件特性差异巨大。这就要求大模型先深入了解现有的商业软件,进行深度思考和规划,再选用合适的 API 进行调用。可以预见,目前的 MCP 协议大概率并非最终版本,它需要在与软件的互动过程中不断进化。
这种双向优化是协同进化的过程。DeepSeek 能力提升推动软件生态完善,而软件生态优化又为 DeepSeek 提供更好环境与更多场景。
随着技术的不断进步和演化,DeepSeek 的目标不仅仅是成为人类在人工智能应用中的 “副驾驶”,提供辅助性的支持。它有着更为远大的目标,即演化为具备 “自动驾驶” 能力的智能系统。在 “自动驾驶” 模式下,DeepSeek 将能够自主地执行各种任务,不再依赖于人类的实时指导和干预。Manus项目可以理解为是一个面向个人的自动驾驶AI系统,个人只需要寻找场景,剩下的事情交给AI全部完成。
而MGX(MetaGPT X)项目是一个基于真实软件标准操作流程(SOPs)的多智能体人工智能平台,可以形成团队层面自动驾驶类似体验的协同。你可以全天候与人工智能团队的负责人、产品经理、架构师、工程师和数据分析师交流,来创建网站、博客、网店、进行数据分析、开发游戏,或者尝试你想做的任何其他事情。
链接地址:https://mgx.dev/
在执行任务的过程中,AI大模型会不断地进行试错,并与不同岗位的优秀工程师一起互动,从错误中吸取经验教训,并对自身的算法和模型进行调整和优化。在这种学习的过程中,大模型不仅仅是能学到不同岗位工程师的思考和实践过程,更重要的是能够学习到一个组织的磨合过程和协同机制。组织能力作为人类智慧的高度凝练,涵盖了分工协作、资源调配、目标协同等关键要素,大模型通过对这些场景的持续学习,逐步构建起对组织运作的深刻认知。
大模型凭借对这些真实协作场景的持续学习与深度分析,从工程师们日常的沟通交流、任务分配,到面对难题时的集体攻坚,逐步构建起一套全面且深刻的对组织运作逻辑的认知体系,进而将所学融入自身运作,提升综合能力 。
六、结尾与思考
这种四维架构通过 “快思考(标准模型)+ 慢思考(推理模型)+ 执行验证(API / 测试模型)+ 协同进化(MoE++)”的有机融合,使 DeepSeek 既能快速响应日常需求,又能深度处理复杂任务,同时在持续实践中实现能力迭代。未来,随着模型与组织学习机制的深度耦合,这种架构或将催生真正意义上的 "智能开发生命体",重构软件研发甚至是业务开发的全流程范式。
快思考+慢思考+落地执行+组织学习,会是DeepSeek的下一步进化方向么?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-12
大模型 Token 的消耗可能是一笔糊涂账
2025-03-12
一位投资人的硬核观察:被DeepSeek和Manus改写的AI投资范式
2025-03-12
从DeepSeek MoE专家负载均衡谈起
2025-03-12
Manus爆火的背后,Agentic AI产品如何构筑持久的竞争优势?
2025-03-12
老板格局不大,但编码能力不错的Claude 3.7正式发布
2025-03-12
一文让你彻底了解「AI互联互通的标准MCP」
2025-03-12
OpenAI深夜发布全新Agent工具:两大杀器登场,感觉可以手搓Manus了
2025-03-12
联网/用电脑... OpenAI 新 Agent 套件全解析(另附:发布会没说的 30+ 要点)
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-12
2025-03-12
2025-03-10
2025-03-10
2025-03-10
2025-03-10
2025-03-08
2025-03-08