AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepFlow 智能体发布!开启业务连续性保障新时代

发布日期:2025-02-28 19:19:06 浏览次数: 1572 来源:DeepFlow
推荐语

AI智能体DeepFlow开启业务连续性保障新时代,释放IT人员潜力,提升运维效率。

核心内容:
1. DeepFlow智能体如何自主感知环境、推理决策并执行任务
2. 智能体成功的三大要素:高质量数据、专业工具和明确业务目标
3. DeepFlow智能体的三个核心观点和具体应用场景

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

随着大型语言模型(LLM)日臻成熟,AI 智能体(AI Agent)从概念走向实际应用的时代已然到来。在众多的智能体使用场景中,可观测性天然具备智能体成功落地的三大要素:高质量的结构化数据、功能丰富的专业工具,以及明确的业务目标——保障系统稳定性。通过将先进的 AI 技术与可观测性场景融合,DeepFlow 智能体能够自主感知环境、推理决策并执行任务,为 IT 团队提供从日常巡检到快速诊断的全方位支持。这不仅提升了运维效率,更将 IT 人员从繁琐的日常任务中解放出来,使他们能够紧跟技术趋势,驾驭先进的 AI 工具,为业务连续性提供更坚实的保障。 

DeepFlow 智能体



核心观点


观点一:智能体要能使用工具完成工作


智能体 agent,来自拉丁语agera,意为”做“。DeepFlow 智能体能够自主使用各类可观测性工具完成保障业务连续性的工作。

观点二:智能体靠谱的前提是可观测性


“完全可观测的环境很容易处理,因为智能体不需要维护任何内部状态来追踪世界。”-- 《人工智能:现代方法(第四版)》。

DeepFlow 智能体之所以“靠谱”,因其所有推理决策均基于业务的完全可观测性。

观点三:智能体要有价值必须量身定制


基于帕累托法则,大模型消弭行业技术鸿沟后,企业应聚焦独特场景定制智能体,以20%核心需求撬动80%竞争优势。DeepFlow 智能体为每一个客户提供“量身定制”的推理场景,让IT人员深度掌控AI技术,为各自企业创造独有的价值。

  

DeepFlow 智能体



使用场景


DeepFlow 智能体的设计目标,是使用 DeepFlow 提供的各类可观测性工具,自主完成保障业务连续性的工作。DeepFlow 智能体的具体应用场景表现在如下 3 个方面:

01

分钟级诊断

原理

多维数据实时关联分析

  • 基于历史经验的故障模式匹配

  • 故障传播路径和影响范围快速定位

故障模式库和知识图谱

  • 建立故障症状、原因、解决方案之间的关联关系

  • 利用推理模型实现快速路径检索和推理


价值

降低金融损失风险

  • 银行每分钟中断可能造成数百万的损失

保护企业声誉避免长时间故障导致的用户流失
  • 维持服务质量承诺(SLA)

减少紧急故障处理的人员压力
  • 提供清晰的问题定位和解决方案
提升开发测试效率

  • 确保新业务、新架构按时保质上线


案例:银行核心交易系统雪崩危机(分钟级诊断的生死时速)

事件:某银行核心支付网关突发交易失败率飙升,全业务中断倒计时开始。 

  • 09:15:出现支付卡顿,客服电话量激增300%

  • 09:18:运维大厅警报大作,但传统监控仅显示"数据库连接异常"

  • 09:20:"我们距离30分钟熔断红线还剩25分钟!"


响应 DeepFlow 智能体


  • 1分钟定位:智能体自动关联交易链路,发现第三方支付渠道的SSL握手异常陡增

  • 5分钟溯源:从应用错误日志→网络调用日志→配置变更事件溯源,确认为安全组策略误删导致TLS协商失败

  • 10分钟恢复:结合知识库推荐应急预案,完成证书热加载和负载均衡切换


结果:避免直接经济损数千万元,监管通报风险降级为"一般运营事件"。


02

不间断巡检

原理

对业务健康度进行7x24检查

  • 发现业务核心指标异常

  • 即时分析各组件运行状态

对业务风险即时预警

  • 时序数据建模

  • 预测性分析变化趋势

对业务告警进行快速关联分析

  • 故障传播分析

  • 资源依赖分析


价值

提升系统可靠性问题早期发现

  • 主动预防

  • 降低重大故障概率

优化人力资源减少人工巡检成本

  • 提高运维效率

  • 专注更有价值的工作

保障业务连续性24/7不间断监控

  • 全面的覆盖范围

  • 稳定的监控质量

案例:跨境支付系统暗流危机(不间断巡检的隐形守护)

事件:夜间跨境渠道交易 API 概率性超时且呈现递增趋势,用户体验劣化。

响应 DeepFlow 智能体


  • 20:13:智能体检测到跨境渠道交易 API 超时 5 次,追踪用户 ID 发现影响了 1 名用户。

  • ……

  • 08:29+1D:智能体检测到跨境渠道交易 API 过去一小时超时达 271 次,且过去 12 小时呈现递增趋势,追踪发现共影响了 312 个用户,受影响的最大交易金额达到了 $900 万。

  • 08:30+1D:运维人员上班后查看昨日巡检报告,查阅报告中的影响范围、隐患分析和防范建议。

  • 08:42+1D:运维人员汇总巡检报告,转外部渠道优化 API,转行内业务部门做 VIP 客户回访。

结果:及时发现、持续分析长尾异常,及时优化 VIP 用户体验,防止千万美金币级别的客户流失。


03

一句话问数

原理

多源数据实时整合

  • 智能化数据特征提取

  • 复杂查询的自动化编写

自然语言理解意图识别

  • 基于业务和用户的上下文理解

  • 消除通用大语言模型幻觉


价值

提升决策效率,管理层快速获取决策依据

  • 减少数据分析等待时间

降低运维门槛,非专业人员也能快速获取信息

  • 减少对专家的过分依赖

  • 减少由人工操作引入的错误

支持快速响应,突发事件快速评估

  • 资源调度及时决策
案例:证券交易系统容量保卫战(一句话问数的实战力量)

事件:某券商遭遇"史诗级牛市",开盘前集合竞价时段突发系统响应延迟。

  • 08:45:运维总监接到CEO紧急质询:"现在系统还能撑住多少并发?余量还剩多少?"

  • 传统方式:需协调5个团队调取20+监控指标,人工测算至少15分钟

  • 市场窗口:距离集合竞价仅剩12分钟,决策真空期可能导致数亿客户资产损失


响应 DeepFlow 智能体


  • 自然语言查询:"当前订单系统TPS峰值与容量阈值对比,预测10:30前资源瓶颈"

  • 智能推演:结合历史流量模式+实时资源利用率,输出三维容量热力图

  • 8:52决策:精准识别Redis集群内存将提前15分钟触顶,立即启用弹性容器组扩容


结果:在沪指单日成交破万亿的市场狂潮中,系统零故障扛住每秒32万笔委托。


这三个场景共同构建了一个完整的智能运维体系

  • 不间断巡检实现了"预防为主"的理念

  • 分钟级诊断解决了"快速止血"的问题

  • 一句话问数满足了"及时决策"的需求


DeepFlow 智能体



产品架构


人工智能专注于研究和构建做正确的事情的智能体。智能体(agent)就是某种能够采取行动的东西(agent来自拉丁语agere,意为“做”)。任何通过传感器(sensor)感知环境(environment)并通过执行器(actuator)作用于该环境的事物都可以被视为智能体(agent)。

标准智能体架构

DeepFlow 智能体(英文:DeepFlow AI Agent)由一系列 DeepFlow 产品组件构成。用户可根据实际业务需求,选择合适的组件,构建适合自己的DeepFlow 智能体。

DeepFlow 智能体产品架构如下

DeepFlow 智能体架构
DeepFlow 智能体包含如下几个层次的组件

1.  交互层

交互层实现用户与 DeepFlow 智能体的交互。交互层包含如下组件,每个组件均可为客户提供量身定制。

  • ChatUI:用户与智能体的对话界面,支持文字、图表、代码等多种交互内容的输出。

  • 场景编排:依据用户特定的业务和管理流程,编排特定场景下的智能体工作流。

  • 历史记录:用户使用记录管理,包含对话、报告、视图等内容存取与分发。

  • 知识库:本地知识库创建和维护,帮助用户解决本地常识性问题。

  • 系统管理:管理 DeepFlow 智能体 的用户及权限、工具及配置。

2.  感知层

感知层为智能体提供对外部环境感知能力。DeepFlow 智能体的感知层,通过按需和实时分析环境中的可观测性数据,实现对业务运行状态的全面感知。

  • 感知工具:按照工作流需求,感知业务特定维度的运行状态。感知工具通过特征提取工具及模式识别工具完成数据驱动的业务运行状态感知。感知工具的性能可以通过感知加速提升。

  • 感知加速:提升感知层的整体性能,保障复杂工作流按时完成。

  • 特征提取工具:从可观测性数据中提取各类特征。

  • 模式识别工具:对特征进行分类,实现“数转文”的语义化事件。

感知层性能主要受制于数据分析能力,可以通过引入感知加速进行水平扩展。

3.  推理层

推理层是 DeepFlow 智能体的大脑,包含一系列规划和记忆系统:

  • 规划模型:解决复杂工作流的规划问题,根据用户提出的问题,生成解决问题的思维链(Chain of thought)。规划模型由云杉提供,可依据客户场景量身定制。

  • 大语言模型:提供基于自然语言的任务性和常识性应答。大语言模型(LLM)由云杉提供,也可以使用云杉认证的第三方模型。

  • 长短期记忆:为工作流执行过程的状态机提供短期记忆,为常见的子任务规划提供长期记忆。

推理层性能主要受制于模型性能,DeepFlow 智能体可通过增加AI算力提供推理层性能扩展。

4.  执行层

DeepFlow 智能体通过执行层为业务提供执行建议或方案。执行层若对接控制层,可实现业务稳定性的全自动保障。执行层包含如下组件:

  • 建议工具:根据业务诊断结果,提供相关的运维建议。

  • 任务编排:为复杂的运维工作提供系统性的任务编排,并确保每一步任务执行成功。

  • 配置工具:为每一步任务提供具体的配置指令。

  • 校验工具:为任务预期和配置结果进行比对校验。

在 DeepFlow 智能体部署初期,执行层主要提供执行建议,具体任务由人工参与。当执行任务流程、权责明晰后,可引入任务编排,通过自动化的配置和校验,实现任务自动化。


DeepFlow 智能体



核心技术


智能体面临的技术挑战主要存在于以下几个方面:

可观测性问题

一个智能体在完全可观测的环境中才能有效运行。可以拿自动驾驶做类比,一辆汽车需要通过摄像头或激光雷达对周围环境完全可观测方可实现自动驾驶。要让智能体能够时时刻刻保障业务的稳定性,全面的可观测性不可或缺。

幻觉问题

由于LLM不能理解物理描述的真实世界,只是在语言描述的概念世界中运行,因此天然具有幻觉问题,是无法消除的。要让LLM的幻觉问题不影响智能体正确工作,必须提供清晰明确的任务规划能力,并且能围绕用户场景进行“量身定制”。

成本问题

无论处理海量的可观测性数据,还是运行“满血”的LLM,都需要消耗巨大的算力。行业客户并不具备践行“scaling law”所需的成本支出能力。无视成本问题的智能体项目最终都将难以大规模推广。

DeepFlow 智能体,通过如下原创技术去解决上述问题:

1.  零侵扰采集技术

通过融合cBPF、eBPF、Wasm等技术,实现对大规模分布式业务和基础设施的零侵扰数据采集,解决了 DeepFlow 智能体其运行环境的完全可观测性问题。其原创技术发表于SIGCOMM会议中。

2.  思维链状态机技术

通过思维链(Chain of Thought)指引,可以解决由大模型推理带来的幻觉问题。然而,随着业务和场景的不断变化,思维链的复杂性呈指数级上升。通过使用基于DFA + NFA的混合状态机技术,可以有效解决思维链复杂性带来的状态空间膨胀问题。相关原创技术发表在JNCA论文中。

3.  自适应感知技术

自适应感知技术实现了推理前感知和推理中感知的混合感知技术。推理前感知技术包括对数据的实时特征提取和分类,推理中感知技术则结合业务场景对数据进行按需的特定特征提取和分类。自适应感知技术使得用户可以在成本和性能之间进行不断优化,避免不可控的算力资源投入。相关原创技术已申请发明专利。

 
DeepFlow 智能体



实施步骤


DeepFlow 智能体的落地实施,要以数据为基石,以业务为中心,不断进行场景优化。

第一步:数据采集

  1. 部署 DeepFlow 采集器

  2. 获取业务的可观测性全栈数据

第二步:业务梳理

  1. 业务全景图

  2. 获取业务的全链路依赖信息

第三步:场景优化

  1. 设计和优化各类场景下的工作流

  2. 根据成本和需求定制推理层各类模型

  3. 根据使用量不断提升感知层和执行层的性能

云杉及云杉认证的技术合作伙伴,提供 DeepFlow 智能体落地实施的相关技术服务。

分钟级根因定位

7x24 健康巡检

一句话问数

 

DeepFlow 智能体



总结


DeepFlow 智能体以保障业务连续性为核心使命,通过三大场景应用——分钟级诊断、不间断巡检和一句话问数,构建了完整的智能运维体系。它基于完全可观测性的环境,能够自主使用各类工具完成复杂任务,为每个客户提供量身定制的解决方案。

在金融、电信、电力、智能制造等高可靠性要求的行业,DeepFlow 智能体已展现出卓越价值——从加速核心系统上线,到避免关键业务雪崩,再到突发情况应对,通过预防为主、快速止血和及时决策的全方位保障。

DeepFlow 智能体的架构涵盖交互层、感知层、推理层和执行层,通过零侵扰采集技术、思维链状态机技术和自适应感知技术解决了可观测性、幻觉问题和成本效益的技术挑战。实施过程遵循"数据采集—业务梳理—场景优化"的科学路径,确保企业能够将20%的核心需求转化为80%的竞争优势。


加入DeepFlow开源社区
体验高度自动化的可观测性新时代




官网链接
https://deepflow.io

GitHub 地址
https://github.com/deepflowio/deepflow

企业版咨询电话
400 9696 121



往期推荐:





DeepFlow 2024:开源与商业飞跃的璀璨篇章,启航 AI 新路程

【活动回顾】跨域全链路可观测性技术论坛(北京)

慢调用排查实录:高效定界服务网格 Sidecar 性能瓶颈
关于 DeepFlow

DeepFlow 是云杉网络开发的一款可观测性产品,旨在为复杂的云原生及 AI 应用提供深度可观测性。DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰(Zero Code)采集,并结合智能标签(SmartEncoding)技术实现了所有观测信号的全栈(Full Stack)关联和高效存取。使用 DeepFlow,可以让云原生及 AI 应用自动具有深度可观测性,从而消除开发者不断插桩的沉重负担,并为 DevOps/SRE 团队提供从代码到基础设施的监控及诊断能力。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询