AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AIOps涉及哪些领域和方向?
发布日期:2024-10-08 22:08:51 浏览次数: 1857 来源:SRE说


Gartner 在 2016 年首次提出了 AIOps 这一术语,它是 Algorithmic IT Operations 的缩写,意指算法驱动的 IT 运维。随着人工智能技术的发展和普及,AIOps 的含义已经扩展为 Artificial Intelligence for IT Operations,也就是用于 IT 运维的人工智能技术。

我们将从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测以及大模型应用等七个关键点进行解读。

故障发现与 AI 结合

首先在故障发现领域就面临着很多挑战,这些挑战往往超出了人力所能及的范围。这些问题可以概括为三类。

监控项庞大,随着服务复杂性的增加,监控项的数量急剧上升,带来了首个挑战——在庞大的数据流中准确识别异常模式。以不同运营商和地区的流量数据为例,细分后可能产生数百条数据曲线,每条都需要定制的相应的监控策略。手动配置这些规则不仅任务繁重,而且在人力成本上也显得不经济。

二是微小变化检测难题,尤其是那些渐进性下降或微小波动的情况。例如曲线的缓慢下降可能预示着系统出现了一些小问题。这种细微的 Case 通常难以通过肉眼直接察觉。以流量数据为例,如果今天的总请求量大于昨天,这通常被视为正常表现。然而,如果今天 0~12 点的请求量大于昨天同期,而 12 点之后请求量出现缓慢下降,低于昨天的请求量,这背后可能隐藏着异常情况。这种情况下,需要依赖自动化的监控工具来帮助识别这些不易被察觉的异常变化。

第三个挑战在于,单独依赖任何一个指标通常难以揭示问题的本质。准确地诊断往往需要多个指标的联合评估。例如,在短视频服务中,仅观察视频播放量或播放时间的单一变化,可能不足以判断服务状态。如果视频播放量和播放时间同时增加,这通常表示服务运行正常。同样,如果播放量和播放时间同时下降,这也可能是正常波动的一部分。然而,如果出现播放量增加而播放时长下降的情况,这可能指示存在异常,比如推荐系统可能出现了问题。

所以在故障发现领域,目前我们可以归纳出三个主要的研究方向。

单指标异常检测:作为当前最活跃的研究领域之一,AIOps 在监控和定位单指标异常方面的应用在工业界和学术界都极为热门。AI 在此领域的显著效果使其成为研究和发表文章的热点。

多指标联合分析:当多个关键性能指标(例如服务等级协议 SLA、延迟、系统负载等)同时出现异常时,需要一个智能决策机制来综合分析这些指标间的相互关系和影响。这种综合分析有助于更准确地判断是否真的发生了问题,从而采取相应的措施。

报警优化:面对成千上万的监控指标,如何通过算法预测并自动设定合适的阈值是一个重要挑战。这需要智能算法来自动化阈值设定过程,优化报警系统的性能,减少误报和漏报,确保监控系统的高效运行。

故障定位与 AI 结合

服务故障定位面临的一大挑战是它成因的复杂性。在应对服务故障的时候,需要深入分析以识别问题的本质,是单个服务器或实例的问题,还是网络故障或其他外部因素所致。

如果故障仅出现在少量机器上,通常可以判断为机器本身的问题,而不是上层服务引起的实例异常。如果同一网段的多台机器同时出现故障,这通常指向网络异常,可能是网络配置或者网络设备出现了异常。如果同一型号、同一批次的机器同时出现问题,很可能是这一批次的机器存在共性问题,硬件层面存在缺陷。

故障定位的难点还包括调用链路的深度和复杂性。随着云计算和大数据技术的广泛应用,分布式和微服务架构的普及使得业务系统间的交互变得更加复杂。这导致在故障发生时,追踪故障的因果关系变得极为困难,主要的原因体现在两点。

首先是调用层次深的问题,在多层调用的系统中,追踪和定位故障源头变得更加困难,因为一个故障可能在多个服务和组件间传播。其次是故障之间的先后顺序和因果关系如何确定的问题,例如确定是服务 A 的故障导致了服务 B 的问题,还是相反。这种因果关系的确定有时类似于经典的“先有鸡还是先有蛋”问题,凸显了问题的复杂性和解决难度。

故障定位的难点三在于,导致故障的可能性是多样的。比如在流量出现波动的时候,原因可能相当复杂,比如促销活动、节假日影响,或者是内部系统故障。外部事件,如节假日或特殊活动,往往会对流量产生显著影响,这些因素在故障分析时可能不会立即被考虑到。同时,也必须排查是不是内部系统的问题导致了流量波动,比如服务故障或性能瓶颈。

因此在故障定位领域,场景的探索可以归纳为三个主要方向,每个方向都有针对不同问题的解决策略。

多维定位(下钻定位):这个方向涉及从不同维度深入分析故障,通过细化问题来定位故障的具体位置。它要求能够识别和分析多个相关指标和日志,以便精确地找到问题根源。例如,通过下钻到特定的服务、实例或时间段,逐步缩小故障范围。

因果关系判断:在复杂的系统中,故障可能由一系列事件引起,确定这些事件之间的因果关系是至关重要的。这个方向要求开发智能算法,能够分析时间序列数据,识别先行指标,从而判断哪些事件是故障的直接原因,哪些是间接影响或结果。

重复故障定位:针对系统重复出现的故障,这个方向关注于识别故障模式和规律,以及它们重复出现的原因。通过历史数据分析,可以建立模型预测故障发生的可能性,并采取措施防止故障再次发生或减少其影响。

容量与 AI 结合

容量管理与人工智能的结合主要在三个关键领域:一是流量预测,这是容量管理中的一项基础工作。AI 技术可以通过机器学习算法,如时间序列分析、回归模型等,来分析历史流量数据。通过训练模型,AI 可以识别流量模式和趋势,预测未来的流量变化,包括节假日、促销活动等特殊事件的影响。准确的流量预测有助于提前规划资源,避免在流量高峰时出现服务中断或性能下降。

二是服务资源画像,指的是对服务在不同条件下资源需求的详细描述。这包括 CPU、内存、存储和网络带宽等资源。AI 可以帮助分析服务在不同查询率(QPS)和不同硬件配置下的性能表现,构建资源需求模型。有了服务资源画像,可以更精确地进行资源分配和优化,确保服务性能和用户体验。

三是扩容决策,根据当前和预测的请求量来确定需要的资源规模。AI 可以分析实时数据,帮助决策者理解何时需要增加资源,以及如何分配这些资源。

变更与 AI 结合

在系统上线变更过程中,人工检查面临两大挑战:高昂的检查成本和关键信息的遗漏风险。面对众多检查项,微小的异常很难通过人工识别,这限制了变更拦截的精确性。

此外,上线团队聚焦于直接负责的服务,而忽略了对相关上下游服务的评估。此外检查标准的不一致性,以及发布工具中阈值设置不当,进一步降低了变更拦截的准确性。

为应对这些挑战,智能检测技术应运而生。它能够自动分析服务上线对上下游服务的潜在影响,并全面监测相关指标。智能检测还能捕捉到那些难以被肉眼发现的微小变化,并通过自动化的全面检查,显著提升变更拦截的精确度和效率。

预案与 AI 结合

如何得到准确有效的决策,是预案和 AI 结合的重点。工程师面临着在高压环境下迅速做出准确决策的挑战。人工处理故障的时候,响应迟缓、决策失误和操作错误等问题频繁发生。

比如我之前就遇到过服务雪崩式的故障,有人提议重启服务,有人建议切流,还有人主张限流。最终,混乱的局面延长了故障持续时间。那究竟什么样的决策才是最合理的?这里我们可以借助 AI 的力量,将人工智能与预案管理相结合,可以形成一种智能决策过程。这种结合不仅能够加快决策速度,还能提高决策的质量和效率。

磁盘故障与 AI 的结合

AIOps 在磁盘故障预测领域的应用,通过提前识别和预测磁盘故障,AIOps 能够显著提升数据的安全性和系统的可靠性,减少因数据丢失或系统中断带来的风险。

利用机器学习和深度学习技术,分析磁盘的相关数据,构建预测模型,识别故障的早期迹象,并及时把将要发生故障的磁盘进行修复和替换。

大模型与运维

大模型给运维领域带来的变革之一就是让工具听懂人话。AI 现在能够理解人类的语言,而人们也能够理解 AI 的输出。这种相互理解极大地增强了人与 AI 的协作,提升了运维工作的效率和协调性。大模型让 AI 能够理解和解析人类的自然语言指令和查询,更准确地响应运维人员的需求。AI 还能用人类易于理解的语言生成报告和解释,帮助运维人员快速把握系统状态和问题核心。

通过自然语言的交互,运维人员可以直观地与 AI 系统合作,进行故障诊断、数据分析和决策制定。大模型不仅提升了运维的自动化和智能化水平,还促进了人与 AI 之间的协作,为运维领域带来了革命性的变化。

小结

这节课我们探讨了 AI 与系统可靠性结合的多个关键领域,包括问题发现、故障定位、容量预测、风险预案以及变更管理等。AI 的集成有望突破传统人工方法的局限,解决以往难以攻克的难题。后面几节课我会具体介绍这些领域内 AI 应用的具体技术和策略。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询