智慧运维


目标

在综述中提到了如下目标

  • 对日志语句进行分析和协助编写
  • 压缩日志
  • 将日志解析为结构化的事件模板
  • 使用日志进行异常检测、故障预测和诊断
  • 此外,调查发布开源工具包和数据集的工作

即:利用人工智能简化 IT 运营管理并加速和自动完成问题解决过程。

主要背景总结

关键词:机器学习、大数据、自动与智能化

  • AIOps是

————将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼并总结规则。

  • AIOps的主要应用场景

异常告警、告警收敛、故障分析、趋势预测、异常检测、根因分析

  • 智能运维(AIOps)

————意指整合大数据和机器学习能力,通过松耦合、可扩展方式去提取和分析数据量、种类和速度这三个维度不断增长的 IT 数据,进而为 IT 运维管理产品提供支撑

  • 云智慧

AIOps与其说是产品,不如说是一种理念和策略。通过以数据为基础、算法为支撑,场景为导向的AIOps平台,为企业现有运维管理工具和管理体系赋予统一数据管控能力和智能化数据分析能力,全面提升运维管理效率,化被动运维为主动运维。

  • 运维发展阶段

{

早期的手工运维,

流程化、标准化运维,

平台化、自动化运维,

最后到近十年的 DevOps[4](研发运营一体化)和 AIOps(智能运维)

}

  • 平台能力

{

提供独立、开放的历史/实时数据采集算法分析平台,整合IT数据和业务指标数据,

提供告警消噪,包括告警抑制、告警收敛等,消除误报或冗余事件;
提供跨系统追踪和关联分析,有效进行故障的根因分析,

设定动态基线捕获超出静态阈值的异常,实现单/多指标异常检测

根据机器学习结果,预测未来事件,防止潜在的故障,

直接或通过集成启动解决问题的动作

}

  • 将AI和运维程需要三方面的知识:

{

行业、业务领域知识,跟业务特点相关的知识经验积累,熟悉生产实践中的难题

运维领域知识,如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能调优等

算法、机器学习知识,把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。

}

Spark

Spark是一个通用分布式数据处理引擎

  • 通用

指的是Spark可以做很多事情。包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等

  • 分布式

Spark处理数据的能力是建立在许多机器上的,是可以和分布式的存储系统对接的,是可以做横向扩展的

ITOA

(似乎有些过时)

全称“IT运营分析”(IT Operations Analytics),核心目标是“运”而非“维”,即通过运维手段和技术指导和促进业务发展

相关资料:

IBM的介绍

微软

Spark中文文档


文章作者: Ayanami
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Ayanami !
评论
  目录