【AIOps】智能运维平台功能之监控管理_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 4022 | 回复: 0

主题： 【AIOps】智能运维平台功能之监控管理

huang.wang

注册用户

等级：中将
经验：17623
发帖：407
精华：1
注册：1970-1-1
状态：离线
发送短消息息给huang.wang

加好友发送短消息息给huang.wang

发消息

发表于：

2019-3-3 15:22:55 | [全部帖] [楼主帖]

楼主

人工智能技术发展迅速，现今已经渗透进了每个领域，从根本上改变和影响着这些领域的业务模式、技术架构以及方法论，在运维领域同样也是如此。前面的几篇文章我们分别讲到了智能运维平台的探索与实现、智能运维给传统运维工作带来的影响以及智能运维的发展前景与前瞻性。今天的文章，想从智能运维的功能出发，逐一浅析一下智能运维平台的各项功能。

在运维行业有一句流传范围很广话——“无监控、不运维”，可见监控是整个运维乃至整个产品生命周期中十分重要的一环。监控涉及到事前及时预警发现故障，事后提供详实的数据用于追查定位问题，如果监控功能缺乏，什么基础运维，业务运维都将成为纸上谈兵。从某些层面来说，监控是运维工作的最重要组成部分之一，尤其是在现在在智能运维发展迅猛的时刻，用监控数据快速发现、定位问题，这显得更加必要。在传统运维工作中，运维工程师常常被说成是背锅侠，那么，有了监控，有了充足的数据，一切以数据说话，运维也就不需要“背锅侠”这一角色了。

既然监控在运维工作中扮演者如此重要的角色，那么，在智能运维时代，一个成熟的智能运维平台又能在传统的监控模式上作出哪些优化和革新呢？下面我们从监控的意义，运维平台的演变以及智能运维平台的监控管理功能三方面出发，来具体了解一下。

监控的意义

在讨论智能运维平台的监控功能的重要性之前之前，我们首先厘清监控的具体概念以及监控的方法与内容。

监控，总的来说算是一个比较大的概念，会因为每个人所处的环境不同被赋予不同的理解与意义。但与此同时，在实际应用中的，监控系统是需要站在公司的业务角度去考虑和实施的，而不仅仅是针对某个监控技术的使用。以监控目标不同来划分，监控可以分为以下四类：

1、对系统不间断实时监控:实际上是对系统不间断的实时监控；

2、实时反馈系统当前状态:我们监控某个硬件、或者某个系统，都是需要能实时看到当前系统的状态，是正常、异常、或者故障；

3、保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行；

4、保证业务持续稳定运行:如果我们的监控做得很完善，即使出现故障，能第一时间接收到故障报警，在第一时间处理解决，从而保证业务持续性的稳定运行。

在实施监控的过程中，通常要经历如下几个步骤，分别是了解监控对象——设定监控指标——设置报警阈值——阈值故障处理方法。

1、了解监控对象。对于需要监控的对象做一个详细的了解，做到心中有数，比如CPU到底是如何工作的？

2、设定监控指标。对于每一个监控的对象，可以选择标志性的参数来作为参考，以此为标杆来衡量我们要监控这个东西的新能。比如CPU的使用率、负载、用户态、内核态、上下文切换。

3、设定报警阈值定义。对于一个正在运行的设备，怎么样才算是故障，需要对使用者发出警告呢？比如CPU的负载到底多少算高，用户态、内核态分别跑多少算高？报警阈值的设定某种程度上也关乎程序的准确度，若阈值设置太低，可能导致频繁无效警报，阈值设定过高则可能产生事故发生而不自知的情况。

4、故障处理流程：收到了故障报警，应该制定何种策略还应对，是否有更高效的处理流程可以处理好这次故障，都是值得研究与探讨的。

面对故障的发生，处理流程一般分为一下四步。

1、发现问题：当系统发生故障报警，我们会收到故障报警的信息

2、定位问题：故障邮件一般都会写某某主机故障、具体故障的内容，我们需要对报警内容进行分析，比如一台服务器连不上：我们就需要考虑是网络问题、还是负载太高导致长时间无法连接，又或者某开发触发了防火墙禁止的相关策略等等，我们就需要去分析故障具体原因。

3、解决问题：当然我们了解到故障的原因后，就需要通过故障解决的优先级去解决该故障。

4、总结问题：当我们解决完重大故障后，需要对故障原因以及防范进行总结归纳，避免以后重复出现。

运维监控平台的演变历程

随着新技术的逐渐推广使用以及企业规模的不断扩大，需要管理的机器数量也在不断增加，运维监控平台也在不断变化以适应新时代的发展需求。以不同阶段、不同机器数量为标准，监控平台大致经历了如下三个阶段。

第一阶段，机器数量小于100台。

这个时期由于机器数量较少，因此，对监控的需求也很简单，监控的用途可能主要用于通知问题、快速定位与解决问题，大致总结一下，此阶段监控平台的特点如下：

1、部署简单，上手易用

2、稳定运行，不出故障

3、可进行报警，以邮件、短信等形式

第二阶段，机器数量200到1000台。

这个阶段，由于机器数量变多，监控需求也开始变得复杂，不过主要还是用于通知、告警，发现问题，并避免同样的问题再次发生。根据这个阶段的特点，这个时期的监控平台主要在以下几方面做了改进：

（1）监控内容分类：由于要监控的机器很多，监控内容也随之增多，于是我们将监控根据用途不同，进行了分类，主要分为系统基础监控数据、网络监控数据和业务监控数据。

（2）全覆盖式监控：将所有机器均纳入监控中，主要包含软件监控和硬件监控，硬件监控主要是监控硬件性能和故障，软件监控除了第一步提到的各种基础监控数据外，还增加了业务逻辑监控，尽可能的覆盖业务流程，通过大量自定义监控减少和去除重复的问题，保障业务稳定运行。

（3）多种告警方式，确保无漏报：将所有监控根据重要程度、紧急程度进行分类，分别用邮件，微信，短信，电话等不同级别的方式进行通知，每个监控对应到不同的人，确保每个监控都有人处理，并且对于重要的业务采用持续通知的方式，不处理就一直通知。

这个阶段的难点是对告警信息的处理，由于机器越来越多，需要监控的服务也越来越多，告警信息就出现了爆发式增长，每天收到上千封报警邮件是经常的事情。过多的邮件出现，其实就失去了告警的意义，因为我们不可能去查看每一封邮件，而这么多告警邮件中，很多都是非必要的告警，例如系统负载偶尔增高一下，就发了告警邮件，这完全是不需要的。

因此，这个阶段，主要是对监控告警策略进行配置和优化，尽量减少不必要的告警邮件，例如，对系统负载的监控，可以选择连续几次负载超过阀值，然后持续多久之后才进行告警操作，通过对告警策略的优化，告警信息大大减少，每天最多几十封，这样的话，就不会错过任何告警信息了。

第三阶段，机器数量超过1000台。

由于业务持续增长，对服务器需求越来越多，当服务器的数量超过1000台以后，监控的情况发生了非常大的变化，或者说监控出现了很多奇怪的问题，主要有如下一些：

1、告警不及时

当服务器超过1000台以后，传统与运维监控工具以及无法完成监控，有时候监控数据不能及时显示，有时候告警迟迟不来，特别是告警延时，这个是最恐怖的事情。

线上业务7*24小时不能出现故障，虽然监控到了异常，但是通过监控系统发出来已经是1个或者几个小时之后了，那监控还有什么意义呢，及时性是监控系统的第一要求，这个是必须要解决的问题。

如何解决这个问题呢，除了对监控进行优化，还对数据收集进行了扩展和优化，通过对不同的数据针对性使用不同的工具，将收集数据的负载进行分担，大大减低负载，使得数据收集的准确性、及时性恢复正常。

2、告警系统出现单点故障

由于服务器众多，收集的数据也飞速增长，监控服务器突然意外宕机事件的频率开始增加。一次宕机事件往往会持续很长事件，等系统完全恢复启动起来，经常是数小时以后了，这对于运维领域是一件很严重的事故。

为了防止宕机事故的频繁发生，这一阶段的监控服务器开始进行分布式高可用部署，以避免单点故障，同时对监控到的数据进行远程异地备份，当监控服务器故障后，会自动切换到备用监控系统上，并且监控数据自动保存同步。

3、告警需求监控系统无法满足

业务量的增加，客户对业务稳定性要求变得更加苛刻，为了保证业务系统稳定运行，业务逻辑监控需求被提出来了。业务逻辑监控就是对业务系统的运行逻辑进行监控，当业务运行逻辑故障时候，也需要进行告警，很显然，对业务逻辑的监控，没有现成的工具和代码，只能根据业务逻辑自行开发，通过提高业务逻辑接口，汇报数据等方式，以满足对业务逻辑的监控。

常见的运维监控工具

在智能运维诞生以前，市场上就已经有了许多优秀的监控工具被广泛使用，比较具有代表性适用范围比较广的包括以下几种工具。

1、Nagios

Nagios是一款开源的免费网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设置，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。

Nagios主要的特征是监控告警，最强大的就是告警功能，可支持多种告警方式，但缺点是没有强大的数据收集机制，并且数据出图也很简陋，当监控的主机越来越多时，添加主机也非常麻烦，配置文件都是基于文本配置的，不支持web方式管理和配置，这样很容易出错，不宜维护。

2、Cacti

Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具。

简单的说Cacti就是一个PHP程序。它通过使用SNMP协议获取远端网络设备和相关信息，（其实就是使用Net-SNMP 软件包的snmpget 和snmpwalk 命令获取）并通过RRDTOOL工具绘图，通过PHP程序展现出来。我们使用它可以展现出监控对象一段时间内的状态或者性能趋势图。

3、Zabbix

zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数，保证服务器系统的安全运营；并提供强大的通知机制以让系统运维人员快速定位/解决存在的各种问题。

zabbix也有不足之处在于它消耗的资源比较多，如果监控的主机非常多时，可能会出现监控超时、告警超时等现象，不过也有很多解决办法，比如提高硬件性能、改变zabbix监控模式等。

4、Ganglia

Ganglia是一款为HPC（高性能计算）集群而设计的可扩展的分布式监控系统，它可以监视和显示集群中的节点的各种状态信息，它由运行在各个节点上的gmond守护进程来采集CPU 、内存、硬盘利用率、I/O负载、网络流量情况等方面的数据，然后汇总到gmetad守护进程下，使用rrdtool存储数据，最后将历史数据以曲线方式通过PHP页面呈现。

ganglia的主要特征是收集数据，并集中展示数据，同时对大数据平台的监控更为智能，只需要一个配置文件，即可开通对hadoop、spark的监控，监控指标有近千个，完全满足了对大数据平台的监控需求。

5、Centreon

Centreon是一款功能强大的分布式IT监控系统，它通过第三方组件可以实现对网络、操作系统和应用程序的监控。centreon的强项是一键配置和管理，并支持分布式监控，nagios能够完成的功能，通过centreon都能实现，同时，centreon还可以和ganglia进行集成，centreon将ganglia收集到的数据进行整合，可以实现主机自动加入监控以及自动告警的功能。

这些工具的组合使用，为运维工程师带来了极大的便利，大大提高了其工作效率。

智能运维平台的监控管理功能

随着企事业单位IT系统规模不断扩大，构成IT基础的设施呈现出规模庞大、结构复杂、品牌众多的特点，传统的运维监控工具已经无法满足未来运维发展的需求。随着人工智能技术的逐渐渗透，智能运维平台因为其强大的功能，简单的操作以及非凡的效率被企业所重用。

在监控管理方面，智能运维平台的监控管理功能能够让运维工作智能、高效、简单、统一，帮助运维团队实时、全面掌握IT运行态势，及时响应和处理IT故障，为各企事业单位业务提供强有力的IT支撑和质量保障。

多维度可视化的监控面板

智能运维平台的监控管理功能提供可视化监控平台，将业务应用、IT基础资源、应用系统情况进行统一展示、告警和管理，告别不同资源的离散管理模式。

丰富的监控模型库

全面灵活的监控方式（SNMP、WMI、SSH、TELNET、SHELL、IPMI、HTTP、Agent、syslog、SMI-S 、JMX、GB/T28181、SDK、TCPDUMP等），使得系统具备全范围的监控能力。智能运维平台的监控管理功能能够监控各种操作系统、服务器硬件、网络设备、各种业务应用、数据库、中间件、存储、虚拟化等IT资源，同时支持自定义刷新时间，随时随地监控系统运行情况。

告警事件集中展示