AIOps的概念从2016年由Gartner提出,距今已经有三年多的时间,彼时人工智能技术尚未被行业完全接受,以一个初入局的姿态在运维领域探索前行;但随着人工智能技术的进一步成熟以及当前企业IT基础架构、软件规模量级的不断提高,人工智能技术在运维行业的应用优势逐渐凸显,AIOps也一跃成为当前运维领域最受关注的概念。
相对于国际市场,国内的智能运维市场起步稍晚,直到近两年,智能运维才在银行、电力、电信等行业进行了落地尝试。站在2019年的年尾,让我们聚焦运维行业的发展状态以及AIOps的实际应用情况,再来讨论一下当前智能运维发展状态及应用前景。
本系列文章将分为四部分进行具体阐述AIOps的现状以及对AIOps未来发展的思考,本篇文章为本系列第一部分——AI+Ops=AIOps?
AIOps概念回顾
首先,我们来回顾一下AIOps的具体含义,由于AIOps并非一门确定的研究学科,其具体定义也随着人们对其理解的不断深入以及应用技术的变化而发生改变,这里我们且先引用Gartner的定义。
根据Gartner的定义,AIOps是一种多层次的技术平台, 简单来说包括如下两点内容——1、使用机器学习来分析IT运营系统的各类业务与系统数据,从而实现IT运营的自动化增强;2、能够实时的自动发现系统存在的问题且能自动实现故障自愈。AIOps应具备技术能力包括1、历史数据管理;2、流数据管理;3、日志数据整合;4、网络数据整合;5、指标数据整合;6、文本数据整合;7、自动化模式发现和预测;8、异常检测;9、根因分析;10、提供私有化部署;11、提供SaaS服务。
通过定义的内容表述我们可以看出,AIOps属于人工智能领域的分支,通过结合大数据和机器学习或深度学习等技术,AIOps平台工具旨在帮助我们解决日益膨胀的IT系统遇到的运维瓶颈,从而极大地提高与解放生产力。
事实上,通过机器学习分析运维大数据从而做出决策,也是当前市场上智能运维平台的主流做法。
目前,市场上已经有了非常多的运维监控工具,这些工具采集和存储了海量的、价值极高的运维数据,为后续的分析提供了基础;通过应用机器学习算法,可以自动地从海量运维数据中不断学习,提炼和总结规则规律;当遇到突发事件的时候,基于总结的规律快速、准确地做出决策,从而达到智能运维的效果。机器学习的应用,相当于给原有的自动化运维增加了一个基于机器学习的大脑,数据自动分析、决策,指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。同时,各大公司也试图通过不断更新算法与增加覆盖场景去完成运维质量的提升。
这一做法乍看可行,但在实际应用中,由于运维业务场景的多元化,某一场景中产生的异常,在另外的业务场景可能就是正常的;同一个错误警报,也可能由多种不同的原因导致……因此,当出现故障时,仅仅基于频率和统计的日志分析并没有真正理解日志本身的含义,单纯通过机器学习总结经验再加以应用的做法不能也不可能涵盖所有的应用场景。因此,这种方式产生的智能也并不是真的智能。
实际上,从AIOps面世后的这几年的落地应用情况来看,也表现了目前AIOps方案能力的不足,从2016年提出至今三年多的时间里,国内外没有一家真正做好智能运维的企业,大多数的智能运维平台不过是部分使用了人工智能的相关技术而打着擦边球,本质上还是自动化运维。其实不仅在只能运维领域,人工智能从20世纪50年代开始发展至今,依然没有发展成立人工智能领域的头部商业公司,这也从侧面反映出人工智能技术还没有发展到稳定成熟的应用阶段。
这不禁让我们反思,机器学习或深度学习是否适用于运维领域,目前运维所面临挑战是否可以通过大数据和深度学习来解决,进一步——AI+Ops是否真的等于AIOps?
AI+Ops是否真的等于AIOps?
针对这个问题,我们的思考包括以下两方面。
首先,AIOps是否可以理解成AI和Ops系统简单的叠加?显然答案是否定的。AIOps的概念一开始是从ITOA上进化而来的,所以AIOps是在ITOA的基础之上发展而来,需要之前已有的一系列组件作为基础要素,才能真正进化为智能的系统。
其次,当前AIOps运用到的深度学习技术,是否为运维的解决方案。
根据中国科学院张钹院士(中国人工智能的奠基人之一)在IJCAI(国际人工智能联合会议)2019的多场会议活动的演讲中的阐述:虽然深度学习在图像识别、语音识别以及包括 AlphaGo所取得的成绩都极大地鼓舞大家的信心,然而其存在的局限性也非常明显,时至今日依旧只能应用在非常有限的场合,在技术应用层面已接近天花板。
究其原因,深度学习的不足主要在于无法对数据进行理解。
现在的深度学习本质是基于概率统计,是寻找那些重复出现的模式,利用没有加工处理过的数据用概率学习的“黑箱”处理方法来寻找它的规律,这个方法本身通常无法找到“有意义”的规律,它只能找到重复出现的模式,重复多了就被认为是规律(真理),因此谎言重复一千遍就被认为真理,所以为什么大数据有时会做出非常荒唐的结果,因为不管对不对,只要重复多了它就会按照这个规律走,就是谁说多了就是谁。也就是说,光靠数据是无法达到真正的智能。这也解释了为什么传统的AI,依靠决策树、随机森林、人工神经网络、贝叶斯学习等算法驱动的AIOps平台并没有很好的解决运维领域里的各类问题。
因此,我们的结论是AI+Ops=AIOps这个说法不成立。
基于理解的智能运维
针对当前基础深度学习的智能运维平台的不足,联动北方提出了基于理解的智能运维。
所谓基于理解,就是通过建立运维领域基准知识库,厘清运维日志里中的每一项数据与流程的具体含义,发现数据间的关系并理解系统中每一项数据的来源以及其对应的意思,对于系统过程中的每一个参数做到知其然同时知其所以然,再通过基于领域性知识基准库与基于理解日志信息的分析系统对运行过程中产生的问题进行分析,分析结果才能做到更加准确与智能。
应用方面,联动AIOps平台现已采集数百个软硬件产生的错误信息,以达到为IT运维信息提供基础字典的目的,目前已经构建完成领域性知识基准库。
下一篇文章,我们将接着讲述AIOps在建设与选择过程中可能掉入的陷阱。
该贴被huang.wang编辑于2019-12-10 14:14:16