【AIOps】物换星移几度秋『第二章』——小心AIOps可能掉入的陷阱_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  AI.人工智能讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 761 | 回复: 0   主题: 【AIOps】物换星移几度秋『第二章』——小心AIOps可能掉入的陷阱        上一篇   下一篇 
huang.wang
高级会员
等级:中将
经验:17623
发帖:407
精华:1
注册:1970-1-1
状态:离线
发送短消息息给huang.wang 加好友    发送短消息息给huang.wang 发消息
发表于: IP:您无权察看 2019-12-14 13:58:36 | [全部帖] [楼主帖] 楼主


在上篇文章中,我们对AIOps的定义及现状做了简单的回顾,并对AIOps的具体概念进行了进一步的探讨,在我们看来,AIOps绝不是AI与Ops两个概念的简单叠加,当前运维所面临的挑战也并不能依靠传统AI基于机器学习或深度学习的方式来解决。在深度学习已经触及天花板的今天,针对当前运维市场的现状,我们更需要的是一个基于理解的智能运维平台。

今天的文章,将承接上文,主要讲一下AIOps在实践和具体落地过程中可能掉入的陷阱。

通过这几年AIOps的落地过程来看,我们在构建与实践AIOps的时候,往往可能掉入多个陷阱,尤其是对现阶段AIOps发展水平的认知不足以及在技术的选择两方面产生的陷阱,我们需要加以防范。


陷阱一:对现阶段AIOps发展水平的认知不足

在应用新技术前,我们往往要对技术现阶段的发展状况进行一个了解与评估,以找到最合适的落地方式。但是由于人工智能技术本身的特殊性,常常会让人产生一些过高的预期,从而影响评估结果。对现阶段AIOps发展水平认知不足,会导致在构建智能运维平台时,产生一些超越当前技术水平的期望,提出一些不符合实际的要求,从而影响最终的结果。

AI是一个科技感十足的词汇,大多数人看到 AI 可能会联想到不需要人为干预就能自动、主动地完成工作的机器人。对于运维领域来说,理想状态AIOps应该像一剂万能药水,能解决运维工作中各种大小难题,有了AIOps,运维工程师以前只能向往的“诗和远方”也似乎马上就可以实现。

但事实上,根据Gartner发布的技术成熟度曲线显示,AIOps目前正处于科技诞生的促动期 (Technology Trigger)进入过高期望的峰值(Peak of Inflated Expectations)的发展时期,而对其抱有超越现阶段的期望,也是 AIOps 面临的主要陷阱之一。

 image.png

对于智能运维未来的愿景,清华大学知名教授在两年前一次演讲上曾经提到过——将来的愿景是什么样子呢?现有监控提供数据采集,AIOps 的引擎做出决策建议,少数运维专家最终决策,执行自动化脚本进行故障止损、修复、规避等操作。但往往理想丰满,现实骨感,两年前的愿景就今天来看依旧还有很长一段路要走,当前绝大多数智能运维平台只能实现比较基础的功能,主要包括以下几类:

1)异常检测:主要是检测交易量是否异常、某台机器或者是集群是否有故障、日志记录是否异常、是否有受到攻击和数据库是否有异常等等。

 2)异常定位:根据交易指标辅助异常发生时候的问题定位。这些指标包括:软件系统交易类型、软件系统的交易时间、硬件系统的内存使用率和内存硬件系统的CPU使用率等等。

 3)异常预警:通过对系统软硬件的指标体系、日志、事件进行监测,并根据当前的运行信息预测未来一段时间内系统失效的概率,以达到提前预警的目的。

因此,我们在商讨建设方案时,应该从企业的实际情况出发,制定节奏合适的规划,避免因为认知不足而导致的落差。

其次,当AIOps落地后,对其过高的期望值也很容易掉入陷阱,误认为AIOps是万能的,可以用来解决运维中遇到的所有问题,但在实际使用过程中却发现功能与预期相去甚远。

AIOps平台本质上仍是一个工具,在构建后,依旧需要人的参与;需要在专家或者数据科学家的帮助下,不断完善来提升系统的AI能力;还需要我们树立科学的系统建设理念,逐步按梯次建设实施好AIOps系统。

只有对AIOps的现状有一个清晰的认识,才能保证在构建和落地过程中脚踏实地,也让技术能发挥出最大的价值。


陷阱二:技术选择上的陷阱

另一类陷阱,则是技术选择上的。目前市场主流运维平台所采用的多是通过深度学习或机器学习分析运维大数据从而做出决策的方案,但在实际应用过程中,直接应用标准的机器学习算法,通过"黑盒"的方法直接解决我们的运维问题的做法,通常是行不通的。

最典型的比如异常检测,由于运维过程涉及到的IT产品繁多复杂,每一类系统也有关于自身异常的监控指标,机器学习在没有理解异常错误的具体含义时,仅仅通过机器学习得出的经验无法在各类繁多复杂的指标阈值前适用最优的算法进行匹配分析;此外,传统的时序分析,频度分析针对异常检测根因分析等也存在诸多不完善,导致目前的异常检测存在许多漏报误报、故障发现不及时等。

所以目前基于深度学习或机器学习对大数据进行分析的做法并不适用于运维行业,要做到真正的智能运维,还需要让AI理解各类指标、错误代码的具体含义,即需要各IT产品详细的基础知识字典库(各类产品官方提供的错误代码详细信息解释)来信息辅助,只有在理解了错误代码的基础上,才能做好异常检测分析,做好异常检测分析之后,才能一步一步做好后续的根因分析等目标。

当然,AIOps的建设过程中,除了以上提到了两类陷阱,我们还会碰到其它这样那样的困难和问题,也都需要我们努力一一去克服。


未来的AIOps发展方向

立足于未来,人工智能应用的目的之一,就是代替人工完成部分或全部的工作,而目前的智能运维平台所做的只能辅助人类,从功能上来看只是一个比较精确、快速的异常监控工具,距离智能还有很长的一段距离。那么,为了能够做到智能运维,需要在哪些地方予以补充呢?我们或许可以从运维工程师身上来寻找答案。

工程师的价值在于,能够通过自身积累的知识与过往的运维经验对具体环境下具体的错误进行理解分析,在基于理解的基础上对系统出现的问题给出适当的解决方案,因此,类比于运维平台,想要能真正意义上实现智能运维,也需要完成知识的积累和储备,即建立基础知识字典库。

千里之行始于足下,缺乏了基础知识字典的AIOps充其量不过是一个更为高效的监控工具,很容易沦为空中楼阁,无法具体实现。而AIOps未来的发展方向,也应该是基于理解的智能运维。


在下一篇文章,我们将具体分析为什么说AIOps的必要基础是知识字典库。


该贴被huang.wang编辑于2019-12-16 10:42:48


我超级酷,但是如果你回复我的话我可以不酷那么一小会儿。


——来自logo.png


赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论