尹元,现任“勤智运维”京津冀区域技术经理,曾大量参与企事业单位运维需求调研与规划工作,在运维监控、流程处理等方面有丰富经验。
人工智能是当下最火爆的前沿技术,是计算机科学最值得期待的一个分支,目的是研制出模仿人类思考逻辑和行动的智能化机器。科研人员尝试用各种方式让机器人替代人类从事差别类型的工作,从最开始的重体力劳动到繁复的精密加工到未来替代人类进行逻辑思考。智能化将大大减轻人的劳动,以最少的人工干预完成复杂的工作。
如果将智能化概念引入运维领域将会发生什么变革呢?我们可以想象一下,用智能化程序代替运维人员,能够在最少的人员干预下使用故障探测技术寻找业务运行中的故障点,发生故障时通过问题分析引擎快速定位故障根源寻找解决方案,并能够自动运行预制脚本与工具尝试进行故障的修复,最后还能够按照袒露出来的问题进行深入的关联分析,找出潜藏的隐患并制定解决预案。智能化运维的终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。
运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。 2015 年智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、自动学习等技术的兴起和逐渐成熟,运维需求也逐渐向智能化和自动化过渡。从最初级运维发展到现在智能化运维,可以划分为 4 个阶段:
1、脚本时代
运维人员通过手工的方式做设备巡检,尝试着用SSH脚本等方式进行系统维护。
2、工具时代
运维人员使用各厂商推出一些办理工具,通过使用这些运维工具进行系统办理。
3、平台时代
随着运维工具逐步增多、网络环境异构、信息孤岛逐渐产生等情况,需要一套统一的运维平台将工具进行整合。
4、智能化时代
异构化环境,对数据分析和自动化的要求越来越高,借助海量的运维数据优化改进当前工作方法,日常工作实现无人值守的机器运维。建立在大数据分析和自动化运维基础上的智能化运维时代。
运维的精细化要求越高,就需要积累更多的能力辅助智能化运维场景和策略,实现更多办理途径的扩展。下面,简单举例来畅想下一步趋势。
1、在平台化运维系统的基础上,想要进行多系统、多业务的整合,仅仅通过接口远远不够,还需要更加深入的数据关联,模糊业务系统与运维平台之间的界限。
2、更强大的故障探测能力,能够深入业务多个层次进行故障挖掘,逐层检索业务运行数据,分析业务运行情况,关心业务关键节点,快速发现问题,及时通知运维人员并启动紧急预案。
3、故障紧急预案针对发现隐患、异常、告警、故障、预测等多种运维场景,并提供相对应的解决预案,可以通过自动或者手动的方式快速执行。
4、紧急预案失效时可以提供大数据的强力支持,实时分析问题根源与可能的故障隐患,提供更加快速、正确的故障判断能力。同时,提供自动学习的可能,将现在发生的故障场景记录下来生成新的解决预案。
5、与流程的结合,能够实现整体运维事件的闭环,提供事件的记录、跟踪、处理、反馈等关键节点,保障运维工作高效运行。
以往的简单运维,都是通过彼此独立的运维工具或网管软件来实现日常办理,通过不尺度的数据和不统一的告警进行人工分析。智能化运维能够将割裂的系统进行整合,并提供尺度接口。运维整合,表现在数据的采集、分析、汇总、处理、总结、预案等几个层面。
那么,这些又将如何落地呢?一直从事“一体化智能运维”研究的勤智运维,给出了本身的初步研究成果。