AIOps对比传统运维工具的优势

2024-05-05 17:39

1. AIOps对比传统运维工具的优势

当前，随着企业数字业务的快速发展和业务量的攀升，企业信息系统架构的升级变迁，以及企业多套业务系统的在线运营，各类监控组件和应用系统间的关系错综复杂，系统运维的难度也急剧增加，且面临着巨大挑战。
在传统运维方式下，数据规模大且离散，数据治理和全面分析能力薄弱且依赖于经验和规则，运维十分被动，解决问题效率非常低下，运维的实用性大打折扣，难以满足当前主动运营的要求。
具体来说有以下几点：
发现问题难：企业在经年累月中布局了诸多监控工具，但是监控手段阈值的设定单一，且一般都是静态阈值，而指标和告警的异常却是多样化的，这样就会造成大量的误报漏报现象。此外，目前绝大多数的监控工具，缺乏趋势预测能力，使得运维局面非常被动，导致发现问题十分困难。
根因定位难：发现问题时一般都是对问题进行定性分析，可能了解到某一告警对应的指标波动是值得关注的，但是并不能因此确定造成这种现象具体根因。而且目前的监控工具，大多缺乏综合根因定界及定位分析的手段，即便对监控进行了集中管理，也难以通过单纯的几种指标进行根因定位。
数据治理难：当数字化建设进行到一定程度的时候，被管理对象的数据量相应的也是水涨船高，数据数量大、类别多且非常分散，很难通过某一指标体系来衡量系统的健康度，也没有一个统一的视角去判断数据质量的好坏优劣。
运营分析难：现有的大多数基础监控工具，多数都是从自己的管理阈例如系统管理、网络管理出发看待问题，缺乏端到端的分析能力，没办法以业务视角从综合运营分析的角度，去看待多样化指标对系统的影响。

而智能运维是一种全新的数字化运维能力，也将是数字化转型的必备能力。智能运维相对于传统运维模式而言，能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。
智能运维相对于传统运维模式而言，能够在四个方面有本质的效能提升：
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据，包括告警、指标、日志、配置以及运维工单等类别，不仅提升了运维大数据的治理能力，优化了数据质量，而且为进一步激活运维数据的价值打下了良好基础；
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判，有效降低数字化业务的运行风险，提升可用性、稳定性；
运维人力成本。使真正意义上的跨域根因定位成为可能，降低对专业运维人员经验技能的依赖，迅速缩短故障排查时间并有效降低人力成本；
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力，比如端到端的分析业务交易状态，提供给业务、客服部门及时反馈和决策支持依据，充分增强业务影响力；
智能运维发展正如火如荼，Gartner预见其为下一代运维，认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设，也还有一些企业处在迷茫阶段，对这种趋势不太清晰，借用著名作家威廉吉布森的话，“未来已来，只是分布不均。”

AIOps对比传统运维工具的优势

2. 相比传统运维工具，AIOps的优势在哪里

智能运维是一种全新的数字化运维能力，也将是数字化转型的必备能力。智能运维相对于传统运维模式而言，能够在四个方面有本质的效能提升：
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据，包括告警、指标、日志、配置以及运维工单等类别，不仅提升了运维大数据的治理能力，优化了数据质量，而且为进一步激活运维数据的价值打下了良好基础；
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判，有效降低数字化业务的运行风险，提升可用性、稳定性；
运维人力成本。使真正意义上的跨域根因定位成为可能，降低对专业运维人员经验技能的依赖，迅速缩短故障排查时间并有效降低人力成本；
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力，比如端到端的分析业务交易状态，提供给业务、客服部门及时反馈和决策支持依据，充分增强业务影响力；
由此可以看出，基于 AIOps 的管理方法对监控式运维的底层技术实现了颠覆。传统 IT 运维管理工具更为关注突发事件（即告警）、配置和性能，而 AIOps 则更加关注问题、分析和预测，二者可谓互相补充相得益彰。

3. 都说“AIOps让运维工程师生活的更加美好”“AIOps帮助企业提升工作效率”，有哪些具体实践吗？

AIOps是人工智能和机器学习这两年对IT运营最直接的影响，即人工智能IT运营平台。它包括了一系列技术能力，范围很广，可以认为IT运营管理下所有大数据和人工智能／机器学习技术都是AIOps技术。这些技术可以大大增强传统IT运营能力，包括在服务台、自动化和监控方面的加强。
从现阶段实践来看，AIOps是初期阶段，一些应用尚未全面铺开，但也出现了积极的尝试，例如监控性能管理方面的动态基线智能报警。该应用需要基于过硬的大数据能力。之前看到博睿数据有提到他们的动态基线，可智能化报警，减少漏报误报。

都说“AIOps让运维工程师生活的更加美好”“AIOps帮助企业提升工作效率”，有哪些具体实践吗？

4. 有了AIOps平台，是不是就不需要运维工程师了？

确实听说有人这样担心和误会。
实际上，AIOps平台出现并蓬勃发展的主要动力，是因为企业的IT系统数据量越来越大，结构也越来越复杂，靠单纯的运维工程师的经验和人工判断，很难应对层出不穷的运维问题。传统的运维监控软件，可以展示运维数据，却无法给出分析和处置建议，无法跟上排障的要求。
随着AI人工智能的应用，可以把运维数据做更好的分析，或提供疑似根因的定位、或提供异常的预警，使用AIOps系统，MTTR（平均故障排除时间）能从数小时缩短到数分钟，排障的经验也可以作为既有知识保存供他人参考。
所以，有AIOps之后，原先一个运维工程师管理n个应用和设备；就算是设备增加到100n，可能靠一个工程师也能管得过来，而不用等比例增加到100个运维工程师。这就是技术进步的意义。

5. 智能运维AIOps，主要比的是不是机器学习算法？

智能运维AIOps，顾名思义，一定是跟智能和AI算法有关，但跟机器学习算法不能等同看待。
算法只是完成智能运维建设中的重要一环。就跟安卓系统一样，同样的系统和算法，当它基于的设备不同，其价值也大不相同。合适的算法只是智能运维产品的基础。
  通常想要一个算法能产生更大的效应，在建模时也需要根据情况不断调参。此时有非常专业的工程师来调自然是最好，如果有操作方便的调参界面也行。调整界面的易用性，也是判断算法能否顺畅使用的一个标准。
  有了合适的算法后，还得有贴合运维实际场景的功能设计、能处理大规模的实时数据 （嗯，早期也看到过因为流数据处理能力太差，该在大清早完成的跑批，无法顺利完成影响实际生产）。当这几种能力齐备后，机器学习算法才能真正为智能运维所用。

智能运维不等于机器学习算法

智能运维AIOps，主要比的是不是机器学习算法？