运维告警管理,由一张图说开

近期,在与客户沟通过程中,被问及监控系统时,提及一张告警的截图,要求指出存在的问题及客户的需求点,最好能提出建议。

告警截图

背景

图片为企业微信的告警截图,由告警内容来涉及服务器、网络重要设备,时间范围为凌晨,截图告警信息较少,其中相关的为后两条,告警及恢复消息。

分析

  1. 告警的必要性

    后两条消息(告警及恢复)之间没有时间,说明两条消息间隔较短(通常小于2分钟),在凌晨出现后短暂恢复,此两条消息,在平台记录即可,即时通知却是不必要的,应尽量采用有效措施,抑制不必要告警。

  2. 告警的原因分析

    从告警消息来看,服务器在3点多出发磁盘空间告警,增加约60G,系统极有可能设置了3点进行数据备份,由于空间较高,导致告警。 而后两条告警消息,则是与交换机相连的设备出现瞬断现象,需要检查下联设备的状态,寻找产生瞬断的原因(是否设备重启等)。

改进

  1. 如何有效的进行告警消息管理,尽量减少不必要的告警通知

  2. 此外没有发现下联设备的告警,需要检查是否在监控,是否告警机制存在隐患?

  3. 若服务器进行备份导致告警,应调整磁盘空间,删除不必要的备份,减少此类告警

  4. 应结合时间等因素,尽量在告警中说明触发告警的原因

对于监控系统而言,告警要求精求准,尤其是告警通知,应尽量优化,避免无效告警通知,提高告警的响应处理能力。


最后修改于 2023-02-15

 CONTENTS