近期,在与客户沟通过程中,被问及监控系统时,提及一张告警的截图,要求指出存在的问题及客户的需求点,最好能提出建议。
背景
图片为企业微信的告警截图,由告警内容来涉及服务器、网络重要设备,时间范围为凌晨,截图告警信息较少,其中相关的为后两条,告警及恢复消息。
分析
-
告警的必要性
后两条消息(告警及恢复)之间没有时间,说明两条消息间隔较短(通常小于2分钟),在凌晨出现后短暂恢复,此两条消息,在平台记录即可,即时通知却是不必要的,应尽量采用有效措施,抑制不必要告警。
-
告警的原因分析
从告警消息来看,服务器在3点多出发磁盘空间告警,增加约60G,系统极有可能设置了3点进行数据备份,由于空间较高,导致告警。 而后两条告警消息,则是与交换机相连的设备出现瞬断现象,需要检查下联设备的状态,寻找产生瞬断的原因(是否设备重启等)。
改进
-
如何有效的进行告警消息管理,尽量减少不必要的告警通知
-
此外没有发现下联设备的告警,需要检查是否在监控,是否告警机制存在隐患?
-
若服务器进行备份导致告警,应调整磁盘空间,删除不必要的备份,减少此类告警
-
应结合时间等因素,尽量在告警中说明触发告警的原因
对于监控系统而言,告警要求精求准,尤其是告警通知,应尽量优化,避免无效告警通知,提高告警的响应处理能力。