监控报警功能支持对时序化数据和事件进行监控,并通过通知服务(SNS)推送报警消息至指定的通知对象。支持资源报警器、事件报警器和扩展报警器三种报警器类型,支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象类型,部分资源报警器需安装agent才能使用。
监控报警功能示意图如图1所示:

图1 监控报警功能

功能框架
- 监控系统:监控系统提供以下功能:
- 时序化监控:目前支持监控两种时序化数据类型:
- 资源负载数据:例如云主机CPU使用率、物理机内存使用率等;
- 资源容量数据:例如可用IP数量、运行中云主机的总数量等。
- 事件收集:收集平台中发生的预定义事件,例如物理机失联,云主机高可用功能启动等。
- 报警功能:对时序化数据或事件进行报警。
- 审计功能:记录所有操作并提供搜索。
- 自定义功能:用户可自定义设置报警器和消息模板,并支持使用预先配置的报警模板和资源分组。
- 报警器:目前支持以下报警器类型:
- 资源报警器:对时序化数据进行报警。例如:对云主机CPU使用率设置一个报警器,当某云主机CPU使用率连续5分钟超过80%,以邮件方式报警。
- 事件报警器:对事件进行报警,又称为事件订阅。例如:订阅物理机失联事件,当某个物理机失联后,以钉钉方式报警。
- 扩展报警器:接收来自消息源的报警消息。例如:存储池降级,当某个Ceph企业版的存储池降级后,在平台以系统方式报警。
- 消息模板:报警器或事件向SNS系统的主题发送消息时使用的文本模板。
- 系统自带一个报警消息和恢复消息默认模板,若用户没有创建模板,系统将使用自带模板。
- 用户可以创建多个消息模板,但只能指定一个为默认模板,发送消息时只会使用默认模板格式化信息。
- 模板中可以通过
${}引用报警器或事件提供的变量。 - 目前消息模板支持邮箱/钉钉/企业微信/飞书/Webhook/Microsoft Teams/短信七种通知对象平台。使用消息模板,可将通知邮件、钉钉消息、企业微信消息、飞书消息、Webhook消息、Microsoft Teams消息或短信以统一格式发出。
- 消息源:用于连接扩展消息源,接管扩展报警消息并结合报警器统一推送至各类通知对象。方便报警消息统一管理的同时提高运维效率,目前支持接管Ceph企业版的报警消息。
- 报警模板:一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。
- 资源分组:按照业务对资源进行分组,关联报警模板后,报警规则将直接作用于组内全部资源。
- 报警器:目前支持以下报警器类型:
- 时序化监控:目前支持监控两种时序化数据类型:
- 通知服务(SNS):
通知服务将报警消息推送至通知对象,通知对象类型包括:系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端。
通知对象设置:- 系统默认提供一个系统类型通知对象,若报警器绑定系统类型通知对象,UI界面右上角的最近消息按钮处会出现弹窗提醒。
- 用户也可自行创建邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端类型通知对象。
功能优势
ZStack Cloud监控报警系统具有以下功能优势:
- 提供丰富的报警监控条目,对平台核心资源以及事件进行全面监控报警;
- 支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象用于订阅主题,用户可根据实际情况选择合适的报警接收方式;
- 一个报警器可同时对多个资源进行监控;
- 邮箱、钉钉、企业微信、飞书、Webhook、短信和Microsoft Teams通知对象支持自定义报警消息模板,用户可按需设置报警消息模板,从报警消息中快速定位关键信息。
- 支持创建一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。
应用场景
监控报警功能对平台核心资源以及事件进行监控,并设置报警接收机制。当核心资源出现异常,监控报警控工将按照报警级别发出实时响应,帮助运维人员快速定位解决问题。
全局设置
- 监控数据在本地默认保留6个月,在基本设置中可自定义设置监控数据保留周期,设置方法如下:
在页面,可设置监控数据保留周期,默认为6,单位为月,可设置1到12之间的整数。
- 监控数据在本地默认保留50GB,在基本设置中可自定义设置监控数据保留大小,设置方法如下:
在页面,可设置监控数据保留大小,默认为50GB,建议按需设置。
- ZStack Cloud支持接收扩展报警消息,需要在中开启扩展报警开关,才能使用扩展报警器功能。
