ZStack AIOS

监控报警

完整平台用户手册,包含基础云平台能力与 AIOS 相关章节。

监控报警功能支持对时序化数据和事件进行监控,并通过通知服务(SNS)推送报警消息至指定的通知对象。支持资源报警器、事件报警器和扩展报警器三种报警器类型,支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象类型,部分资源报警器需安装agent才能使用。

监控报警功能示意图如图1所示:


图1 监控报警功能

功能框架

  • 监控系统
    监控系统提供以下功能:
    • 时序化监控:目前支持监控两种时序化数据类型:
      • 资源负载数据:例如云主机CPU使用率、物理机内存使用率等;
      • 资源容量数据:例如可用IP数量、运行中云主机的总数量等。
    • 事件收集:收集平台中发生的预定义事件,例如物理机失联,云主机高可用功能启动等。
    • 报警功能:对时序化数据或事件进行报警。
    • 审计功能:记录所有操作并提供搜索。
    • 自定义功能:用户可自定义设置报警器和消息模板,并支持使用预先配置的报警模板和资源分组。
      • 报警器:目前支持以下报警器类型:
        • 资源报警器:对时序化数据进行报警。例如:对云主机CPU使用率设置一个报警器,当某云主机CPU使用率连续5分钟超过80%,以邮件方式报警。
        • 事件报警器:对事件进行报警,又称为事件订阅。例如:订阅物理机失联事件,当某个物理机失联后,以钉钉方式报警。
        • 扩展报警器:接收来自消息源的报警消息。例如:存储池降级,当某个Ceph企业版的存储池降级后,在平台以系统方式报警。
      • 消息模板:报警器或事件向SNS系统的主题发送消息时使用的文本模板。
        • 系统自带一个报警消息和恢复消息默认模板,若用户没有创建模板,系统将使用自带模板。
        • 用户可以创建多个消息模板,但只能指定一个为默认模板,发送消息时只会使用默认模板格式化信息。
        • 模板中可以通过${}引用报警器或事件提供的变量。
        • 目前消息模板支持邮箱/钉钉/企业微信/飞书/Webhook/Microsoft Teams/短信七种通知对象平台。使用消息模板,可将通知邮件、钉钉消息、企业微信消息、飞书消息、Webhook消息、Microsoft Teams消息或短信以统一格式发出。
      • 消息源:用于连接扩展消息源,接管扩展报警消息并结合报警器统一推送至各类通知对象。方便报警消息统一管理的同时提高运维效率,目前支持接管Ceph企业版的报警消息。
      • 报警模板:一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。
      • 资源分组:按照业务对资源进行分组,关联报警模板后,报警规则将直接作用于组内全部资源。
  • 通知服务(SNS)

    通知服务将报警消息推送至通知对象,通知对象类型包括:系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端。

    通知对象设置:
    • 系统默认提供一个系统类型通知对象,若报警器绑定系统类型通知对象,UI界面右上角的最近消息按钮处会出现弹窗提醒。
    • 用户也可自行创建邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端类型通知对象。

功能优势

ZStack Cloud监控报警系统具有以下功能优势:
  • 提供丰富的报警监控条目,对平台核心资源以及事件进行全面监控报警;
  • 支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象用于订阅主题,用户可根据实际情况选择合适的报警接收方式;
  • 一个报警器可同时对多个资源进行监控;
  • 邮箱、钉钉、企业微信、飞书、Webhook、短信和Microsoft Teams通知对象支持自定义报警消息模板,用户可按需设置报警消息模板,从报警消息中快速定位关键信息。
  • 支持创建一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。

应用场景

监控报警功能对平台核心资源以及事件进行监控,并设置报警接收机制。当核心资源出现异常,监控报警控工将按照报警级别发出实时响应,帮助运维人员快速定位解决问题。

全局设置

  • 监控数据在本地默认保留6个月,在基本设置中可自定义设置监控数据保留周期,设置方法如下:

    设置 > 全局设置 > 基本设置页面,可设置监控数据保留周期,默认为6,单位为月,可设置1到12之间的整数。

  • 监控数据在本地默认保留50GB,在基本设置中可自定义设置监控数据保留大小,设置方法如下:

    设置 > 全局设置 > 基本设置页面,可设置监控数据保留大小,默认为50GB,建议按需设置。

  • ZStack Cloud支持接收扩展报警消息,需要在设置 > 全局设置 > 高级设置中开启扩展报警开关,才能使用扩展报警器功能。