告警
收藏
我的收藏介绍
抖音云告警为开发者提供了面向服务的监控告警能力,支持用户针对资源状态指标如资源使用率、重点指标性能数据、运行状态等创建告警规则,抖音云能够及时识别异常状态并发送告警通知,帮助业务平稳运行、提升运维效率。
功能模块
抖音云告警模块分为告警信息、告警规则、告警组三个模块:
- •告警信息:展示用户资源所产生的告警信息,帮助用户及时发现问题。
- •告警规则:通过配置指标和对应阈值自定义告警触发条件,并指定通知人。
- •告警组:将告警通知人建立成组,支持多人轮转。
使用流程
- 1.配置告警组
- 2.配置告警规则
- 3.监控资源指标
- 4.触发告警
- 5.发送告警信息
- 6.接收告警信息
- 7.查看告警信息
- 8.处理告 警
操作指引
页面导航
告警组
告警组列表
- •列表筛选
- ◦输入告警组名称模糊匹配筛选。
- ◦输入告警联系人筛选联系人所在告警组。
- •列表信息:
- ◦告警组名称轮转开关:一键开启多人轮转。
- ◦当前值班人员:轮转周期内的告警联系人。
- ◦值班人员:告警组内的全部联系人。
- ◦飞书机器人:告警通知飞书群内的机器人地址。
- •操作:
- ◦新增:新建一个告警组。
- ◦删除:删除之前请确认告警组已经没有被规则使用,否则会删除失败。
- ◦编辑:编辑对应告警组。
- ◦刷新:刷新当前列表。
告警组配置
新建告警组
- •告警名称:
- ◦长度小于100个字符。
- ◦告警组名称不可重复。
- •告警联系人:用于接收告警信息的联系人。
- ◦下拉列表中的用户为抖音云用户权限列表中的用户。
- ◦若用户未配置邮箱、电话,不可作为联系人,配置邮箱、电话请前往抖音开放平台处补充联系方式。
- ◦若是当前登录用户未配置邮箱、电话,可通过告警组页面内的提示快速绑定。
- •若需新增用户,请前往抖音云用户权限列表中新增成员。
- •飞书机器人webhook:用于发送告警信息至飞书群。
- ◦配置参考:【抖音云】配置飞书机器人webhook
- •轮转开关:用于开启多人轮转,即轮流值班。
- ◦编辑告警组会重启轮转。
- ◦轮转顺序为联系人顺序。
- •轮转人数:每次轮转的值班人数,系统将自动根据人数排序。
- ◦单次轮转的值班人数,不能大于总值班人数。
- •轮转周期:每次轮转持续时间。
修改告警组
- •除告警名称不可修改,其他均可修改。
- •修改告警组后会重置顺序,重启轮转。
告警规则
告警规则列表
- •列表筛选
- ◦名称:通过名称精准匹配搜索告警规则。
- ◦资源类型:筛选不同资源类型如服务、数据库、日志等告警。
- ◦告警指标:筛选不同资源类型下的告警指标。
- •列表信息:规则名称、资源类型、告警指标、统计周期、统计指标、周期详情、告警组、告警频率、修改人、修改时间。
- •操作
- ◦新增:新增告警规则,同一资源类型下的告警规则数量不能超过20条。
- ◦开启:开启规则后,将开始监控指标和触发告警。
- ◦编辑:修改告警规则。
- ◦删除:删除告警规则。
告警规则配置
新增告警规则
- •基本信息
- ◦规则名称
- ▪告警规则名称不可重复。
- ▪长度小于100个字符(包括字母、数字及特殊字符)。
- ◦资源类型
- ▪目前支持【服务】类型告警,后续将支持数据库、日志等告警。
- •告警条件
- ◦告警指标:需要监控的指标。
- ◦统计周期:指标值计算的周期,如周期 为1小时,则根据统计方式计算最近一小时内指标的统计值。
- ◦统计指标:支持平均值、最大值、最小值,计算统计周期内指标值的方式。
- ◦告警阈值: 指标值的不同级别的告警范围,达到不同阈值后的通知方式不同。 三种级别的阈值必须满足单调性原则:Notice < Warning < Critical或Notice > Warning > Critical。
- ▪notice级别告警,只发送邮件、webhook通知。
- ▪warning级别告警:发送短信、邮件、webhook通知。
- ▪critical级别告警:发送电话、短信、邮件、webhook通知。
- ◦告警频率
- ▪即触发告警后,告警发送的周期,影响告警联系人接收告警信息的时间密度。
- ◦告警组
- ▪即告警触发后通知的告警组。
- ◦推送时间
- ▪告警信息通知的时间范围,只影响电话和短信的推送,如限定通知的时间范围仅限工作时间。
告警信息
告警信息列表
- •列表筛选
- ◦资源类型:筛选触发告警的资源类型。
- ◦告警状态:可筛选告警中或已处理的不同状态的告警信息。
- ◦开始时间:告警首次触发的时间,即筛选特定时间范围内首次发生告警的告警信息。
- •列表信息
- ◦告警时间:告警首次触发和最后触发时间。
- ◦告警规则:触发告警的规则。
- ◦告警组:告警信息通知的联系人组。
- ◦资源类型:触发告警的资源类型。
- ◦操作人:处理告警的用户,未处理为空。
- ◦操作时间:处理告警的时间,未处理为空。
- ◦状态:
- ▪未处理且未恢复的告警状态:notice、warning、critical
- ▪已处理的告警状态:已确认、已屏蔽(屏蔽时长)
- ▪已恢复的告警状态:健康
- •操作
- ◦查看:查看告警信息详情,包括告警时间、告警规则、告警组、资源类型以及最新告警内容。
确认:确认后将不再推送告警信息。
- •屏蔽:选择屏蔽时长,在该屏蔽时长内将不再推送告警信息,屏蔽时间结束后恢复。
- •