告警

收藏
我的收藏

介绍 ​

抖音云告警为开发者提供了面向服务的监控告警能力,支持用户针对资源状态指标如资源使用率、重点指标性能数据、运行状态等创建告警规则,抖音云能够及时识别异常状态并发送告警通知,帮助业务平稳运行、提升运维效率。 ​

功能模块 ​

抖音云告警模块分为告警信息、告警规则、告警组三个模块: ​
    告警信息:展示用户资源所产生的告警信息,帮助用户及时发现问题。 ​
    告警规则:通过配置指标和对应阈值自定义告警触发条件,并指定通知人。 ​
    告警组:将告警通知人建立成组,支持多人轮转。 ​

使用流程 ​

    1.配置告警组 ​
    2.配置告警规则 ​
    3.监控资源指标 ​
    4.触发告警 ​
    5.发送告警信息 ​
    6.接收告警信息 ​
    7.查看告警信息 ​
    8.处理告警 ​

操作指引 ​

页面导航 ​

访问抖音云控制台,点击页面左侧一级菜单「运维管理」下的二级菜单「告警」,即进入告警页面。 ​

告警组 ​

告警组列表 ​

    列表筛选 ​
    输入告警组名称模糊匹配筛选。 ​
    输入告警联系人筛选联系人所在告警组。 ​
    列表信息: ​
    告警组名称轮转开关:一键开启多人轮转。 ​
    当前值班人员:轮转周期内的告警联系人。 ​
    值班人员:告警组内的全部联系人。 ​
    飞书机器人:告警通知飞书群内的机器人地址。 ​
    操作: ​
    新增:新建一个告警组。 ​
    删除:删除之前请确认告警组已经没有被规则使用,否则会删除失败。 ​
    编辑:编辑对应告警组。 ​
    刷新:刷新当前列表。 ​

告警组配置 ​

新建告警组 ​

    告警名称: ​
    长度小于100个字符。 ​
    告警组名称不可重复。 ​
    告警联系人:用于接收告警信息的联系人。 ​
    下拉列表中的用户为抖音云用户权限列表中的用户。 ​
    若用户未配置邮箱、电话,不可作为联系人,配置邮箱、电话请前往抖音开放平台处补充联系方式。 ​
    若是当前登录用户未配置邮箱、电话,可通过告警组页面内的提示快速绑定。 ​
    若需新增用户,请前往抖音云用户权限列表中新增成员。 ​
    飞书机器人webhook:用于发送告警信息至飞书群。 ​
    轮转开关:用于开启多人轮转,即轮流值班。 ​
    编辑告警组会重启轮转。 ​
    轮转顺序为联系人顺序。 ​
    轮转人数:每次轮转的值班人数,系统将自动根据人数排序。 ​
    单次轮转的值班人数,不能大于总值班人数。 ​
    轮转周期:每次轮转持续时间。 ​

修改告警组 ​

    除告警名称不可修改,其他均可修改。 ​
    修改告警组后会重置顺序,重启轮转。

告警规则 ​

告警规则列表 ​

    列表筛选 ​
    名称:通过名称精准匹配搜索告警规则。 ​
    资源类型:筛选不同资源类型如服务、数据库、日志等告警。 ​
    告警指标:筛选不同资源类型下的告警指标。 ​
    列表信息:规则名称、资源类型、告警指标、统计周期、统计指标、周期详情、告警组、告警频率、修改人、修改时间。 ​
    操作 ​
    新增:新增告警规则,同一资源类型下的告警规则数量不能超过20条。
    开启:开启规则后,将开始监控指标和触发告警。 ​
    编辑:修改告警规则。 ​
    删除:删除告警规则。 ​

告警规则配置 ​

新增告警规则 ​

    基本信息 ​
    规则名称 ​
    告警规则名称不可重复。
    长度小于100个字符(包括字母、数字及特殊字符)。 ​
    资源类型 ​
    目前支持【服务】类型告警,后续将支持数据库、日志等告警。 ​
    告警条件 ​
    告警指标:需要监控的指标。 ​
    统计周期:指标值计算的周期,如周期为1小时,则根据统计方式计算最近一小时内指标的统计值。 ​
    统计指标:支持平均值、最大值、最小值,计算统计周期内指标值的方式。 ​
    告警阈值: 指标值的不同级别的告警范围,达到不同阈值后的通知方式不同。 三种级别的阈值必须满足单调性原则:Notice < Warning < Critical或Notice > Warning > Critical。 ​
    notice级别告警,只发送邮件、webhook通知。 ​
    warning级别告警:发送短信、邮件、webhook通知。 ​
    critical级别告警:发送电话、短信、邮件、webhook通知。 ​
    告警频率 ​
    即触发告警后,告警发送的周期,影响告警联系人接收告警信息的时间密度。 ​
    告警组 ​
    即告警触发后通知的告警组。 ​
    推送时间 ​
    告警信息通知的时间范围,只影响电话和短信的推送,如限定通知的时间范围仅限工作时间。 ​

告警信息 ​

告警信息列表 ​

    列表筛选 ​
    资源类型:筛选触发告警的资源类型。 ​
    告警状态:可筛选告警中或已处理的不同状态的告警信息。 ​
    开始时间:告警首次触发的时间,即筛选特定时间范围内首次发生告警的告警信息。 ​
    列表信息 ​
    告警时间:告警首次触发和最后触发时间。 ​
    告警规则:触发告警的规则。 ​
    告警组:告警信息通知的联系人组。 ​
    资源类型:触发告警的资源类型。 ​
    操作人:处理告警的用户,未处理为空。 ​
    操作时间:处理告警的时间,未处理为空。 ​
    状态: ​
    未处理且未恢复的告警状态:notice、warning、critical ​
    已处理的告警状态:已确认、已屏蔽(屏蔽时长) ​
    已恢复的告警状态:健康 ​
    操作 ​
    查看:查看告警信息详情,包括告警时间、告警规则、告警组、资源类型以及最新告警内容。​
确认:确认后将不再推送告警信息。 ​
    屏蔽:选择屏蔽时长,在该屏蔽时长内将不再推送告警信息,屏蔽时间结束后恢复。 ​
    注意:确认或屏蔽操作后都不会推送告警信息,请尽快修复告警问题,避免造成业务损失。​

规则自动注入 ​

    创建第一个服务时,将会自动注入CPU使用率内存使用率两条告警规则,告警阈值分别为Notice(80%)Warning(90%)Critical(95%)。 ​
    若自动注入时无告警组,将会自动创建告警组,值班人员为当前小程序所有协作者;否则将会使用最早创建的告警组。
    告警功能上线前已创建的服务无法自动注入,请手动添加告警。 ​

常见问题 ​

触发告警后,未接收到告警电话/短信? ​

可能的原因有: ​
    用户的手机/号码设置了陌生电话屏蔽、垃圾短信过滤等,请通过查看屏蔽记录,并手动关闭屏蔽或设置白名单的方式放行告警号码。 ​
    短信/电话达到上限:为避免频繁告警影响用户,每个抖音云应用下的用户每分钟最多可接收3个电话/短信,每天最多接收50个电话/100条短信,超出范围后系统将暂停发送。 ​