• 开发者工具 IDE
  • 沙盒环境
  • 抖音云
  • 产品介绍
  • 快速开始
  • 场景指南
  • 操作指南
  • 账号入驻
  • 服务管理
  • 组件中心
  • 设置
  • 资源用量
  • 运维管理
  • 配置飞书机器人webhook
  • 操作日志
  • 告警
  • 费用中心
  • 火山引擎
  • 行业解决方案
  • 函数服务管理
  • 浏览器启用第三方 cookie配置指引
  • 总览
  • 操作限制
  • 开发指南
  • SDK参考
  • 产品动态
  • 产品计费
  • 常见问题
  • OpenAPI调试台
  • 介绍

    抖音云告警为开发者提供了面向服务的监控告警能力,支持用户针对资源状态指标如资源使用率、重点指标性能数据、运行状态等创建告警规则,抖音云能够及时识别异常状态并发送告警通知,帮助业务平稳运行、提升运维效率。

    功能模块

    抖音云告警模块分为告警信息、告警规则、告警组三个模块:
      告警信息:展示用户资源所产生的告警信息,帮助用户及时发现问题。
      告警规则:通过配置指标和对应阈值自定义告警触发条件,并指定通知人。
      告警组:将告警通知人建立成组,支持多人轮转。

    使用流程

      1.配置告警组
      2.配置告警规则
      3.监控资源指标
      4.触发告警
      5.发送告警信息
      6.接收告警信息
      7.查看告警信息
      8.处理告警

    操作指引

    页面导航

    访问抖音云控制台,点击页面左侧一级菜单「运维管理」下的二级菜单「告警」,即进入告警页面。

    告警组

    告警组列表

      列表筛选
      输入告警组名称模糊匹配筛选。
      输入告警联系人筛选联系人所在告警组。
      列表信息:
      告警组名称轮转开关:一键开启多人轮转。
      当前值班人员:轮转周期内的告警联系人。
      值班人员:告警组内的全部联系人。
      飞书机器人:告警通知飞书群内的机器人地址。
      操作:
      新增:新建一个告警组。
      删除:删除之前请确认告警组已经没有被规则使用,否则会删除失败。
      编辑:编辑对应告警组。
      刷新:刷新当前列表。

    告警组配置

    新建告警组

      告警名称:
      长度小于100个字符。
      告警组名称不可重复。
      告警联系人:用于接收告警信息的联系人。
      下拉列表中的用户为抖音云用户权限列表中的用户。
      若用户未配置邮箱、电话,不可作为联系人,配置邮箱、电话请前往抖音开放平台处补充联系方式。
      若是当前登录用户未配置邮箱、电话,可通过告警组页面内的提示快速绑定。
      若需新增用户,请前往抖音云用户权限列表中新增成员。
      飞书机器人webhook:用于发送告警信息至飞书群。
      轮转开关:用于开启多人轮转,即轮流值班。
      编辑告警组会重启轮转。
      轮转顺序为联系人顺序。
      轮转人数:每次轮转的值班人数,系统将自动根据人数排序。
      单次轮转的值班人数,不能大于总值班人数。
      轮转周期:每次轮转持续时间。

    修改告警组

      除告警名称不可修改,其他均可修改。
      修改告警组后会重置顺序,重启轮转。

    告警规则

    告警规则列表

      列表筛选
      名称:通过名称精准匹配搜索告警规则。
      资源类型:筛选不同资源类型如服务、数据库、日志等告警。
      告警指标:筛选不同资源类型下的告警指标。
      列表信息:规则名称、资源类型、告警指标、统计周期、统计指标、周期详情、告警组、告警频率、修改人、修改时间。
      操作
      新增:新增告警规则,同一资源类型下的告警规则数量不能超过20条。
      开启:开启规则后,将开始监控指标和触发告警。
      编辑:修改告警规则。
      删除:删除告警规则。

    告警规则配置

    新增告警规则

      基本信息
      规则名称
      告警规则名称不可重复。
      长度小于100个字符(包括字母、数字及特殊字符)。
      资源类型
      目前支持【服务】类型告警,后续将支持数据库、日志等告警。
      告警条件
      告警指标:需要监控的指标。
      统计周期:指标值计算的周期,如周期为1小时,则根据统计方式计算最近一小时内指标的统计值。
      统计指标:支持平均值、最大值、最小值,计算统计周期内指标值的方式。
      告警阈值: 指标值的不同级别的告警范围,达到不同阈值后的通知方式不同。 三种级别的阈值必须满足单调性原则:Notice < Warning < Critical或Notice > Warning > Critical。
      notice级别告警,只发送邮件、webhook通知。
      warning级别告警:发送短信、邮件、webhook通知。
      critical级别告警:发送电话、短信、邮件、webhook通知。
      告警频率
      即触发告警后,告警发送的周期,影响告警联系人接收告警信息的时间密度。
      告警组
      即告警触发后通知的告警组。
      推送时间
      告警信息通知的时间范围,只影响电话和短信的推送,如限定通知的时间范围仅限工作时间。

    告警信息

    告警信息列表

      列表筛选
      资源类型:筛选触发告警的资源类型。
      告警状态:可筛选告警中或已处理的不同状态的告警信息。
      开始时间:告警首次触发的时间,即筛选特定时间范围内首次发生告警的告警信息。
      列表信息
      告警时间:告警首次触发和最后触发时间。
      告警规则:触发告警的规则。
      告警组:告警信息通知的联系人组。
      资源类型:触发告警的资源类型。
      操作人:处理告警的用户,未处理为空。
      操作时间:处理告警的时间,未处理为空。
      状态:
      未处理且未恢复的告警状态:notice、warning、critical
      已处理的告警状态:已确认、已屏蔽(屏蔽时长)
      已恢复的告警状态:健康
      操作
      查看:查看告警信息详情,包括告警时间、告警规则、告警组、资源类型以及最新告警内容。
    确认:确认后将不再推送告警信息。
      屏蔽:选择屏蔽时长,在该屏蔽时长内将不再推送告警信息,屏蔽时间结束后恢复。
      注意:确认或屏蔽操作后都不会推送告警信息,请尽快修复告警问题,避免造成业务损失。

    规则自动注入

      创建第一个服务时,将会自动注入CPU使用率内存使用率两条告警规则,告警阈值分别为Notice(80%)Warning(90%)Critical(95%)
      若自动注入时无告警组,将会自动创建告警组,值班人员为当前小程序所有协作者;否则将会使用最早创建的告警组。
      告警功能上线前已创建的服务无法自动注入,请手动添加告警。

    常见问题

    触发告警后,未接收到告警电话/短信?

    可能的原因有:
      用户的手机/号码设置了陌生电话屏蔽、垃圾短信过滤等,请通过查看屏蔽记录,并手动关闭屏蔽或设置白名单的方式放行告警号码。
      短信/电话达到上限:为避免频繁告警影响用户,每个抖音云应用下的用户每分钟最多可接收3个电话/短信,每天最多接收50个电话/100条短信,超出范围后系统将暂停发送。