统计与告警策略

统计与告警

在搜集到时序监控指标后,我们需要对原始指标进行求和等统计操作以得到实际有意义的值。

统计策略

以性能统计为例,业界对性能统计有两种方式: 1.通过分位数计算; 2.通过平均值计算. 这两种方式的优缺点恰好是相反的。

  • 通过分位数计算:这种方式可以很大程度上避免受到少量极端异常,举个例子,同一个页面,有四次访问,页面完全加载时间分别是 2 秒、1 秒、3 秒、100 秒,按照平均值算得出来的结果是 26.5 秒,显然没有反映出大多数用户的真实状态. 而通过 75 分位数得出的结论是 3 秒。
  • 通过平均值计算:平均值计算方式恰好相反,容易受到极端值干扰,但通俗易懂,是使用最广泛的统计指标。

告警策略

所以这里需要引入一个告警策略,使得告警更加的人性化,这个机制的核心就是 4 点:

  • 梳理不同的告警级别
  • 制定告警频率以及做好收敛(主要是去重、合并数量)
  • 决定不同的告警级别通过什么形式发出通知(短信、手机通知、邮件等)
  • 发给谁(比如,是不是需要“轮转”或者“逐级上报”这样)
下一页