统计与告警策略
统计与告警
在搜集到时序监控指标后,我们需要对原始指标进行求和等统计操作以得到实际有意义的值。
统计策略
以性能统计为例,业界对性能统计有两种方式: 1.通过分位数计算; 2.通过平均值计算. 这两种方式的优缺点恰好是相反的。
- 通过分位数计算:这种方式可以很大程度上避免受到少量极端异常,举个例子,同一个页面,有四次访问,页面完全加载时间分别是 2 秒、1 秒、3 秒、100 秒,按照平均值算得出来的结果是 26.5 秒,显然没有反映出大多数用户的真实状态. 而通过 75 分位数得出的结论是 3 秒。
- 通过平均值计算:平均值计算方式恰好相反,容易受到极端值干扰,但通俗易懂,是使用最广泛的统计指标。
告警策略
所以这里需要引入一个告警策略,使得告警更加的人性化,这个机制的核心就是 4 点:
- 梳理不同的告警级别
- 制定告警频率以及做好收敛(主要是去重、合并数量)
- 决定不同的告警级别通过什么形式发出通知(短信、手机通知、邮件等)
- 发给谁(比如,是不是需要“轮转”或者“逐级上报”这样)