企业网站有哪些功能?,网站qq登录 开发,樟木头东莞网站建设,怎么做网站版面分析现在告警系统可以说是系统的必备部分#xff0c;只要有监控#xff0c;就需要一个告警系统来帮忙主动推送消息#xff0c;以此减少人不停的主动查看监控的作用。在最初的告警系统中#xff0c;基本主要就是设置阈值#xff0c;达到阈值就发生告警。这个在机器数量少的时候…现在告警系统可以说是系统的必备部分只要有监控就需要一个告警系统来帮忙主动推送消息以此减少人不停的主动查看监控的作用。在最初的告警系统中基本主要就是设置阈值达到阈值就发生告警。这个在机器数量少的时候是满足需求的。例如10个进程就算都出问题也就是10条告警。在使用的过程中随着进程数量的增多告警种类的增多。会出现告警的洪荒一直不停的收到告警。重复性为了准确的传达告警信息告警的设计要只要问题不解决就需要一直告警否则很容易出现告警信息不可达人查看的时候忽略了。这种问题需要让告警持续的发送直到解除为止。分级这里为了减少告警信息我们会设置告警的级别。cpu 80 严重80 cpu 50 一般然后发送告警的时候加上告警级别邮件的规则根据告警的级别进行分类就可以很容易的去找出严重的优先处理一般的紧急程度就低一些。静默虽然通过级别可以筛选出一些特别重要的信息但是告警是一直持续发送的。例如cpu只要还在超过80一定的时间间隔内就会继续发送告警严重级别的邮箱很快也多起来。而且是同一个告警的不同时间的信息。这个时候如果有其他严重级别的告警的时候很容易被冲刷掉。导致了一定的延后性需要指望这个告警信息也不停的发送如果间隔时间不一样的话很容易出现一些失误。这里就需要有一个静默功能。例如我收到了A进程的cpu使用率的告警我现在开始去做处理这时候并不能立马解决这个问题。可以通过静默的功能把A进程的cpu告警取消发送。直到解决了问题以后再打开。中间过程如果再继续收到信的告警就需要再次注意了证明和手头正在解决的不是同一个问题。抑制我们想一个场景现在有如下的告警设置物理机宕机告警进程探活告警api接口超时告警当物理机宕机后上面的所有进程肯定也都停止了探测api的检测功能也检测不到api能正常返回了。于是触发了3条告警信息。但他们描述的根源的原因是同一个。如果一个机器上有20个进程总共有300个api。那么就会一下子收到120300321条告警信息。这么多告警信息人收到都是迷茫的主动静默都是很大的工作量。得静默321条情况这里也能直接选择把告警去掉也怕别的程序也这个时候出了问题导致告警的丢失。这里就需要告警的抑制。上面表达是一个包含关系api超时的原因是进程停止了进程停止了原因是物理机停止了。这种场景其实报告物理机的宕机告警就可以。也是就是物理机告警进程告警端口告警同时出现的时候物理机的告警要抑制进程告警抑制api告警。路由设置告警信息的通知是需要多样的例如什么样的告警什么样的级别通过什么样的形式发送(邮件短信电话)。这个是需要分层的。越紧急的事情就需要越紧急的方式例如普通的告警就发送邮件就可以了。但是严重的告警管理员可能晚上睡着了邮件的消息通知可能不能被看到这里可能就需要通过电话开通知。选择了更可靠的方式。