定义警报条件
警报条件定义触发警报的逻辑。
警报条件读起来像一个句子。在上面的例子中,条件是:
当平均负载超过0.96时,设置至少5分钟的服务器负载警报。
测量条件(设置警报)
磁盘使用指的是您在指定时指定的数据存储推出了或调整大小实例。磁盘包含完整的FME服务器安装,包括资源和PostGIS数据库。有关更多信息,看到这个亚搏在线安全软件博客文章。
如果磁盘空间耗尽,服务器将崩溃。通常情况下,您希望在存储空间即将耗尽时触发警报。设置两层警报是一种很好的做法:
- 当磁盘使用率超过85%时触发的低优先级警报,与不那么激进的消息传递相关联,如电子邮件。
- 当磁盘使用率超过95%时发出高优先级警报,并向通知服务发送消息,人们将立即看到,比如PagerDuty。
实例中当前使用的内存数量取决于实例类型。
在正常情况下导致内存波动的FME服务器的主要组件是FME引擎,用于运行FME工作区。引擎在运行作业时使用的内存量完全取决于工作区。有些工作区会占用大量内存,而其他人几乎没有。
当实例耗尽内存时,FME服务器将变慢或变得无响应,FME进程可能崩溃(从引擎开始),可能会发生其他意想不到的行为。
服务器负载表示队列中有多少进程在等待访问处理器,它可以非常有用地指示服务器是否存在问题。如果有很多进程备份,然后负荷增加。
- 0表示不等待传入进程。
- 1表示CPU核心处于满负荷状态。
- 超过1表示有备份。
在为服务器负载配置警报时,请牢记以下几点:
- 触发值(阈值):如果负载始终高于0.7,你已经接近极限了,您应该考虑研究服务器。如果负载保持在1以上,有一个问题,或者服务器的电源不足。如果你的负载保持在5以上,服务器可能会有严重的麻烦,实例不是挂起就是没有响应。
- 你的实例类型: cpu总数大约等于最大容量。例如,企业实例类型有16个CPU,所以负载不应该超过16。
- 持续时间:持续时间越长,由small触发的警报越少,但有效,交通高峰。作为一个起点,我们建议持续大约30分钟。
服务器响应时间是服务于FME服务器web应用程序和REST API的web服务器的内部响应时间。响应时间长表示由于高负载而功率不足的实例,或者服务器出现问题(内存泄漏或失控进程),导致资源被盗。
通常情况下,您希望在响应时间超过2000 ms(2秒)时触发警报。您可能希望将持续时间从默认值(5分钟)提高到10分钟,以避免由于流量激增而触发警报,从而暂时降低服务器的速度。持续响应时间超过3秒意味着FME服务器Web用户界面和REST API没有响应。在这种情况下,我们建议向高优先级通知组发送警报。
服务器响应时间是“内部”响应时间,引用来自同一台机器的请求,而不是通过外部网络。因为服务器响应时间明显低于实际响应时间,任何互联网连接问题都不会触发警报。
条件类型(当)
- 上面是:如果传入值超过阈值,则发出警报。
- 低于:如果传入值低于阈值,则发出警报。
阈值(阈值)
确定警报何时触发的要测量的条件的值。
阈值(持续时间)
为输入的测量值的平均值必须满足触发器条件的时间窗口。例如,如果您只想在磁盘使用率超过95%的情况下得到通知(至少10分钟),设置为10。最大允许值为60分钟。