定义警报条件

警报条件定义触发警报的逻辑。

警报条件读起来像一个句子。在上面的例子中，条件是:

当平均负载超过0.96时，设置至少5分钟的服务器负载警报。

测量条件(设置警报)

磁盘使用情况

磁盘使用指的是您在指定时指定的数据存储推出了或调整大小实例。磁盘包含完整的FME服务器安装，包括资源和PostGIS数据库。有关更多信息,看到这个亚搏在线安全软件博客文章。

如果磁盘空间耗尽，服务器将崩溃。通常情况下,您希望在存储空间即将耗尽时触发警报。设置两层警报是一种很好的做法:

当磁盘使用率超过85%时触发的低优先级警报，与不那么激进的消息传递相关联，如电子邮件。
当磁盘使用率超过95%时发出高优先级警报，并向通知服务发送消息，人们将立即看到，比如PagerDuty。

内存使用

实例中当前使用的内存数量取决于实例类型。

在正常情况下导致内存波动的FME服务器的主要组件是FME引擎，用于运行FME工作区。引擎在运行作业时使用的内存量完全取决于工作区。有些工作区会占用大量内存，而其他人几乎没有。

当实例耗尽内存时，FME服务器将变慢或变得无响应，FME进程可能崩溃(从引擎开始)，可能会发生其他意想不到的行为。

数量的引擎

可在实例上运行的FME引擎的数量取决于实例类型。

通常情况下,您希望在实例显示零引擎时触发警报（“低于1”），这意味着没有处理作业的能力。我们建议默认持续时间为5分钟。

服务器负载

服务器负载表示队列中有多少进程在等待访问处理器，它可以非常有用地指示服务器是否存在问题。如果有很多进程备份，然后负荷增加。

0表示不等待传入进程。
1表示CPU核心处于满负荷状态。
超过1表示有备份。

在为服务器负载配置警报时，请牢记以下几点:

触发值（阈值）：如果负载始终高于0.7，你已经接近极限了，您应该考虑研究服务器。如果负载保持在1以上，有一个问题，或者服务器的电源不足。如果你的负载保持在5以上，服务器可能会有严重的麻烦，实例不是挂起就是没有响应。
你的实例类型: cpu总数大约等于最大容量。例如,企业实例类型有16个CPU，所以负载不应该超过16。
持续时间:持续时间越长，由small触发的警报越少，但有效,交通高峰。作为一个起点，我们建议持续大约30分钟。

服务器响应时间

服务器响应时间是服务于FME服务器web应用程序和REST API的web服务器的内部响应时间。响应时间长表示由于高负载而功率不足的实例，或者服务器出现问题（内存泄漏或失控进程），导致资源被盗。

通常情况下,您希望在响应时间超过2000 ms(2秒)时触发警报。您可能希望将持续时间从默认值(5分钟)提高到10分钟，以避免由于流量激增而触发警报，从而暂时降低服务器的速度。持续响应时间超过3秒意味着FME服务器Web用户界面和REST API没有响应。在这种情况下,我们建议向高优先级通知组发送警报。

服务器响应时间是“内部”响应时间，引用来自同一台机器的请求，而不是通过外部网络。因为服务器响应时间明显低于实际响应时间，任何互联网连接问题都不会触发警报。

条件类型(当)

上面是:如果传入值超过阈值，则发出警报。
低于:如果传入值低于阈值，则发出警报。

阈值(阈值)

确定警报何时触发的要测量的条件的值。

阈值(持续时间)

为输入的测量值的平均值必须满足触发器条件的时间窗口。例如,如果您只想在磁盘使用率超过95%的情况下得到通知(至少10分钟)，设置为10。最大允许值为60分钟。