你在这里: 使用实例 > 使用警报监视实例运行状况

使用警报监视实例运行状况

FME云提供工具来监视您的实例基础设施,并在出现问题时接收警报。

我可以监控什么?

您可以创建警报,以监控有关FME云实例运行状况的这些指标:

  • 磁盘使用:磁盘使用率是指当您推出调整大小你的例子。
  • 内存使用:实例上当前使用的内存量。
  • 发动机数量:可在实例上运行的FME引擎数。
  • 服务器负载:server load表示队列中等待访问处理器的进程数,并且可以作为一个非常有用的指示器来指示服务器是否存在问题。如果有很多进程在备份,然后负荷增加。
  • 服务器响应时间:server response time是为FME服务器Web应用程序和REST API提供服务的Web服务器的内部响应时间。响应时间长表示由于高负载而功率不足的实例,或者服务器出现问题(内存泄漏或失控进程),导致资源被盗。
  • 无响应服务器:此警报已使用实例创建。当实例停止发送数据或FME服务器15分钟不响应时触发。此警报表示硬件/网络故障或Apache Tomcat Web应用程序服务器已停止运行。

如何接收警报?

您可以通过电子邮件接收警报,PagerDuty松弛,或通过WebHooks的任何Web服务。

它是如何工作的?

创建警报时,您可以指定一组预定义的通知服务来传递警报。例如,您可以在由两个电子邮件地址和一个PagerDuty服务组成的通知组上创建警报。当警报触发器的指定条件时,警报将发送到组中的所有服务。

是否已创建任何警报?

默认情况下,FME Cloud使用新实例和/或现有实例创建以下警报:

  • 高磁盘使用率:此警报仅用新实例创建,配置为在磁盘使用率超过90%的情况下触发10分钟。默认情况下,它被指派通知启动实例的用户。此警报完全可编辑。
  • 高响应时间:此警报仅用新实例创建,并且被配置为在响应时间超过500 ms持续10分钟时触发。默认情况下,它被指派通知启动实例的用户。此警报完全可编辑。
  • 无响应服务器:当实例停止发送数据或FME服务器在15分钟内没有响应时,此警报触发。它表示硬件/网络故障或Apache Tomcat Web应用程序服务器已停止运行。在新实例上,默认情况下,它被指定通知启动实例的用户。在旧的情况下,此警报是追溯添加的,但未被分配通知任何用户或组。您可以编辑此通知的通知设置,但警报条件不可编辑。

如何开始?

要设置实例监视并创建警报(或编辑现有警报),请执行以下操作:执行以下任务:

  1. 配置通知服务:通知服务定义用于传递警报的通信协议。FME云支持电子邮件,PagerDuty松弛,和Web钩子。
  2. 配置通知组:通知组是分配给通知的通知服务集合。
  3. 创建和编辑警报:定义触发警报的实例条件,你想通知谁。

也见