安全软件亚搏在线博客
作者:
格哈德•费施尔

谷歌
获取博客时事通讯

交付通过FeedBurner

关于FME|5月8日2018|作者:Gerhard Fischel

FME云技巧:提供高水平的正常运行时间

在一个FME云实例上运行FME服务器的最大好处之一是不需要担心硬件,安装,以及FME服务器的授权。一旦启动FME云实例,FME服务器已准备好为您使用你需要多少引擎就有多少.FME云的另一个特点是它附带的监控工具,这使得优化性能和交付更高级别的正常运行时间变得很容易。它可以,然而,配置这些监视工具是一个挑战。

以下是影响FME云实例正常运行时间和性能的最常见事件,您还可以采取一些行动,在FME云实例上提供高水平的正常运行时间。

使用警报尽早检测潜在故障

影响FME云实例可用性和/或性能的最常见条件是:

  1. 实例耗尽内存
  2. 服务器负载太高
  3. 主磁盘已满

FME云提供的工具监控指标创建警报在检测到关键条件时发送通知。

设置内存警报

内存利用率取决于您在FME云实例上运行的特定工作区。一些工作流亚搏在线占用大量内存(例如点云处理),而其他人可能根本不需要太多内存。作为开始,如果内存利用率超过85%超过30分钟,您可以设置实例触发警报。设置内存警报需要您对正在运行的工作区有一些经验。起初,您可能会得到一些误报,但这些知识将允许您调整阈值,而不必冒实例停机的风险。

注意,一旦内存耗尽,亚搏在线一些工作流将写入临时磁盘。有时可以利用它在FME云实例上运行内存密集型作业扩展临时磁盘.

设置服务器负载阈值

高服务器负载常常伴随着高内存利用率。也,你运行的引擎越多,服务器负载越高。要正确解释服务器负载并设置足够的警报阈值,了解服务器负载度量及其对FME云实例核心数量的影响是很重要的。负载为1.0意味着100%使用1个核心。我们的FME Cloud Starter实例有两个内核,因此2.0的负载表明这两个内核得到了充分利用。对于警报,我们建议从70%左右的利用率开始,持续30分钟以上。假设您最近更改了标准实例(4核和16gb ram)的引擎计数,并希望确保FME云实例能够处理它。您可以将警报阈值设置为2.8。

管理磁盘空间

当实例耗尽主磁盘空间时,FME服务器将变得无响应,并且通常无法在不回滚到以前的备份的情况下恢复。这就是为什么主磁盘使用警告(10分钟内90%的使用情况)对于高正常运行时间非常重要,并且默认情况下为实例启用。我们还强烈建议存储用户提供的任何数据,这并不需要持续,在临时磁盘而不是在主磁盘上。每次重新启动后,临时磁盘都将被清除,并且在调整大小方面也更加灵活。另一个防止磁盘空间耗尽的非常有用的工具是FME服务器系统清理.

最后一个指示器是响应时间和无响应服务器警报

响应时间度量是最后一个指示器,指示您的实例出了问题,并且用户可能无法访问web用户界面。如果在启动过程中没有禁用默认警报,当响应时间超过500 ms超过10分钟或服务器完全没有响应时,实例将触发警报。理想情况下,您将收到高内存警报,服务器负载,或在收到高响应时间或无响应服务器的警报之前发出低磁盘空间警报,因为通常高响应时间或根本不报告度量是这些条件的结果。

接收实例事件的通知

我们提供了另一个工具,允许您检测可能影响实例正常运行时间的条件。类似于FME云警报,您可以指定帐户的通知组或团队成员来接收某些事件的通知,如致命错误,行动失败的实例,以及可用的安全更新。

解决的关键条件

在实例变得完全无响应之前接收警报的好处是,您可以缩短修复时间,你的决心不会导致停工。只要FME服务器有响应,您可以访问Web UI并识别影响实例性能和稳定性的潜在作业。如果您的实例已经处于如此高的负载下,以至于无法通过Web UI解决问题,重新启动(在某些情况下,回滚到以前的更新)可能需要,这是你要避免的。

如果有一个时间窗口,当正常运行时间不像平时那么关键时,例如在周末,我们建议您设置一个FME云实例调度来重新启动实例。这将确保安装了需要重新引导的OS安全更新,并释放实例的临时磁盘空间。

实施一个自我修复的过程

在某些情况下,可以为FME云实例实现自修复过程。例如,在高响应时间警报的情况下,您无法再访问FME服务器Web UI,或者如果你的引擎数低于1超过20分钟,您可以触发FME Cloud REST API端点,以便在警报触发时重新启动实例。

触发这样工作流的可能是AWS Lam亚搏在线bda函数或FME工作空间,专用FME云实例。这个实例将只运行由FME云通知触发的进程,以降低意外事件的风险。