斯潘8
斯潘4
使用FME云时,客户面临的最大障碍之一是将他们的数据集移入云端,尤其是当数据集很大时。将数据移动到云端可以分为三组,每组都有不同的问题,因此,加载数据的不同建议方法是:
因为FME云运行在AWS上,我们看到的大多数场景都涉及将数据加载到AmazonWeb服务(AWS)中,但这些技术也适用于将数据加载到其他云平台,如Microsoft Azure。
这是最简单的情况,因为网络带宽不会受到限制,小的定义取决于可用的带宽。要频繁上传小数据集,您可以利用AWS和第三方提供的许多工具。以下解决方案都使用HTTP,这就足够了,除非你的互联网连接真的不可靠。
将数据加载到AWS S3中
将数据加载到RDS
在RDS上运行的数据库与在本地运行的数据库具有完全相同的接口。这意味着您可以使用标准工具加载数据。
将数据加载到S3和EBS卷中
在将大型数据集加载到云中时,网络带宽通常是一个限制。对于一次性批量上载,您可以使用AWS进出口雪球服务还是Azure提供的类似服务.你把你的数据加载到固态硬盘上,然后把它们发布到亚马逊上,然后他们将您的数据加载到指定的S3 bucket或EBS mount中。如果您计划进行仅更改的更新,这是进行批量上载的极好方法。
如果通过网络加载数据需要7天或更长时间,一定要考虑使用AWS导入/导出。第一,它具有成本效益,因为你不需要支付带宽成本,装卸费和每小时2.49美元。第二,它是安全的:你可以使用密码和软件加密来确保你的数据在传输过程中是安全的。最后,您的数据保证在收到后1个工作日内加载,因此,这是一种加载大型数据集的相对快速的方法。
将数据加载到RDS
在RDS上运行的数据库与在本地运行的数据库具有完全相同的接口。这意味着您可以使用标准工具加载数据。
这种相对常见的情况是这三种情况中最棘手的。让它变得棘手的是频率,高频意味着您必须使用网络,因为AWS导入/导出速度太慢。
为了上传大量数据,标准工具AWS可能太慢,即使你有一个快速的互联网连接,因为它们都依赖于HTTP。HTTP有开销,因为它依赖于TCP协议,它并不是专为跨广域网移动大型数据集而设计的。
加速文件传输解决方案已经进入市场,利用UDP,声称它们可以通过使用更多的可用带宽来促进更大的吞吐量,因为它们不受网络开销的影响。存在几种加速文件传输解决方案,我运行了一系列基准测试,发现HTTP的开销并不像我想象的那么大。结果在此中可用博客帖子.
我发现最大的好处是可靠性,并将文件上传转化为容错组件。我们经常在云中设计复杂的容错架构,利用所有的AWS来确保我们有一个稳定的可靠的应用。然而,这样的设计只不过是最薄弱环节。如果您依赖上传到云端的数据来触发工作流,亚搏在线我打赌这可能是最薄弱的环节。如果上载文件是工作流程的一个组成部分,亚搏在线我建议您看看商业加速文件传输解决方案。
?2019安全亚搏在线软件公司|合法的