BigDataToCloudFME云已经运行了18个多月,客户面临的最大障碍之一是将他们的数据集转移到云计算中,尤其是如果数据集很大的话。下面是我们看到的三个主要的数据上传挑战。

我们见过的大多数场景都涉及将数据加载到Amazon Web Services (AWS),因为FME Cloud运行在AWS上,但这些技术也适用于将数据加载到其他云平台,如微软Azure。

小数据集常常

要经常上传小型数据集,您可以利用AWS和第三方提供的许多工具。下面的解决方案都使用HTTP,这应该足够了,除非你的互联网连接真的不可靠。

大型数据集很少

这里你可以用AWS导入/导出服务或Azure提供的类似服务

工作原理:将数据加载到SSD磁盘并发布到Amazon,然后它们将数据加载到指定的S3 bucket或EBS挂载。如果您计划只进行更改更新,那么批量上传是一个很好的方法。

如果通过网络加载您的数据需要7天或更长时间,请务必考虑使用AWS导入/导出。首先,它是成本效益,因为你不需要支付带宽费用,只需要支付手续费和每加载小时2.49美元。第二,它的安全:你可以使用密码和软件加密,以确保你的数据在传输过程中是安全的。最后,您的数据保证在收到它的1个工作日内加载,所以它是相对的加载大型数据集的方法。

大型数据集常常

这种相对常见的情况是三种情况中最棘手的。通常,人们会利用云的可伸缩性和成本来处理大量数据,如果数据来自云之外,他们需要以自动化的方式将数据推送上来。我们遇到的例子涉及激光雷达光栅数据。一个客户必须每12小时上传12GB的卫星数据,这是时间敏感的,所以需要尽快上传。

要上传大量数据,AWS提供的标准工具往往太慢,即使你有一个快速的互联网连接,因为它们都依赖于HTTP。HTTP存在开销,因为它依赖于TCP协议,而TCP协议并不是为跨WAN移动大型数据集而设计的。

加速文件传输解决方案已经进入市场,利用UDP,它可以通过使用更多的可用带宽来促进更大的吞吐量,受网络开销的影响更小。存在几种加速文件传输解决方案。这个列表并不是详尽的,但这里有一些:

数据上传工具比较

我使用商业和开源工具运行了各种测试,将数据上传到S3。上传了两个数据集:一个是10GB的单个文件,另一个是包含21000张图片的一系列文件夹。上传是在两个互联网连接上进行的测试:一个是平均上传速度为170Mbps的光纤连接,另一个是平均上传速度为2.67 Mbps的宽带连接。以下是结果。

FME
(HTTP)
CyberDuck
(HTTP)
粗线
(FASP)
上传170 mbps的速度
总10GB -单个文件 9米24秒 失败了443
未能响应错误。
9米5秒
159.1 Mbps
总共5GB - 21,000个网页地图瓷砖 12米31秒 1 h 24米 57米36秒
14.3 Mbps
上传速度2.76 Mbps
总10GB -单个文件 FailedTimeout问题 9小时57米 9小时36米
2.5 Mbps
总共6GB - 21,000个网页地图瓷砖 FailedTimeout问题 7 h 6米 5小时41米
2.44 Mbps

速度

粗线在大多数速度测试中都名列前茅——尽管速度增益没有我预期的那么大。FME在上传单个文件方面并不落后于Aspera,但它上传21000个地图块的速度更快。这可能是因为我们刚刚切换到新的SDK,现在我们利用了一个文件夹上传API调用。(注:我还收到了来自Aspera支持的说明,强调了一些可以提高上传速度的调整,但还没有机会尝试。)FME也有超时的问题,当我上传缓慢的互联网连接…我们会解决这个问题。

我觉得FME离亚斯帕太近了CyberDuck在某些测试中),因为我是在最佳网络条件下进行测试的。数据从温哥华复制到弗吉尼亚,所以数据留在北美大陆,这可能会导致低延迟和减少丢包。事实上,Aspera记录的网络延迟只有67毫秒。如果您试图上传数据在更边缘的网络条件或服务器在另一个大陆我认为使用HTTP和UDP的解决方案之间的速度差异将更加明显。

易用性

粗线是有点繁琐的设置(尽管他们有出色的支持),但它是一个全面的解决方案,有很多非常有用的功能。要进行设置,您必须运行自己的AWS实例并在其上安装他们的软件。因此,从这个意义上说,它是您需要监视和维护的另一部分基础设施。我发现最有用的功能包括一个仪表板,可以概述当前和最近完成的上传,对分配给上传的带宽进行细粒度控制,以及在上传完成后查看上传速度和上传时间的统计数据的能力。

我也看了一眼FileCatalyst它的设置和配置很简单,但可用的支持工具不像Aspera那么丰富。Web UI也不是很好用。它使用与运行在您管理的AWS EC2实例上的软件相同的设计模式。

FME使用拖放界面也很容易。我构建的亚搏在线上载到S3的工作流只花了不到5分钟。我们还提供了从S3上传、删除、下载和提取元数据的工具。

使用S3Uploader FME转换器上传点云文件到AWS S3。

FME工亚搏在线作流:使用S3Uploader变压器上传点云到AWS S3。

CyberDuck它就像一个FTP客户端,你可以拖放你想上传的文件。一旦连接到一个桶,您还可以删除和移动文件。

什么加速文件传输解决方案必须提供

在开始这篇综述时,我认为加速文件传输解决方案带来的性能提升将是主要的好处。事实证明最大的好处是可靠性,并将文件上传转换为一个容错组件。我们经常在云上设计复杂的容错架构,利用AWS提供的所有功能来确保我们有一个稳定、可靠的应用程序。然而,这种设计的强度取决于最薄弱的环节。如果你是依靠上传到云端的数据来触发一个工作流,我敢打赌,这可能是最薄弱的环节。亚搏在线如果上传文件是你工作流程中不可分割的一部分,我建议看看商业加速文件传输解决方案。亚搏在线

对于大多数用户来说,FME提供的性能足以将文件上传到云端。如果你在一个很差的连接上上传非常大的文件,你可能会遇到问题,但是我将在这里开始我的基准测试。试试FME吧让我们知道你的想法。你最大的数据上传挑战是什么?

关于FME 大数据 数据上传 FME云 FME服务器

斯图尔特·哈珀

斯图尔特是Safe云应用和基础设施的技术总监。亚搏在线当他不为网络开发基于位置的工具时,他很可能在滑雪或山地自行车。

评论

3对“如何上传大数据到云”的回应

  1. 如果这听起来像是对商业的宣传,很抱歉——这是一个社区服务的公告。亚搏国际在线官网

    对于我们这些在澳大利亚的人来说,AWS Import/Export还没有可用,Geomatic Technologies可以提供便携式媒体处理和上传/下载服务。它不是完全免费的,但由于我们的Direct Connect和intecap通信是由其他企业支持的,任何多余的都是按次付费的,我们经常可以为别人做进口/出口的成本。在廉价和愉快的服务上没有sla等,我们会在我们可以的时候安排你的工作。我们在国内外有很多存储设备,通过可以运行数周的跨区域传输,为AWS的利润做出了坚实的贡献,所以我们非常了解大空间(尤其是图像)数据物流是多么痛苦!

    如果您有可移植的hdd或NAS,并且有>1TB的数据想要进出ap-southeast-2,请给我们打个电话,让Mark Deady或我谈谈。联系方式在网站上。
    问候,
    彼得

    • 蒂安娜华纳 说:

      嗨,彼得,

      感谢您让我们了解您的数据上传/下载服务。每个云用户都有不同的需求,所以了解所有潜在的数据导入/导出解决方案是很好的。

      欢呼,
      蒂安娜
      ______________________________________________________

      Tiana Warner |技术通讯

      亚搏在线安全软件公司。
      2017套房,7445 - 132街,萨里,BC加拿大V3W 1J8
      http://www.亚搏在线safe.com
      ______________________________________________________

  2. GIS Office - DATA Safe亚搏在线.com: FME Cloud Safe Blog: How to Upload Big DATA to Cloud Recorded研讨会:Introduction to FME Cloud +[…]

给…留一个回复匿名取消回复

您的电子邮件地址将不会被公布。必填字段已标记

相关的帖子