作者:
丽兹桑德森

作者:
萨姆·沃克

所有博客帖子>关于数据γ7月3日,二千零一十八γ作者:Liz Sanderson和Sam Walker

通过基于R-RRR的FME轮毂变压器进行统计分析!

阿霍伊那里!当我们启航前往由一群安全人员实施的“统计调查员”项目时,准备好迎接无尽的海盗双关语。亚搏在线每年为创新迷惑,亚搏在线SAFE的开发人员(通常是其他团队)停止了一周的常规工作,使用FME构建自己的激情项目。今年,一个多学科的海盗团队聚集在一起创造一组r和python统计变换器帮助FME进入数据科学的世界。

集合船员

(高兴地)罗杰集合了我们的船员:萨姆,可以写R的海盗;艾里斯和奥利维亚,蛇人谁能写巨蟒;丽兹记录旅程;克里斯,把一幅画变成一幅地图;弥敦为航行寻找信息;丹领航员找到通往隐藏宝藏的最短路径;和其他有能力的水手帮助完成各种任务。

构建统计起始集

带着我们的船员,我们起航横渡定制变形金刚之海。奥利维亚首先用巨嘴鸟以及斯皮皮包裹,而山姆也用拉客.

  • shapiro-wilk检验确定随机数据样本是否来自正态分布。

Olivia使用了她定制的变压器魔法,以确保我们的变压器能够充分处理被拒绝的功能,并在故障代码搁浅时返回。

在用巨蟒和R完成处女航后,我们调整了课程,以创建其余的自定义变压器,只是使用RCaller。我们发现为了我们的目的,R可以在一行代码中进行许多测试。

Liz为上传到FME集线器.她还写了一篇文章如何进行夏皮罗-威尔克测试使用我们的皮夏皮罗计算器rshapirowilkac计算器自定义变形金刚。如果您想了解如何在FME工作台中直接使用这两种语言进行统计分析,那么本文是一个很好的资源。

python和r shapiro wilk计算器自定义变压器

当利兹写这篇文章的时候,Sam和Olivia完成了更基本的统计测试自定义变压器:

虽然只触及测试表面,这可能对FME用户有用,这是一个很好的“统计起始集”。

在我们的旅程中,一些船员带着小艇出去探险。Chris能够为光栅写入器阅读对调色板的支持,字节顺序,和交织(出现在FME 2018.1)Kevin成功地使用r来检测testsuite数据的变化,IRIS最终使用FME服务器将FME工作区原型化为应用程序。

随着创新迷茫的最后一天来临,我们的团队意识到,虽然我们可以炫耀我们的定制变形金刚,我们没有很好的视觉结果来说明RCaller在FME中的统计分析能力。因此,萨姆决定在创新大泽剩下的几个小时内,把一个FME工作区的例子集中起来。与FME技术专家Nathan一起,他们用RClusterCalculator变压器和UScensourer建立了一个例子来进行K均值聚类分析关于奥兰多,佛罗里达州人口普查数据。这项分析绘制了一张以聚类为标志的人口普查图,比P值更令人兴奋(对一些人来说,反正!).

示例:使用rclusterCalculator创建集群分析映射

使用循环计算器在人口普查数据中确定聚类。[下载FME工作区]

我们使用 美国电话用户由nate创建的自定义转换器,用于 美国人口普查局的原料药下载人口普查数据。Transformer获取兴趣点并返回具有普查变量属性的块组特征。我们在奥兰多使用了一个稍微“预煮”的人口普查数据块组质心层来检索我们想要的功能。

下一步,我们将功能发送到循环计算器.我们将人口普查变量指定为要分析的属性,并要求提供5个集群解决方案。然后我们使用了特征接合器使用人口普查中的大地水准面属性,重新连接从RCaller到几何体的属性。这是必需的,因为RCaller当前不支持几何图形(将您的支持添加到这个想法请求此功能)。

最后,我们写了数据。附加了新的“cluster”属性的特性被写入geojson文件cansuscluster.json,并且每个集群的普查特性的方法被写入一个csv表。我们使用inspector transformer查看按集群分组的数据:

人口普查集群的产出。地图瓦片雄蕊设计,在下面CC-BY3.0.数据通过OpenStruts地图,在下面CC-BSA.

给所有的统计爱好者打电话

我们使用RCaller为FME集线器构建了一组统计变压器的启动程序,但是如果FME社区继续努力,我们会很高兴的。亚搏国际在线官网.大量的测试和分析可以打包成定制的变压器。以下是一些我们没有时间创建,但希望在FME集线器上看到的内容:

  • Mann–Whitney U测试
  • Kolmogorov和Smirnov试验
  • Fisher F检验
  • 卡方检验
  • 方差分析
  • 曼诺娃
  • OLS回归
  • 因子分析
  • 主成分分析
  • 多维标度

所有这些都可以使用rcaller实现,尽管有些需要安装额外的软件包。

如果您使用的是RCaller或这些定制变压器,我们很高兴收到您的来信。此外,退房创意论坛为RCaller推荐新功能或投票给现有功能。

警告:这里有怪物

统计数据很复杂。使用R和其他相关软件进行统计计算,使得进行统计分析更加容易。那太好了!然而,在进行统计分析时,也容易得出错误的结论。统计计算的速度和可访问性有时会使这变得更容易。因此,实施时必须小心。我们鼓励每个人将统计数据纳入工作,我们建议你做作业在下结论之前.以下是一些学习统计和R的有用资源:

您也可以查看我们的FME知识中心关于RCaller的文章.

祝你自己横渡统计海航行好运!