斯潘8
斯潘4
本教程包括两个部分:
1。如何使用FME(处理电子表格)为Tableau准备数据(当前文章)
在第1节中,我们将处理单个csv文件,并在将其加载到Tableau之前执行数据验证和清理。
2。如何使用FME为Tableau准备数据(合并多个电子表格)
在第2节中,我们将修改第1节中的FME工作区,以处理多个csv文件。
源数据:商业许可.csv
完成工作区:练习2-电子表格.fmwt
表格模板:练习2-tableau.zip
我们将从创建一个简单的翻译开始,看看Tableau的结果,然后回到FME进行数据验证和清理。
启动FME Workbench,并选择“创建工作空间”下的新选项。
第一步是读取csv文件。将业务许可证CSV文件从文件资源管理器拖到空白画布上。通知,FME已经填写了读卡器格式和数据集。或者,单击添加读卡器。
读者格式: | csv(逗号分隔值) |
读者数据集: | …\business_licenses.csv |
库尔德系统: | LL84 |
添加一个csv阅读器,添加business_licenses.csv,设置坐标系,然后单击参数…
单击参数按钮。数据库参数允许我们为最终出现在画布上的图层或要素类型选择不同的命名方案。确保将其设置为“来自文件名的功能类型”。
我们可以告诉FME在读取数据时将csv文件的纬度和经度值转换为点。要做到这一点,首先再次检查文件预览是否正确,然后在“属性>属性定义”下,单击Manual(手动)。将纬度设置为y_坐标,将经度设置为x_坐标。这将告诉FME将csv中的每一行显示为一个点。
将属性定义更改为手动并更新纬度和经度
单击确定,然后再次单击“确定”将读卡器添加到画布。这告诉FME为每个记录创建一个具有纬度和经度值的点。
将csv源数据添加到画布时,单击箭头查看完整的属性列表。
右键单击源要素类型,然后选择“连接检查器”。继续运行工作区。读取数据并将其发送给FME数据检查员。我们看到了,事实上,有点。
数据检查器中包含点数据的业务许可证
从“编剧”菜单,选择添加编写器。对于格式,开始输入Tableau,并选择Tableau数据提取格式。对于数据集,选择要在其中写入.tde文件的目录。单击“确定”将Tableau编写器添加到工作区。然后连接读写器。
打开编写器的属性。现在可以指定要写入的表的名称。称之为营业执照。
通过更改表名更改编写器功能类型属性
您可能注意到日志文件中出现了许多蓝色警告。这些与csv数据的问题有关,我们将很快用FME解决这个问题。
在表中,我们可以看到所有的列都对应于我们用FME从csv文件中读取的列。请注意,列的数据类型都是由FME根据对每个列中的数据类型的最佳猜测自动设置的。我们可以看到,licensersn已正确设置为数字类型,businessname是字符串。
查看Tableau中的数据以确保它设置了正确的数据类型
让我们仔细看看营业执照数据。
下面是我们将用FME完成的任务列表。我们已经完成了当前工作区中的第一个。我们将修改工作区以执行其余的任务。
您可能还记得csv文件中的一些记录没有纬度和经度值。因为FME不能为他们创建点,我们想过滤掉它们;几何过滤器将帮助我们实现这一点。
单击csv阅读器,然后开始键入“geometryfilter”单击“回车”。再次单击Enter输入变压器参数。选择“点”作为“要过滤的几何类型”。单击确定。
继续运行工作区,确保已选择带完全检查的运行。运行>完全检查运行
我们可以确认731,在我们的10000条记录中,没有纬度或经度值。
打开“完全检查运行”以查看的工作区
在我们继续处理这些点之前,让我们把这些记录写到“数据清理”文件中,以便它们可以被修复。我们会把它们写在Excel上。
从“编剧”菜单,添加Excel编写器。将其写入输出文件夹并调用文件datacleanup.xlsx。将新的编写器功能类型连接到几何过滤器的未过滤端口,然后打开作者的属性,将工作表名称更改为“缺少纬度经度”。
更改工作表的名称以标识我们正在录制的内容
既然我们已经处理了缺失的价值观,让我们继续处理这些点。
在画布上放置一个attributevalidator,并将其连接到几何过滤器。打开其属性并选择Postalcode作为要验证的属性。验证规则是PostalCode必须有一个值。也,验证某些字符串字段是否具有字符串值,以及数字字段是否具有数字值。
将attributevalidator设置为验证PostalCode是否具有值以及其他属性是否为正确的类型。
再一次,在继续处理有效数据之前,将验证失败的数据写入已设置的“数据清理”Excel文件中的其他工作表。右键单击画布并选择“插入编写器功能类型”。调用新工作表“验证失败”。将其连接到attributevalidator的失败端口。
既然我们知道了attributevalidator的“记录输出”都有邮政编码的值,让我们提取前3个字符。我们这样做是因为Tableau使用邮政编码的前3个字符自动映射区域。
在画布上放置一个substringxtractor,并将其配置为从postalcdeattribute中提取前3个字符。我们将调用结果属性postcodetrimmed。
FME将第一个值索引为0,然后从此处开始计数。如下表所示,如果我们只需要邮政编码中的前3个字符,我们将从0变为2。所以在substringxtractor中,我们的开始索引为0,结束索引为2。
V | 三 | W |
|
一 | J | 八 |
零 | 一 | 二 | 三 | 四 | 五 | 六 |
设置substringextractor以从postalcode中提取前3个值
属性管理器是一个转换器,它允许我们进行许多属性操作,包括设置条件值。
为feepaid在attributeManager中创建条件值
如果feepaid属性为空,将值设置为0,否则,别管它了。
创建一个名为businessdisplayname的新属性。将其值设置为businesstradename,但只有当businesstradename有值时,否则将其设置为businessname。
如果businesstradename具有属性值,保留IT businesstradename,否则命名IT businessname
在最终输出中还有一个我们不需要的属性,让我们删除“FME验证”消息。
在属性管理器中,为feepaid和businessdisplayname创建2个条件值,同时删除“FME验证”消息
将attributeManager输出连接到编写器功能类型。
我们刚才删除的属性仍然在输出模式中,并且已变为红色。原始属性架构是源架构的副本。它已经改变了,由于我们的数据转换,但是我们可以更新它来反映我们所做的。
打开目标功能类型的属性,转到“用户属性”选项卡,单击“自动”以进行属性定义。属性模式反映了我们所做的更改。
因为我们想覆盖最初编写的Tableau文件,再次打开属性并将表处理更改为删除和创建。
让我们运行最后的工作区!单击运行按钮。确认使用Windows资源管理器创建了.tde文件和dataclianup.xlsx文件。
在“数据源”视图中,注意我们从csv文件导入的所有记录。我们还可以看到postcodetrimped属性,我们在工作区内创建的,与从csv文件导入的其他字段一起存在。
现在我们的数据被导入到Tableau中,我们可以开始创建数据视图来探索这个数据。
例如,我们可以创建一个简单的地图视图来查看覆盖在地图上的数据点。创建新工作表,然后双击几何图形以查看各个点。最后,按状态给它们上色,以获得当前哪些企业拥有活动许可证的总体视图。
我们还可以使用邮政编码字段来显示数据,创建新工作表。添加postalcommedimed,从“维度”开始,并按区域内唯一的营业执照计数对其进行着色。
在下一步练习,我们将修改我们刚构建的工作区来处理多个csv文件。
?2019安全亚搏在线软件公司|合法的