span8
span4
本教程由两个部分组成:
1。如何用fme(处理电子表格)为表格准备数据(当前文章)
在第1节,我们会处理一个CSV文件,并将其加载到的Tableau之前执行数据验证和清理。
2。如何准备数据的Tableau与FME(合并多个电子表格)
在第二节中,我们将从第1部分修改FME工作空间来处理多个CSV文件。
源数据:营业执照.csv
完整工作区:练习2-电子表格.fmwt
表格模板:练习2-tableau.zip
我们将通过创建一个简单的翻译开始,看看的Tableau结果,然后回来FME做数据验证和清理。
启动FME Workbench和选择下创建工作区的新选择。
第一步是读取CSV文件。从文件浏览器中的营业执照CSV文件拖放到空白的画布。请注意,这FME已经填补了读者的格式和数据集。或者,单击添加读者。
读卡器格式: | CSV(逗号分隔值) |
读取器数据集: | …\营业执照.csv |
库德。系统: | ll84型 |
添加CSV阅读器,添加business_licenses.csv,设置Coord系统,然后单击参数…
点击参数按钮。数据库参数允许我们选择了画布上落得层或特征类型不同的命名方案。请确保它被设置为“从文件名功能类型”。
我们可以告诉FME CSV文件纬度和经度值转换为点,因为它读取数据。要做到这一点,首先请仔细检查该文件预览是正确的,然后在属性>的属性界定中,单击手册。设置纬度来y_coordinate和经度x_coordinate类型。这将告诉FME显示在CSV每行作为一个点。
将属性定义更改为手动并更新纬度和经度
单击确定,然后再次单击确定到读取器附加到画布上。这告诉FME创建与纬度和经度值记录每一个点。
当CSV源数据添加到画布上,单击箭头以查看完整的属性列表。
在源要素类单击鼠标右键,然后选择连接督察。继续运行工作区。数据被读取并引导到FME数据检查。我们可以看到,我们这样做,其实有百分点。
数据检查器中包含点数据的业务许可证
从作家菜单中选择Add作家。对于格式,开始输入画面,并选择的Tableau数据提取格式。对于数据集,选择在其中写入.tde文件的目录。单击确定以经济表作家添加到工作区。然后连接读者和作家。
打开作家的属性。现在,我们可以指定我们想写入表的名称。称之为BusinessLicenses。
通过更改表名更改writer功能类型属性
您可能已经注意到日志文件中出现了许多蓝色警告。这些问题与CSV数据有关,我们将很快用FME修复这些问题。
在Tableau中,我们可以看到所有的列都对应于我们用FME从CSV文件中读取的列。注意,列的数据类型都是由FME根据对每个列中数据类型的最佳猜测自动设置的。我们可以看到LicenseRSN被正确地设置为数字类型,BusinessName是一个字符串。
查看tableau中的数据以确保它设置了正确的数据类型
让我们仔细查看一下营业执照数据。
以下是我们将用FME完成的任务列表。我们已经完成了当前工作区中的第一个。我们将修改工作区以执行其余的任务。
您可能还记得,CSV文件中的一些记录没有纬度和经度值。由于FME无法为它们创建点,我们希望过滤掉它们;GeometryFilter将帮助我们完成此任务。
点击CSV阅读器,然后开始输入“GeometryFilter”,点击回车。再次单击enter以输入Transformer参数。为“要筛选的几何类型”选择“点”。单击Ok。
继续运行工作区,确保选择了带有完整检查的运行。带全面检查运行>
我们可以确认,在10,000条记录中,有731条没有纬度或经度值。
打开“全面检查运行”以查看的工作区
在我们继续处理这些点之前,让我们将这些记录写到一个“数据清理”文件中,以便它们可以被修复。我们会把它们写出来,让它们更出色。
从作家菜单,添加一个Excel作家。将其写入输出文件夹并调用文件DataCleanup.xlsx。将新的写入器功能类型连接到GeometryFilter的未过滤端口,然后打开写入器属性并将工作表名称更改为“缺少纬度经度”。
更改工作表的名称以识别我们正在录制的内容
现在我们已经处理了丢失的值,让我们继续处理这些点。
在画布上放置一个AttributeValidator并将其连接到GeometryFilter。打开其属性并选择要验证的属性的PostalCode。验证规则是PostalCode必须有一个值。另外,验证某些字符串字段具有字符串值,而数值字段具有数值值。
将attributevalidator设置为验证postalcode是否有值以及其他属性是否为正确的类型
同样,在继续处理有效数据之前,将验证失败的数据写到已经设置的“数据清理”excel文件中的另一个工作表中。右键点击画布,选择“插入作者特性类型”。将新工作表称为“验证失败”。将其连接到AttributeValidator的失败端口。
现在我们知道了AttributeValidator的“记录输出”都有一个邮政编码值,接下来提取前3个字符。我们这样做是因为Tableau使用邮政编码的前三个字符来自动映射区域。
在画布上放置一个SubstringExtractor,并将其配置为从PostalCodeAttribute中提取前3个字符。我们将调用结果属性postcodetrim。
FME将第一个值索引为0,然后从那里计数。如下表所示,如果我们只需要邮政编码中的前3个字符,我们将从0到2。在SubstringExtractor中,起始索引为0,结束索引为2。
五 | 3 | 西 |
|
1个 | J型 | 八 |
0个 | 1个 | 2个 | 3 | 4个 | 5个 | 6 |
设置子字符串提取器以从postalcode中提取前3个值
AttributeManager是一个转换器,它允许我们执行许多属性操作,包括设置条件值。
在attributemanager中为feepayed创建条件值
如果FeePaid属性为空,则将该值设置为0,否则保持原样。
创建一个名为BusinessDisplayName的新属性。将其值设置为BusinessTradeName,但仅在BusinessTradeName具有值时才这样做,否则将其设置为BusinessName。
如果businesstradename有一个属性值,则保留它businesstradename,否则将其命名为businessname
在最终输出中还有一个我们不需要的属性,让我们删除_fme_validation_message。
在attributeManager中,为feepead和businessdisplayname创建两个条件值,同时删除“fme”验证消息
将AttributeManager输出连接到写入器特性类型。
我们刚才删除的属性仍然在输出模式中,并且已经变为红色。原始属性模式是源模式的副本。由于我们的数据转换,它已经改变了,但是我们可以更新它以反映我们所做的事情。
打开目标特性类型的属性,转到User Attributes选项卡,然后单击Automatic进行属性定义。属性模式反映了我们所做的更改。
由于我们想覆盖最初编写的tableau文件,请再次打开属性并将表处理更改为drop和create。
让我们运行我们的最终工作区!单击运行按钮。确认.tde文件和datacleanup.xlsx文件是使用Windows资源管理器创建的。
在“数据源”视图中,注意我们从csv文件导入的所有记录。我们还可以看到,我们在工作区中创建的postcodetrimmed属性与从csv文件导入的其他字段一起存在。
现在我们的数据已经导入到tableau中,我们可以开始创建数据视图来探索这些数据。
例如,我们可以创建一个简单的地图视图来查看覆盖在地图上的数据点。创建新工作表,然后双击几何图形以查看各个点。最后,根据状态给它们上色,以获得当前哪些企业拥有活动许可证的总体视图。
我们还可以使用邮政编码字段来显示数据,创建新工作表。从“维度”中添加PostalCodetrimmed,并根据该区域内营业执照的唯一计数为其上色。
在下一个练习,我们将修改刚刚构建的用于处理多个csv文件的工作区。
©2019安全亚搏在线软件公司|法律