span8
span4
你好,
我是新来的FME,并试图处理一个有重复的数据集。然而,每个副本包含一些信息,我需要保存到新的列中。
一个简化的版本是这样的:
PropertyID | 地址 | 联系人姓名 | 详细联系方式 |
0001 | 1高街 | 史密斯先生 | 01212328000 |
0001 | 1高街 | 琼斯先生 | 01212328001 |
0002 | 2低街 | 伯明翰先生 | 01212328002 |
0002 | 2低街 | 华威先生 | 01212328003 |
最后我需要做的是:
PropertyID | 地址 | 联系人姓名 | 详细联系方式 | 联系人姓名2 | 联系方式2 |
0001 | 1高街 | 史密斯先生 | 01212328000 | 琼斯先生 | 01212328001 |
0002 | 2低街 | 伯明翰先生 | 01212328002 | 华威先生 | 01212328003 |
有人建议我在使用多个复制文件后使用FeatureMerger,但我不知道如何将过滤后的每组重复数据返回到一个数据集中,同时保留重复条目中的数据。
任何帮助,指针或示例工作区将非常感激。
干杯,马克
嗨@mrb。我希望附件中的工作空间模板,csvduplicatehandling.fmwt帮助你开始。它读取CSV文件,使用FeatureMerger组合基于PropertyID的行,然后使用DuplicateFilter仅保留相同行的一个副本。
如果您不知道某个地址的联系人数量,那么可能需要使用一些python。另外,如果这是一个大数据集,那么在FeatureMerger中执行完整的外部连接将对性能产生不利影响。所以要么按照建议使用聚合器@takashi或者在特性更新之前处理重复项。
例子工作区(2017):csvduplicatehandling-v01.fmwt
嗨@mrb,若已知重复的最大数目(例如2)、Aggregator(或ListBuilder)和AttributeManager(或AttributeRenamer)可能会帮助您。如。
©2019安全亚搏在线软件公司法律