包含需要保存到新列中的数据的副本的CSV文件。

Question

你好,

我是新来的FME，并试图处理一个有重复的数据集。然而，每个副本包含一些信息，我需要保存到新的列中。

一个简化的版本是这样的:

PropertyID	地址	联系人姓名	详细联系方式
0001	1高街	史密斯先生	01212328000
0001	1高街	琼斯先生	01212328001
0002	2低街	伯明翰先生	01212328002
0002	2低街	华威先生	01212328003

最后我需要做的是:

PropertyID	地址	联系人姓名	详细联系方式	联系人姓名2	联系方式2
0001	1高街	史密斯先生	01212328000	琼斯先生	01212328001
0002	2低街	伯明翰先生	01212328002	华威先生	01212328003

有人建议我在使用多个复制文件后使用FeatureMerger，但我不知道如何将过滤后的每组重复数据返回到一个数据集中，同时保留重复条目中的数据。

任何帮助，指针或示例工作区将非常感激。

干杯,马克

Answer 1 · 2018-01-02T17:19:29Z

最佳答案

回答通过 natalieat亚搏在线safe ·2018年1月2日下午5点19分

嗨@mrb。我希望附件中的工作空间模板，csvduplicatehandling.fmwt帮助你开始。它读取CSV文件，使用FeatureMerger组合基于PropertyID的行，然后使用DuplicateFilter仅保留相同行的一个副本。

csvhandlingduplicates.png (40.9 kB)

csvduplicatehandling.fmwt (12.3 kB)

添加注释· 显示3· 分享

| 4000角色需要字符左字符超过

附件:最多可使用10个附件(包括图像)，每个附件的最大大小为4.0 MB，总大小为4.0 MB。

mrb ·2018年1月3日下午2点17分 0

感谢你@NatalieAtSafe的回复。亚搏在线
我仍然有点困惑，因为我看不出如何将来自重复项的联系人列添加到合并的行中，从而保留所有数据。
有趣的是，你在合并后过滤重复项，我看到的是另一种方式。

natalieat亚搏在线safe♦♦ mrb ·2018年1月3日下午06:27 0

嗨 @mrb。您可以在FeatureMerger中为具有多个值的属性创建一个列表。然后在删除重复的特性之后，可以使用AttributeManager创建新的属性来存储这些多个值。这是另一个模板工作区: csvduplicatehandlingjan3 fmwt——2018.

csvduplicatehandlingjan3 fmwt——2018. (13.1 kB)

mrb ·2018年1月4日上午11:38 1

谢谢你！ @NatalieAt亚搏在线Safe
这个列表是我错的地方——当我弹出一个列表时，一切都变得清楚了——谢谢。:-)

Answer 2 · 2018-01-05T21:40:10Z

回答通过 markat亚搏在线safe ·2018年1月5日晚上9点40分

如果您不知道某个地址的联系人数量，那么可能需要使用一些python。另外，如果这是一个大数据集，那么在FeatureMerger中执行完整的外部连接将对性能产生不利影响。所以要么按照建议使用聚合器@takashi或者在特性更新之前处理重复项。

例子工作区(2017):csvduplicatehandling-v01.fmwt

workspace-v01.jpg (111.5 kB)

csvduplicatehandling-v01.fmwt (12.3 kB)

添加注释· 分享

| 4000角色需要字符左字符超过

附件:最多可使用10个附件(包括图像)，每个附件的最大大小为4.0 MB，总大小为4.0 MB。

Answer 3 · 2018-01-03T13:07:23Z

回答通过隆 ·2018年1月3日下午01:07

嗨@mrb，若已知重复的最大数目(例如2)、Aggregator(或ListBuilder)和AttributeManager(或AttributeRenamer)可能会帮助您。如。

aggregator-attributemanager.png (25.6 kB)

attributemanager-parameters.png (21.2 kB)

添加注释· 显示2· 分享

| 4000角色需要字符左字符超过

附件:最多可使用10个附件(包括图像)，每个附件的最大大小为4.0 MB，总大小为4.0 MB。

mrb ·2018年1月3日下午2点25分 0

嗨 @takashi,
谢谢你的回复，我确实看了一下聚合器，但是发现每行重复的数量不是一个常数，所以我无法让它工作。

daleat亚搏在线safe♦♦ mrb ·2018年1月4日凌晨5点41分 0

如果预先知道重复的次数最多，那么可以在AttributeManager中重命名最多次数。

你可以写一个计算出最大值的工作空间，然后你就知道了。

让FME自动完成这一切是可能的，但这种类型的动态输出模式(即。当我们设计时，列是未知的)是一个小技巧。如果你真的需要，那就告诉我们——可能需要一点Python，但是胜利是可以获得的。

包含需要保存到新列中的数据的副本的CSV文件。

3.回复

跟进这个问题

相关问题