第8页
第4排
你好,
我有一个固定宽度的文本文件,我想删除一些行,其中一部分行是重复的,例如,请参见下面的摘录:
NE5000086033 15.10.201831.12.2099马斯特森
NE500085977 08.10.201831.12.2099吉尔摩
NE500085699 2018年9月24日2021年12月31日
NE500085699 2018年9月24日2099年12月31日银行
NE500085312 10.09.201831.12.2099莫约
如果粗体部分相同,我希望从文件中删除这两个记录。然后以与删除重复项完全相同的格式输出文件。我正在使用读卡器读取文件,但我不能100%确定哪一个是最好的作者。任何建议都非常感谢。
谢谢,
查理
如果总是相同的长度,可以使用attributeSplitter将该位拆分为一个新的列表属性,然后使用该列表属性作为键的DuplicateMover。
代替attributeSplitter的substringxtractor具有相同的结果。
有几种方法可以做到这一点,但是你可以用采样器或者复印机来做这个。我认为采样器是一个性能更好的变压器,但我从未计时过。
对于写出结果,您可以使用文本文件编写器。文本文件编写器需要一个文本行数据属性,可以通过在attributeCreator中添加列来重新创建行。
如果文件中有其他部分(如头),则需要还原,你需要把它们从取样器的水流中引出,然后在取样器之后再回到水流中。使用attributeexposer公开原始行号(cat_line_number)和排序器在写入之前恢复行顺序。
编辑:由于403,重新绘制工作区…
删除重复条目3个答案
如何调试Matcher vs DuplicateFilter vs FeatureMerge=不同的答案!1个答案
重复+聚合器2个答案
从多个字段中删除表中的重复项4个答案
删除数据子集中的重复项2个答案
?2019安全亚搏在线软件公司|法律