将大的CSV文件分割成带有页眉和页脚行的小文件

Question

你好,

我有一个有7万条记录的CSV文件。它在第一列中有一个由10标识的标题行。数据行在第一列有20个，页脚行在第一列有99个。我可以将这三种行类型分开，对数据行进行处理，然后将它们按正确的顺序重新组合在一起——10,20,99。

但是，输出文件太大，我们的第三方导入例程无法处理，所以我需要一种方法将数据分块到文件中，每个文件中有5,000条记录。每个文件需要原始标题行(4列)、5000数据行(15列)和更新的页脚行(2列)，其中包含99和数据行数。导入器应该能够循环遍历这些较小的文件，而不需要消耗底层JVM的资源。

我主要使用了一个在数据集上使用@Count(fanout,1,10)的fanout，它创建了10个文件夹，每个文件夹中都有一个CSV文件。然而，页眉行被写入第一个文件，而页脚行只被写入最后一个文件。其他文件没有页眉或页脚行。我还尝试了放入ModuloCounter并在module_count属性上展开。同样，当每个文件需要一个页眉和页脚行时，第一个文件获取页眉行，另一个文件获取页脚行。

FME Hive Mind有什么建议吗?

提前谢谢。

Answer 1 · 2018-01-24T14:09:00Z

回答通过 ebygomm ·2018年1月24日下午2点09分

开始的例子，仍然需要更多的分支来确保页脚对每个文件都有正确的记录计数。

capture.png (102.5 kB)

添加注释· 分享

| 4000角色需要字符左字符超过

附件:最多可使用10个附件(包括图像)，每个附件的最大大小为4.0 MB，总大小为4.0 MB。

Answer 2 · 2018-01-24T13:55:57Z

回答通过 ebygomm ·2018年1月24日下午01:55

您需要克隆页眉和页脚行，以便每个组有一个集合，然后重新组合。我将在5分钟内发布一个例子。

这些听起来像NLPG文件或类似的，我发现它更安全的阅读txt文件而不是csv在过去。亚搏在线

添加注释· 分享

| 4000角色需要字符左字符超过

附件:最多可使用10个附件(包括图像)，每个附件的最大大小为4.0 MB，总大小为4.0 MB。

将大的CSV文件分割成带有页眉和页脚行的小文件

2回复

跟进这个问题

相关问题