span8
span4
你好,
我正试图从附件表中提取pdf文件,以避免任何重复的文件。无论是附件表还是相关表中都没有任何内容可以用作文档的唯一标识符。我尝试了两种不同的方法,但都只是部分有效。
使用按数据分组的聚合器。这可以工作,但有些数据不同,即使文档本身是相同的。
2)使用按DATA_SIZE分组的聚合器。这也行,但我仍然得到重复。我做了一些调查,发现即使DATA_SIZE在inspector表中显示相同,但是聚合器运行的某些大小略有不同。当我调出每个输出副本pdf的属性时,文件大小和磁盘大小之间似乎存在差异。
有什么想法能让它们正确聚合吗?
听起来好像您在属性中有附件PDF文件内容。尝试在该属性上创建一个CRC—这会将内容减少到单个数字。然后对生成的CRC属性使用DuplicateFilter。你需要一个聚合器把东西连接在一起有什么原因吗?
©2019安全亚搏在线软件公司法律