你好,戴尔,
谢谢你的回复。我不知道CRC的事。这有助于创建唯一的id。我已经研究了更多,我已经确定,在实际blob数据上进行聚合(或使用CRC)是更好的方法。文件大小可能会导致一些不匹配。这需要处理很多副本。
我将这些功能聚合起来,以便创建链接到同一文档的所有功能的列表。我给列表中的每个特性分配了相同的id,可以用来绑定到一个文档。这使文档的数量减少了不少,但是,我最后还是留下了一些重复的文档。我想现在我只需要打开相同文件大小的文档,验证它们是相同的文档,然后手动更改id。
谢谢,
贾斯廷
听起来您的附件PDF文件内容在一个属性中。尝试对该属性进行CRC—这会将内容减少到一个数字。然后对生成的CRC属性使用DuplicateFilter。有什么原因让你需要一个聚合器把东西连接起来吗?