你一直在给定一个数据集,承诺包含有价值的信息。它有地图、测量、CAD drawings-everything你需要做一个伟大的工作!(sad长号声音除外)pdf文件的数据。pdf文件!Adobe的名义是什么你应该做的吗?开放500个文件和手动打孔每个数字计算器?不,谢谢。
从会计数据技术人员,需要提取数据从一个PDF一直困扰我们所有人在某种程度上。软件Adobe是伟大的如果你需要编辑格式良好的文本和tables-but如果你降落在这里,你可能需要更多。让我们看看如何将一个PDF转换成有效数据,您可以加载到GIS、CAD系统,数据库,等等,为进一步使用。
基本的PDF转换工作流程亚搏在线
1。添加一个PDF阅读器FME工作区自动提取数据从输入的pdf文档,包括:
- 地图
- 位图/图片
- 几何和其他矢量数据
- 文字和表
- 属性信息和协调
- 元数据,比如文档信息和页面维度
2。发送数据的组合FME变形金刚——因为数据提取是一回事,但重点是了解的PDF。在这里您可以执行计算和测量数据,整合其他来源,运用正则表达式,否则在出口过程。
3所示。添加一个作家转换数据转换成一个有用的格式- GIS、CAD、Excel,数据库,词,商业智能软件,无论你需要。
好吧,这都是十全十美的理论,但从pdf文件中提取信息很少如此简单。让我们来看看一些顶级的挑战以及如何克服它们。
(研讨会)报名参加我们的研讨会在9月5日去看住PDF阅读演示
挑战1:扫描不解析的PDF文档
通常,数据技术人员给出扫描的文档页的位图——没有几何,没有解析的文本。老地图和手绘计划是最常见的罪魁祸首。
从扫描图像创建矢量对象,您所需要的特征提取。这样的解析文本从一个文件中,你所需要的光学字符识别(光学字符识别的自动化流程从图像中提取文本)。
FME变形金刚:有用:
- TesseractCaller——调用来自FME执行OCR的第三方库。
- RasterConvolver——执行复杂的光栅操作,如边缘检测。这有助于从普通的图像中提取几何图形。
- RasterExpressionEvaluator——允许您执行逐像素计算光栅,因此可以用来提取特征和做其他光栅操作。
- PotraceCaller——调用第三方库将位图转化为矢量图形。参见:3的方法转换为CAD / GIS栅格图像矢量。
一个无聊的项目
这是一个无聊的例子。我的意思是,“洞”的无聊,不是无聊的“睡眠”。
桑德的荷兰斯维克梅耶尔给“无聊”讨论利用FME收回钻孔数据存储在PDF使用TesseractCaller等好吃的和全新的PDF阅读器# FMEWT哥本哈根pic.twitter.com/ASxsvWeVPM
——戴尔·鲁茨(@DaleAtSafe)亚搏在线2018年5月29日
挑战2:批量处理
数据转换通常不是一个一次性的东西。如果你有一个PDF的过程,实际上是一个好机会你有不止一个。FME工作流是可重复的,亚搏在线因为:批量处理一样容易喂养您的工作区目录的pdf文件或建立一个时间表或触发FME服务器,让工作区运行每当新数据到来。
你甚至可以创建一个通过FME自助门户网站服务器,让最终用户执行PDF转换本身。(查看FME服务器演示自助服务门户网站的例子。)
一个密封项目
(漂亮的邮票,不是吃哺乳动物或海军。)在FME知识中心@dbaldacchino1提到一个场景,建筑师和工程师可以更新geoPDFs需求和增加公司的印章。这将是一个伟大的利用FME服务器!FME的PDF功能如果您计划使用:为你的公司,我想听它。达到实时聊天并告诉我们的支持团队,你有一个PDF蒂安娜的场景。
挑战3:提取的数据需要清理
多边形是破碎的,线断开,文字是乱码,每个字母在PDF是存储在一个单独的文本框,而不是连接字符串…帮助。
一旦你从一个PDF中提取数据,它可能需要修理。FME有几个变压器可以帮助你明智地清理数据。
FME变形金刚:有用:
- GeometryValidator——检测和修复坏几何学。
- 鲷鱼——一起提前断了线。
- AttributeManager——添加和更新与数据相关联的属性特征。
- MapTextLabeller——与高质量的地图标注几何标签。
一个鲨鱼项目
真正的鲨鱼。请继续关注即将到来的博客俄罗斯,他利用FME提取数据从一个复杂的PDF的鲨鱼迁徙模式,其他的例子之一。
(研讨会)报名参加我们的研讨会在9月5日去看住PDF阅读演示
你需要从一个PDF中提取数据吗?请让我们知道教程/模板你需要什么以及我们如何可以改善FME PDF阅读功能。
了解更多:查看这些教程FME知识中心。
蒂安娜华纳
蒂安娜是资深营销专家安全软件。亚搏在线她的背景在计算机编程和创造性的爱好,使她成为一个创造性的内容安全软件的主要生产商。亚搏在线蒂安娜她空闲时间写幻想小说,骑着马,和探索自然和她营救小狗,乔伊。
留下一个回复
你必须登录发布评论。