你一直在给定一个数据集,承诺包含有价值的信息。它有地图、测量、CAD drawings-everything你需要做一个伟大的工作!(sad长号声音除外)pdf文件的数据。pdf文件!Adobe的名义是什么你应该做的吗?开放500个文件和手动打孔每个数字计算器?不,谢谢。

从会计数据技术人员,需要提取数据从一个PDF一直困扰我们所有人在某种程度上。软件Adobe是伟大的如果你需要编辑格式良好的文本和tables-but如果你降落在这里,你可能需要更多。让我们看看如何将一个PDF转换成有效数据,您可以加载到GIS、CAD系统,数据库,等等,为进一步使用。

基本的PDF转换工作流程亚搏在线

1。添加一个PDF阅读器FME工作区自动提取数据从输入的pdf文档,包括:

2。发送数据的组合FME变形金刚——因为数据提取是一回事,但重点是了解的PDF。在这里您可以执行计算和测量数据,整合其他来源,运用正则表达式,否则在出口过程。

3所示。添加一个作家转换数据转换成一个有用的格式- GIS、CAD、Excel,数据库,词,商业智能软件,无论你需要

Esri Shapefile FME工作区转换PDF。

好吧,这都是十全十美的理论,但从pdf文件中提取信息很少如此简单。让我们来看看一些顶级的挑战以及如何克服它们。

(研讨会)报名参加我们的研讨会在9月5日去看住PDF阅读演示

挑战1:扫描不解析的PDF文档

通常,数据技术人员给出扫描的文档页的位图——没有几何,没有解析的文本。老地图和手绘计划是最常见的罪魁祸首。

从扫描图像创建矢量对象,您所需要的特征提取。这样的解析文本从一个文件中,你所需要的光学字符识别(光学字符识别的自动化流程从图像中提取文本)。

FME变形金刚:有用:

一个无聊的项目

这是一个无聊的例子。我的意思是,“洞”的无聊,不是无聊的“睡眠”。

挑战2:批量处理

数据转换通常不是一个一次性的东西。如果你有一个PDF的过程,实际上是一个好机会你有不止一个。FME工作流是可重复的,亚搏在线因为:批量处理一样容易喂养您的工作区目录的pdf文件或建立一个时间表或触发FME服务器,让工作区运行每当新数据到来。

你甚至可以创建一个通过FME自助门户网站服务器,让最终用户执行PDF转换本身。(查看FME服务器演示自助服务门户网站的例子。)

一个密封项目

(漂亮的邮票,不是吃哺乳动物或海军。)在FME知识中心@dbaldacchino1提到一个场景,建筑师和工程师可以更新geoPDFs需求和增加公司的印章。这将是一个伟大的利用FME服务器!FME的PDF功能如果您计划使用:为你的公司,我想听它。达到实时聊天并告诉我们的支持团队,你有一个PDF蒂安娜的场景。

挑战3:提取的数据需要清理

多边形是破碎的,线断开,文字是乱码,每个字母在PDF是存储在一个单独的文本框,而不是连接字符串…帮助。

一旦你从一个PDF中提取数据,它可能需要修理。FME有几个变压器可以帮助你明智地清理数据。

行为不端的文本从一个PDF。

FME变形金刚:有用:

一个鲨鱼项目

真正的鲨鱼。请继续关注即将到来的博客俄罗斯,他利用FME提取数据从一个复杂的PDF的鲨鱼迁徙模式,其他的例子之一。

(研讨会)报名参加我们的研讨会在9月5日去看住PDF阅读演示

你需要从一个PDF中提取数据吗?请让我们知道教程/模板你需要什么以及我们如何可以改善FME PDF阅读功能。

了解更多:查看这些教程FME知识中心。

关于数据 数据转换 数据提取 数据转换 Fme 2018 PDF

蒂安娜华纳

蒂安娜是资深营销专家安全软件。亚搏在线她的背景在计算机编程和创造性的爱好,使她成为一个创造性的内容安全软件的主要生产商。亚搏在线蒂安娜她空闲时间写幻想小说,骑着马,和探索自然和她营救小狗,乔伊。

评论

留下一个回复

相关的帖子