你在这里: 亚搏在线工作流程 > HTMLExtractor

HTMLExtractor

提取结构从网页或被格式化为人类可读性(屏幕抓取)其它HTML源的数据,使用CSS选择提取HTML内容的一部分为特征的属性。

跳转到配置

典型用途

  • 从网页中提取内容

它是如何工作的?

该HTMLExtractor可以定义多个查询对传入的HTML内容,这可以作为一个属性或为文件提供运行。由一个输出的查询属性名,一个CSS选择器,它定义什么类型的标签来提取,提取整标记,值或HTML属性的选择。

您既可以只提取第一个匹配的标签,或保持多个结果作为列表属性

该HTMLExtractor更适合HTML比XML变压器或正则表达式搜索,内容由于更宽松的解析和过滤器,可以承受对页面内容的细微变化。

使用注意事项

  • 标准的CSS选择器来创建查询。他们的名单可以在这里找到:CSS选择器参考

组态

输入端口

输出端口

参数

对话框选项

编辑变压器参数

使用一组菜单选项,变压器参数可以通过引用在工作区中的其它元件来分配。更先进的功能,如高级编辑,算术编辑,也是一些变压器可用。要进入这些选项的菜单上,单击适用的参数旁边。欲了解更多信息,请参阅变压器参数菜单选项

定义值

有几种方法来定义一个变压器使用的值。最简单的是简单地输入一个值或字符串,其可包括各种类型,如属性引用,数学和字符串函数,和工作空间参数的函数。有许多的工具和快捷方式,可以帮助构建值,一般可从邻近值字段的下拉上下文菜单。

参考

处理行为

基于特征

功能持有

没有

依赖关系 没有一个
FME授权级别 FME专业版及以上
别名
历史 发布:FME 2017.0
类别

集成

字符串

卷筒纸

亚搏在线工作流程

FME知识中心

在FME知识中心是演示,入门指南,文章,FAQ,以及更多的地方。解答您的问题,向其他用户学习,并建议,投票,和新功能发表评论。

搜索有关HTMLExtractor所有结果在FME知识中心。