HTMLExtractor

提取结构从网页或其他HTML源被格式化为人类可读性(屏幕抓取)数据,使用CSS选择的HTML内容的提取部分成特征的属性。

跳转到配置

典型用途

  • 从网页中提取内容

它是如何工作的?

该HTMLExtractor可以定义多个查询对传入的HTML内容,这可以作为一个属性或为文件提供运行。查询是由一个输出属性的名称,一个CSS选择器,它定义什么类型的标记物,并提取整个标签,值的选择,或HTML属性。

您既可以只提取第一个匹配的标签,或保持多个结果作为列表属性

该HTMLExtractor更适合HTML内容比XML变压器或正则表达式搜索,由于更宽松的解析和过滤器,可以承受小的改动页面内容。

使用注意事项

  • 标准的CSS选择器来创建查询。他们的名单可以在这里找到:CSS选择器参考

组态

输入端口

输出端口

参数

对话框选项

编辑变压器参数

使用一组菜单选项,变压器参数可以通过引用在工作区中的其它元件来分配。更先进的功能,如高级编辑,算术编辑,也是一些变压器可用。要访问这些选项的菜单,点击适用的参数旁边。欲了解更多信息,请参阅变压器参数菜单选项

定义值

有几种方法来定义一个变压器使用的值。最简单的是简单地在一个值或字符串,其可包括各种类型,如属性引用,数学和字符串函数,和工作空间参数的函数类型。有许多的工具和快捷方式,可以帮助构建值,一般可从邻近值字段的下拉上下文菜单。

参考

加工行为

基于特征的

特点控股

没有

依赖 没有
FME许可级别 FME基础版及以上
别名
历史 发行时间:FME 2017.0
分类

集成

字符串

卷筒纸

亚搏在线工作流程

FME社亚搏国际在线官网区

该FME社区是为亚搏国际在线官网演示,入门指南,文章,FAQ,以及更多的地方。解答您的问题,向其他用户学习,并建议,投票,并在新的功能注释。

搜索有关HTMLExtractor所有结果在FME社区。亚搏国际在线官网

实例可以包含开放政府许可协议进行许可信息 - 温哥华