HTMLExtractor
典型用途
- 从网页中提取内容
它是如何工作的?
该HTMLExtractor可以定义多个查询对传入的HTML内容,这可以作为一个属性或为文件提供运行。由一个输出的查询属性名,一个CSS选择器,它定义什么类型的标签来提取,提取整标记,值或HTML属性的选择。
您既可以只提取第一个匹配的标签,或保持多个结果作为列表属性。
该HTMLExtractor更适合HTML比XML变压器或正则表达式搜索,内容由于更宽松的解析和过滤器,可以承受对页面内容的细微变化。
在工作空间中的这一部分,所有的web页面上的链接的将被提取并作为一个列表属性输出。
一个HTTPCaller检索网页的内容,使用GET方法。该页面的内容保存为HTML在_response_body属性。
在HTMLExtractor,相同的属性被设置为HTML源,和一个查询被构造,找到所有链路(CSS选择=(href)),提取仅链接本身(标记部分/ HTML属性=href),并存储在一个名为新属性链接。
回归格式设置为列表属性,因此所有的比赛将包括在内。
输出将类似于此:
链接{0}= ' https://www.example.com/page1.html '
链接{1}= ' https://www.example.com/page2.html '
链接{2}= ' https://www.example.com/page3.html '
在工作空间中,这部分HTTPCaller使用GET方法来检索网页的内容并把它们存储在属性_response_body。
在HTMLExtractor,查询被构造为找到ID为“文章” div标签(CSS选择器=div#文章)。该标签中的内容将被提取(标记部分/ HTML属性=价值),并输出到新的属性articleText。
设置为第一场比赛的返回值,遇到的第一个匹配div标签的内容将作为一个普通的(非列表)属性的输出。
使用注意事项
- 标准的CSS选择器来创建查询。他们的名单可以在这里找到:CSS选择器参考
组态
输入端口
该变压器接受任何功能。
输出端口
含提取查询结果中的属性特点..
参数
HTML输入 | 源的类型。选择包括:
|
HTML内容 | 如果将HTML输入设置为Content,则可以在HTML Content字段中直接指定HTML内容,或者将其设置为属性的值。 |
HTML文件 | 如果将HTML输入设置为File,则可以指定输入HTML文件的路径。 |
目标属性 | 保存查询结果的属性的名称。 |
CSS选择器 | 在HTML文档或内容中指定标记或标记集的CSS选择器。 选择器列表可在以下网址找到: |
标签/ HTML属性的一部分 | 可以将此参数设置为
或者,可以输入HTML属性名(如“href”或“alt”)。这将导致从标记中提取属性。 |
返回格式 |
如果这个设置为第一场比赛,目标属性将只包含找到的与查询匹配的第一个元素。 如果设置为属性列表,目标属性将是列表,并将包含与查询匹配的所有结果。 |
对话框选项
行重新排序 |
一旦您单击了提取查询中的一行,就启用了它。选择包括:
|
编辑变压器参数
使用一组菜单选项,变压器参数可以通过引用在工作区中的其它元件来分配。更先进的功能,如高级编辑,算术编辑,也是一些变压器可用。要进入这些选项的菜单上,单击适用的参数旁边。欲了解更多信息,请参阅变压器参数菜单选项。
定义值
有几种方法来定义一个变压器使用的值。最简单的是简单地输入一个值或字符串,其可包括各种类型,如属性引用,数学和字符串函数,和工作空间参数的函数。有许多的工具和快捷方式,可以帮助构建值,一般可从邻近值字段的下拉上下文菜单。
使用文本编辑器
文本编辑器提供了一个方便的方法来构造从各种数据源,如属性,参数和常量,其中该结果被直接使用的参数中的文本字符串(包括正则表达式)。
使用算术编辑器
算术编辑器提供了一个方便的方法来构造从各种数据源,如属性,参数和特征函数,其中结果被直接使用的参数内的数学表达式。
条件值
设定值依赖于一个或多个测试条件,要么通过或失败。
内容
表达式和字符串可以包含许多函数、字符、参数等—无论是直接输入参数还是使用某个编辑器构造。
参考
处理行为 |
|
功能持有 |
没有 |
依赖关系 | 没有一个 |
FME授权级别 | FME专业版及以上 |
别名 | |
历史 | 发布:FME 2017.0 |
类别 |
FME知识中心
在FME知识中心是演示,入门指南,文章,FAQ,以及更多的地方。解答您的问题,向其他用户学习,并建议,投票,和新功能发表评论。
搜索有关HTMLExtractor所有结果在FME知识中心。