HTMLExtractor
典型用途
- 从网页中提取内容
它是如何工作的?
该HTMLExtractor可以定义多个查询对传入的HTML内容,这可以作为一个属性或为文件提供运行。查询是由一个输出属性的名称,一个CSS选择器,它定义什么类型的标记物,并提取整个标签,值的选择,或HTML属性。
您既可以只提取第一个匹配的标签,或保持多个结果作为列表属性。
该HTMLExtractor更适合HTML内容比XML变压器或正则表达式搜索,由于更宽松的解析和过滤器,可以承受小的改动页面内容。
在工作空间中的这一部分,所有的web页面上的链接的将被提取并作为一个列表属性输出。
一个HTTPCaller检索网页的内容,使用GET方法。该页面的内容保存为HTML在_response_body属性。
在HTMLExtractor,相同的属性被设置为HTML源,并且被构造查询以找到所有链接(CSS选择=一个[HREF]),提取仅链接本身(标记部分/ HTML属性=HREF),并存储在一个新的属性称为链接。
回归格式设置为列表属性,因此所有的比赛将包括在内。
输出将类似于此:
链接{0} =“https://www.example.com/page1.html”
链接{1} =“https://www.example.com/page2.html”
链接{2} =“https://www.example.com/page3.html”
在工作空间中,这部分HTTPCaller使用GET方法来检索网页的内容并把它们存储在属性_response_body。
在HTMLExtractor,查询被构造为找到ID为“物品”(CSS选择器= div标签DIV#文章)。该标签中的内容将被提取(标记部分/ HTML属性=值),并输出到新的属性articleText。
随着返回值设置为第一场比赛,遇到的第一个匹配div标签的内容将作为一个普通的(非列表)属性的输出。
使用注意事项
- 标准的CSS选择器来创建查询。他们的名单可以在这里找到:CSS选择器参考
组态
输入端口
该变压器接受任何功能。
输出端口
含提取查询结果中的属性特点..
参数
HTML输入 | 源的类型。选项包括:
|
HTML内容 | 如果HTML输入被设置为内容,HTML内容可以直接在HTML内容字段中指定,或设置为一个属性的值。 |
HTML文件 | 如果HTML输入设置为文件,可以指定输入HTML文件的路径。 |
目标属性 | 将保存查询结果的属性的名称。 |
CSS选择器 | CSS选择器指定的HTML文档或内容标记或一组。 选择的名单,可以发现: |
标签零件/ HTML属性 | 此参数可以设置为
可替代地,一个HTML属性名称(例如,“HREF”或“ALT”)可被输入。这将导致从标签被提取的属性。 |
返回格式 |
如果设置为第一场比赛,目标属性将只包含的第一个元素发现匹配查询。 如果设置为列表属性,目标属性将是列表,并且将包含查询相匹配的所有结果。 |
对话框选项
行重新排序 |
启用一旦你点击在Extract查询一行。选项包括:
|
编辑变压器参数
使用一组菜单选项,变压器参数可以通过引用在工作区中的其它元件来分配。更先进的功能,如高级编辑,算术编辑,也是一些变压器可用。要访问这些选项的菜单,点击适用的参数旁边。欲了解更多信息,请参阅变压器参数菜单选项。
定义值
有几种方法来定义一个变压器使用的值。最简单的是简单地在一个值或字符串,其可包括各种类型,如属性引用,数学和字符串函数,和工作空间参数的函数类型。有许多的工具和快捷方式,可以帮助构建值,一般可从邻近值字段的下拉上下文菜单。
使用文本编辑器
文本编辑器提供了一个方便的方法来构造从各种数据源,如属性,参数和常量,其中该结果被直接使用的参数中的文本字符串(包括正则表达式)。
使用算术编辑器
算术编辑器提供了一个方便的方法来构造从各种数据源,如属性,参数和特征函数,其中结果被直接使用的参数内的数学表达式。
条件值
根据一个或多个测试条件,要么通过或失败的设定值。
内容
表达式和字符串可以包括多个功能,字符,参数,和更多 - 编辑是否直接在参数输入或构造使用一个。
参考
加工行为 |
|
特点控股 |
没有 |
依赖 | 没有 |
FME许可级别 | FME基础版及以上 |
别名 | |
历史 | 发行时间:FME 2017.0 |
分类 |
FME社亚搏国际在线官网区
该FME社区是为亚搏国际在线官网演示,入门指南,文章,FAQ,以及更多的地方。解答您的问题,向其他用户学习,并建议,投票,并在新的功能注释。
搜索有关HTMLExtractor所有结果在FME社区。亚搏国际在线官网
实例可以包含开放政府许可协议进行许可信息 - 温哥华