你在这里: 2017年新格式+ > HTML表格阅读器

HTML表格阅读器

许可选项对于这种格式,从FME专业版开始。

HTML表阅读器为FME提供了从HTML文档中读取表和列表数据的能力。

概述

HTML(超文本标记语言)在Internet上用于格式化文档以在Web浏览器中显示。虽然主要目的不是为了机器的可读性而存储数据,表和列表元素通常包含有用的数据。虽然HTML是基于XML的,它与严格的XML分析不兼容。更复杂的是,由于Web浏览器使用的解析方法比较宽泛,一个HTML文档不需要完全遵循HTML规范就可以合理地显示。

HTML表阅读器列出所有表和列表(UL)HTML文档中的元素,并允许您选择要读取的表或列表。请注意,表和列表的功能类型名称是根据表名来自读卡器参数。

如果读取包含标题的HTML表,则属性名称由表标题确定。对于列表,或者没有标题行的表,将生成属性名。没有标题行的HTML表将具有属性COL1通过科恩,当列包含行标题时,但没有列标题将被命名罗杰丁1通过罗斯威丁,在哪里?n在这两种情况下都是列数。表和列表中的属性类型都是通过扫描数据行来确定的。

在读取和HTML表时,为表的每一行生成特性。对于输出列表内容的每个HTML列表,将为其生成一个单独的特性,该特性称为HTML目录.

HTML文件扩展名

按照惯例,HTML文件具有扩展名HTMHTML.然而,Web URL通常没有文件扩展名,或者反映用于生成HTML输出的源脚本,如phpASP.

请注意,如果对URL的请求返回有效的HTML,则生成HTML页的URL是有效的数据集。从磁盘读取时,HTML表阅读器允许任何文件扩展名。

读者概览

HTML表阅读器解析文档中的功能。

模式扫描

由于HTML表中的值没有关联的架构,FME扫描表以确定每个属性的合理数据类型。对于列表,或者没有标题行的表,将生成通用属性名。

工作台读卡器数据集

读卡器数据集的值是指向HTML文档的路径或URL。