如何使用XQuery表达式在FME中查询XML数据

条款通过迪纳塔夫亚搏在线· 2015年10月8日下午7:15· 编辑· 2016年7月4日晚上10:05

使用FME桌面2010创建的文章

下载

XQuery示例

介绍

随着越来越多的基于XML的数据源和Web服务响应用户的XML流，我们中的许多人开始感觉到需要一种工具，允许以简单灵活的方式从XML中提取数据。和往常一样，我们的团队对这一需求反应非常迅速，这就是为什么FME 2009被授权函数-一种用于查询XML数据集合的语言。XML的XQuery类似于数据库的SQL。

在这里，我将举几个例子来说明如何使用XQuery，并展示它的强大功能和方便性。无论如何，我不是XQuery专家，我的示例也不会假装是语言文档或手册的替代品，我只想分享我对FME和XQuery这一新的强大组合的积极印象。我将给出元素和属性提取、FLWOR（代表for-LET-WHERE-ORDER BY-RETURN-类似于SQL中的SELECT-FROM-WHERE）查询、简单条件（IF-THEN-ELSE）和连接表达式的示例。

查询XML的旧方法

在继续查询之前，让我们先看看从XML中提取数据的老式方法（这里我们讨论的是一个任意的XML，其中我们没有通过xfMAP将XML元素映射到FME特性）。在FME 2008和之前，任何通过web服务（例如，作为HTTPFetcherresponse）到达的XML数据都必须使用StringSearcher进行搜索。所需的元素将被放入一个list属性中，然后必须对其进行索引和重命名。因此，对于每个元素，您至少需要三个变压器：

StringSearcher中的正则表达式可能非常复杂：

（[A-Z]+[0-9]+[A-Z]+）

而且，也不是很可靠。例如，同一个元素的多次出现将很难跟踪。StringSearcher不区分不同的XML部分，因此它根本不是解析此类数据的好工具。

新方法

FME 2009有一组丰富的用于处理XML数据的转换器：XMLFeatureMapper、XSLTProcessor、XQueryExploder、XQueryExtractor和XQueryUpdater。

通常，我会用一些真实的例子来说明新功能是如何实现的。这一次，我使用的是Google地理编码API，也就是反向地理编码操作，当给定一个pari坐标（一个点特征）时，它返回最接近该点的地址。

我使用Google Earth在安全建筑上放置了亚搏在线一个点，用一个CoordinateFetcher获取了它的坐标，创建了一个URL，并用am HTTPFetcher将其提交给Google地理编码服务：

http://maps.google.com/maps/geo？ll=49.137，-122.857。。。
您可能想在这里获得自己的Google API密钥- http://code.google.com/api/maps/signup.html。

我将XML指定为输出格式（可选的是CSV、JSON和KML，它们本质上与XML相同，但具有不同的MIME类型）。以下是返回的XML的摘录：

               
               
                
                 
                  49.138000,-122.857000
                 
                 
                  200
                  
                   项目点
                  
                 
                 
                  加拿大，萨里，公元前7455 132号
                  
                   
                    
                     加利福尼亚州
                    
                    
                     加拿大
                    
                    
                     
                      公元前
                     
                     
                      
                       萨里
                      
                      
                       
                        7455 132
                       
                      
                      
                       
                        V3W
                       
                      
                     
                    
                   
                  
                  
                   
                    -122.8566950,49.1378180,0
                   
                  
                 
                 
                  ...........

正如您可能注意到的标签相当复杂。XML的这一部分实际上是 xAL（可扩展地址语言），为地址设计的一种特殊语言。在XML世界中，每当您必须学习一种新语言时，您也会发现另外两种或三种语言，这是很正常的。在本练习中，我了解了XQuery，它基于 XPath语言语法和，除了xAL，还有 xNL（可扩展名称语言）.对我来说意味着四种新的语言。

变压器接口

XQueryExtractor转换器的“参数”对话框（我主要使用这个）看起来相当可怕：

不过，这并不是那么糟糕——七个参数只指定在哪里查找数据以及如何查询数据，其余参数都有默认值。

还有一个XQUERY表达式窗口，我们可以在其中键入查询：

查询结果转到“中指定的属性”结果属性“参数。

简单的xquery

简单的XQuery表达式也是有效的XPath表达式。XPath语言是一种在XML文档中导航的语言。松散地说，XML部分的路径与我们在操作系统中习惯的路径类似。例如，指向

标记如下：
/kml/Response/Placemark/address但是，在这个查询处理我们的示例之前，我们还需要做一件事。顶部节点<kml公司>包含属性xmlns=“http://earth.google.com/kml/2.0“.此属性定义命名空间，使元素和属性具有唯一性。由于名称空间出现在顶部元素中，我们必须声明它并使用它来指定所有元素（除非引入了另一个名称空间），所以我们的查询应该如下所示(见附件simpleQueries.fmw):

（：Query#1:）声明命名空间x=“http://earth.google.com/kml/2.0”；/x:kml/x:Response/x:Placemark/x:address

请注意，笑脸（：：）用于注释。

双斜杠“/”表示查询应该向下查看整个树，而不一定是在指定的级别，因此查询可以简单一些：
（：Query#2:）声明命名空间x=“http://earth.google.com/kml/2.0";

//x:地址

以上两个查询都将为我们提供原始XML的以下结果：

http://earth.google.com/kml/2.0“>7455”target=“\u blank”>http://earth.google.com/kml/2.0“>http://earth.google.com/kml/2.0”>7455 132 St，Surrey，BC，Canada

此XML中有另一个命名空间定义在的水平。此命名空间指定xAL的唯一名称。如果我们对XML的这一部分进行查询，我们应该声明两个名称空间并在适当的级别使用它们:
(: Query #3:)声明名称空间x=" http://earth.google.com/kml/2.0”;declare namespace y="urn:oasis:names:tc:ciq:xsdschema:xAL:2.0";

/x:kml/x:Response/x:Placemark/y:AddressDetails/y:Country/y:CountryName

或者，如果不使用第二个名称空间上方的元素：
（：Query#4:）声明命名空间y=“urn:oasis:names:tc:ciq:xsdschema:xAL:2.0”；

//y:国家名称

以上两个问题都将给出以下结果：
加拿大当然，XQuery（和XPath）比简单的路径表达式强大得多，它们有一组丰富的函数来帮助提取和转换数据。

例如，我们通常不需要XML标记，而是希望获得标记的内容。用string（）函数扩展后修改的查询#1如下所示：

（：Query#5:）声明命名空间x=“http://earth.google.com/kml/2.0”；字符串（/x:kml/x:Response/x:Placemark/x:address）

结果是：

加拿大，萨里，公元前7455 132号

下面是一些其他函数示例，演示如何提取坐标。此查询将在标签。这将返回地理编码点的X坐标：

(:查询#6:)声明名称空间x=“http://earth.google.com/kml/2.0”;substring-before (string (/ / x:坐标)、“,”)

为了得到Y坐标，我们必须将内容转换成一个序列，并删除它的第一个和最后一个元素：

(:查询#7:)声明名称空间x=“http://earth.google.com/kml/2.0”;删除(删除(标记(字符串(/ / x:坐标),","),3),1)

可以找到一个很好的XQuery函数参考在这里.

FLWOR表达式

前一节中的工作区使用了从谷歌接收的原始数据中的一小部分XML。如果我们对整个XML文件运行上面显示的其中一个查询会怎么样?(看到FLWOR。fmw workspace声明名称空间x=" "http://earth.google.com/kml/2.0";

数据(/ / x:地址)

转换器将返回以下字符串（我将“return Value”参数设置为“Separated Values”，并使用“|”作为分隔符；手动添加换行符以提高可见性）：

7455 132 St, Surrey, BC, Canada|British Columbia V3W 1J8, Canada| Surrey, BC, Canada| Surrey, BC, Canada| Greater Vancouver Regional District, British Columbia, Canada|British Columbia, Canada| Canada| North America

之所以会出现这种情况，是因为Google API返回多个不同精度级别的点——从大陆和国家级别（最低）到地址或前提级别（最高）。想象一下，我们需要对我们地理编码的每个点尽可能高的精度。为此，我们必须扫描整个XML文件并找到元素中的“ 精度属性比其他< AddressDetails>.这是我们需要用到的情况 FLWOR表达式。同样，FLWOR代表五个子句—for, LET, WHERE, ORDER BY, and RETURN。

下面是一个例子:

(:查询#9:)声明名称空间x=“http://earth.google.com/kml/2.0”;声明名称空间y = " urn: oasis:名字:tc:出入境检验检疫局:xsdschema: xAL: 2.0”;对于$n in //x:Placemark let $maxAcc:= max(//y:AddressDetails/number(@Accuracy))，其中$n/ y:AddressDetails/number(@Accuracy) = $maxAcc返回数据($n/x:address)

浏览所有节点。LET将最高精度赋给$maxAcc变量。在哪里只取节点处电流的精度 (在 node)等于$maxAcc。RETURN返回结果:

加拿大，萨里，公元前7455 132号

如果我们需要一定程度的准确性，我们可以这样明确地表示:

（：Query#10:）声明命名空间x=“http://earth.google.com/kml/2.0”；声明名称空间y = " urn: oasis:名字:tc:出入境检验检疫局:xsdschema: xAL: 2.0”;对于//x:Placemark中的$n，其中$n//y:AddressDetails/number（@accurity）=3返回数据（$n/x:address）

结果是:

加拿大不列颠哥伦比亚省大温哥华地区

联接表达式

Join是SQL中最强大的工具之一。函数还允许连接数据。例如，我们希望为用户更好地解释Accuracy属性中的数字的含义。我们需要一个包含准确数字和描述的XML文件。

我直接在XQuery窗口中添加了这样一个查找表，尽管我可以使用一个Concatenator transformerto创建包含两个XML部分的属性。以下是查询:

（：Query#11:）声明命名空间x=“http://earth.google.com/kml/2.0”；
                     
                      {//x:Placemark}
                      
                       
                        未知的位置
                       
                       
                        国家层面的
                       
                       
                        区域(州、省、州等
                       
                       
                        分区(县、市等)级
                       
                       
                        镇(市、村)级
                       
                       
                        邮政编码(邮编)级别
                       
                       
                        街道上
                       
                       
                        十字路口水平
                       
                       
                        地址水平
                       
                       
                        房屋(建筑名称、物业名称、购物中心等)层

注意，我添加了外部< dml公司>标签，这样我们就得到了一个XML文档。这里的< dml公司>表示Dmitri的标记语言:-)

现在我们可以连接两个XML部分—< 地名标注>和< 精确定位>.同样，这应该是一个FLWOR表达式。FOR子句表示我们正在扫描< AddressDetails以及AddressAccuracy元素，并在其中查找匹配属性精度.因此，我们要求将地址和精度描述串联起来:

（：Query#12:）声明命名空间x=“http://earth.google.com/kml/2.0”；声明名称空间y = " urn: oasis:名字:tc:出入境检验检疫局:xsdschema: xAL: 2.0”;对于$addr in//x:Placemark，$accr in//addressaccurity，其中$addr//@accurity=$accr/@accurity return concat（data（$addr/x:address），“（accurity:，data（$accr），”）

结果如下(手动添加换行符，星号作为分隔符):

加拿大不列颠哥伦比亚省萨里市大街7455 132号（准确度：地址级别）*不列颠哥伦比亚省V3W 1J8号（准确度：邮政编码（邮政编码）级别）*加拿大不列颠哥伦比亚省V3W 4M7号（准确度：邮政编码（邮政编码）级别）*加拿大不列颠哥伦比亚省萨里市（准确度：邮政编码（邮政编码）级别）*加拿大不列颠哥伦比亚省萨里市（准确度：镇（市、村）级别）*大温哥华地区加拿大不列颠哥伦比亚特区（精度：分区（县、市等）级）*加拿大不列颠哥伦比亚省（精度：地区（州、省、州等）级）*加拿大（精度：国家级）*北美（精度：未知位置）

条件

XQuery还支持传统的IF-THEN-ELSE表达式。让我们再看一下源XML。有些精度较低的Placemark节点没有邮政编码元素:

…
                     
                      加拿大不列颠哥伦比亚省
                      
                       
                        
                         加利福尼亚州
                        
                        
                         加拿大
                        
                        
                         
                          公元前
                         
                        
                       
                      …

我们可能需要找到这样的placemark并给我们的用户一个通知(参见 如果.fmw工作区。我将简单地对那些没有邮政编码的节点使用“n/a”。

（：Query#13:）声明命名空间y=“urn:oasis:names:tc:ciq:xsdschema:xAL:2.0”；对于$pc in//y:AddressDetails返回if（not（$pc//y:PostalCodeNumber））then（“n/a”）else（data（$pc//y:PostalCodeNumber））

同样，这里有一个FLWOR表达式，其中RETURN子句包含一个条件，该条件指定如果没有PostalCodeNumber元素，则返回“n/a”，否则使用该元素的值。结果如下(星号用作分隔符):

V3W*V3W 1J8*V3W 4M7*V3W*n/a*n/a*n/a*n/a*n/a*n/a*n/a

演示工作区

反转编码

上面显示的大多数表达式都是在反向地理编码工作区中使用的。该工作区以FFS格式存储三个点，构造一个URL，从谷歌获取一个XML，提取几个属性，包括地址、邮政编码和精确度，并放置地理编码的点。

有一个步骤还没有解释。我使用xquery爆裂器为每个Placemark节点获得单独的特性，并且具有最高的准确性。其中一个源点给出两个placemark。结果，三个源点产生了四个地理编码点。在爆炸使用的查询很简单:

declare namespace x=“http://earth.google.com/kml/2.0”；//x:地点标记

这意味着transformer将从每个Placemark元素中创建一个单独的特性（在上一步之后，我们只有四个元素）。

注：谷歌给我们的地址（7455132 St，Surrey）并不完全是安全软件所在的大楼。亚搏在线我们真正的楼号是7445。最初我认为这是不好的，但后来我决定保持原样-就像警告说反向地理编码可能不太可靠-不要使用它来满足您的邮件需求。

我希望这个页面能够帮助您了解FME和XQuery的结合能力有多强大，并且您会发现它在您的数据转换中非常有用。

HTML创建和用户定义函数

这个演示演示了如何从XML文件中提取所有必要的数据，并将其转换成格式良好的HTML，只需要一个XQuery转换器。

这是我们的源XML，取自 Earth Tools Web服务示例:http://www.w3.org/2001/XMLSchema-instance " xsi: noNamespaceSchemaLocation = " http://www.earthtools.org/sun.xsd“> 1.0 49 -123 11 -8 1 09:08:58 07:50:26 07:11:11:50 17:23:31 18:41:25 19:20:02
我们可以使用查询直接编写任何标记。在这种情况下，XQuery表达式应该放在大括号{}：








声明函数local:twillights（$twl）{

{local:twillights（//civil）}{local:twillights（//nautical）}{local:twillights（//astrogical）}


                     
                      08:30:58分
                     
                     
                      18点53分
                     



xquery2html_kml.fmwt（：Query#14:）声明函数local:twillights（$twl）{
{让$m:=数据（//month）返回if（$m=“1”），然后是“一月”else if（$m=“2”），然后是“二月”else if（$m=“3”），然后是“三月”else if（$m=“4”），然后是“四月”else if（$m=“5”），然后是“五月”else if（$m=“6”），然后是“六月”else if（$m=“7”），然后是“七月”else if（$m=“8”），然后是“八月”else if（$m=“9”），然后是“九月”else if（$m=“10”），然后“十月”else if（$m=“11”）那么“十一月”else“十二月”}，{data（//day）}
at{let$lat:=number（//latitude）返回if（$lat<0），然后返回concat（abs（$lat），“deg S”）else concat（$lat，“deg N”）}，{let$lng:=number（//longitude）返回if（$lng<0），然后返回concat（abs（$lng），“deg W”）else concat（$lng，“deg”）}
时区：{data（//timezone）}（{let$dst:=number（//dst）返回if（$dst=1），然后返回“dst”else“”}）
                     此代码将生成HTML的有效部分，可在任何浏览器中查看。在这里，我放置生成的代码而不做任何修改，它是根据所有HTML规则呈现的，而不是XQuery表达式，我们得到实际值：日升日落09:08:20 17:23:31现在，因为我们有三种不同类型的暮光之城，我们可能会得到很多类似的代码:
                       结构总是相同的，值是不同的。我们可以在XQuery中定义函数吗?是的,我们可以:
                       };函数调用如下:请注意，我们有两个元素称为民用，航海和天文-为上午和晚上。这意味着我们发送给函数的是一个序列,。这就是为什么我们必须使用方括号[]来处理它们的原因——通过这种方式，我们提取了原子值。第一个表达式看起来很复杂，但它只是改变了单词中第一个字符的大小写。最后的查询有点长，但实际上它做了很多(使用模板):
                       };
                      
                      
                       
                        日出
                        日落
                       
                       
                        {数据(/ /日出)}
                        {数据(/ /日落)}
                       

                        民事
                        08:30:58分
                        18点53分
                       

                        {concat(大写(substring(名称($ twl[1]), 1, 1)),子串(名字($ twl [1]), 2))}
                        数据($ {twl [1])}
                        数据($ {twl [2])}
                       

                        {concat(大写(substring(名称($ twl[1]), 1, 1)),子串(名字($ twl [1]), 2))}
                        数据($ {twl [1])}
                        数据($ {twl [2])}
                       
                     
                     {local:twillights（//civil）}{local:twillights（//nautical）}{local:twillights（//astrogical）}
                      
                      
                       
                        
                        日出
                        日落
                       
                       
                        
                        {数据(/ /日出)}
                        {数据(/ /日落)}
                       
                       
                        
                        暮色搏斗
                       
                       
                        
                        早....
                        晚上

日出	日落
{数据(/ /日出)}	{数据(/ /日落)}
民事	08:30:58分	18点53分
{concat(大写(substring(名称($ twl[1]), 1, 1)),子串(名字($ twl [1]), 2))}	数据($ {twl [1])}	数据($ {twl [2])}
{concat(大写(substring(名称($ twl[1]), 1, 1)),子串(名字($ twl [1]), 2))}	数据($ {twl [1])}	数据($ {twl [2])}

	日出	日落
	{数据(/ /日出)}	{数据(/ /日落)}
	暮色搏斗
	早....	晚上

我调用了我的结果属性kml_描述_原始_文本.现在，如果我将输出发送到KML，并单击该点，我将得到以下带有HTML的placemark气球：

FME XQuery函数

在FME 2010中，XQuery transformers得到了三个与FME相关的XQuery函数：FME:has属性( )此函数接受一个属性名，如果当前功能具有具有具有给定名称的属性，则返回一个布尔值（true/false）。fme:get属性( (, , )这个函数设置一个特性属性的值。第一个参数必须是包含属性名的字符串。第二个值可以是任何类型，并包含将用于设置属性的值。这个函数总是返回一个空值。
这些函数确实可以简化许多与xml相关的任务。

我们已经看到了一个示例，展示了如何使用XQuery生成HTML代码( 参见上面的HTML创建和用户定义函数)。

这里，我将展示如何在XQuery中使用fme:get-attribute函数。

此示例工作区基于“ 变压器使用统计例如，它扫描指定的路径，查找工作空间，读取它们的内容，并搜索transformer部分:

在这里，我们将工作区的结尾更改为将所有功能的属性累积到一个列表中。之后，我们使用XQuery循环遍历列表元素，并在其中使用新的FME XQuery函数填充HTML表：

--准备包含表头的html（如果要使用此XQuery，请删除注释）
                     $i in (0 to xs:int(fme:get-attribute("_element_count"))-1) -1返回
                       }——完成表格和html
                      
                      
                       
                        排名
                        变压器
                        #变压器
                        %
                       

                        ——添加行号(计数器){$i+1}
                        ——get transformer name {fme:get-attribute("list{"， $i， "}._transformer_name"))}
                        ——获取使用{fme:get-attribute("list{"， string($i)， "}._number_of_transformer ")的变压器数量
                        ——获取变压器使用的百分比从变压器的总数{fme:get-attribute(concat("list{"， string($i)， "}._percentage"))}——循环结束

排名	变压器	#变压器	%
——添加行号(计数器){$i+1}	——get transformer name {fme:get-attribute("list{"， $i， "}._transformer_name"))}	——获取使用{fme:get-attribute("list{"， string($i)， "}._number_of_transformer ")的变压器数量	——获取变压器使用的百分比从变压器的总数{fme:get-attribute(concat("list{"， string($i)， "}._percentage"))}——循环结束

输出是包含HTML代码的属性。

xml格式 xmlxqueryextractor连接器

img1.png格式（3.9千字节）

img2.png格式（35.0千字节）

img3.png格式（21.1千字节）

一个.jpg （62.9千字节）

img4.png格式（131.4千字节）

添加注释

| 4000角色需要左侧字符字符超过

附件:最多可使用10个附件（包括图像），最多4个MB和4个MB。