安全软件亚搏在线博客
作者:
爱尔兰马克

谷歌
获取博客新闻稿

交付通过饲料燃烧器

关于FMEγ12月13日,二千零一十八γ爱尔兰马克

FME 2019偷窥:机器学习和自然语言处理

哦,阿米戈斯!怎么样?所有的滴答声?2019年有了一个新的FME,非常出色,如果你老了,我会告诉你的。

好吧,这是博客文章的独特开场白!我通常的风格很正式,而且(我希望)更清晰。但我想从更自然的语言开始,因为今天我将介绍自然语言处理(NLP);新功能将在FM2019中出现。

自然语言处理是一种计算机学习自然人类语言的技术。技术上,自然语言是任何进化出来的正常语言。这不一定是俚语。但不是每个人都以正式的方式写作,因此,您经常希望处理包含异常短语的文本。

NLP甚至可以让一台计算机产生类似人类的语言!但今天,我想展示它的一个特殊方面:挖掘信息并对其进行分类的能力,基于前面的例子。

让我们看看……

自然语言处理:场景

为了测试FME的新功能,我需要一个信息源——在NLP中,它被称为语料库幸运的是我找到了一个以产品评审的形式。每个评论都与一个标签匹配,以定义它是正面评论还是负面评论:

_ label_uuu 1非常失望!这太糟糕了!_标签:好书:写得好。

所以标签1表示负面评论,标签2表示正面评论。我可以用它让FME了解是什么让一个评价是积极的还是消极的,然后给它提供未标记的评论,让它为我分类。这经常被称为情绪分析

自然语言处理:变压器

FM2019有两个新的变压器:神经网络训练器以及NLP-分类器.nlptrainer是我提供的标签评论,从中建立模型。NLPClassifier得到了新的评论,并将它们与它的审查模型进行比较,将它们分类为正的或负的。

因为这是全新的,测试版功能,因为写在博客上的文字比预期的更持久,我想我会用视频来演示:

我忘了提一些东西。首先,变压器的输出还包括一个概要特性,关于准确度和关键词的信息。

其次,NLP主要是语言不可知论者。它采用类似英语的句子结构,但在其他语言中存储的数据上也能发挥同样的作用。我想你必须用你要测试的语言来进行培训!

最后,不能添加到模型中。你可以用新的训练覆盖它,但不加在上面。所以你可能会保留原始语料库,再加上,必要时重新创建模型。

不管怎样,希望这段视频能帮助你理解我在说什么(双关语的意思)。但是尽管NLP很有趣,FME用户会用它做什么?

自然语言处理:示例

我总是喜欢举几个例子说明新技术的用途。有时候我的思想和想法毫无头绪,我没有提到他们。今天我要提到这些,帮助你摆脱我认为的死路一条。

数据分类和质量保证

分类?嗯……显然。这就是上面的视频已经显示的内容。我认为这是FME中最可能使用的方法。

一个想法是获取天气预报并对其进行分类。例如,我想知道我是否可以训练一个模型,看看闪电会在什么情况下发生。然后我通过NLPClassifier运行新的预测,看看今天的情况是否有利于闪电的发生(此时我可以发出警告)。我在那里看到了很多可能性。

这也让我怀疑NLP是否能够支持数据质量保证。一开始我想了一个地址数据库。如果我训练NLP的区别是好地址和坏地址,当未来的问题发生时,它是否有助于解决这些问题?它可能;但是地址是非常结构化的,据我所知,NLP完全是非结构化的,人类语言所以尽管我没试过,我认为最好还是坚持使用标准变压器(测试仪,attributevalidator)用于质量保证结构化数据,当输入是句子时使用nlp。

通过自然语言处理对数据进行分类和质量保证,通过提高输入的质量来提高输出的相关性。但是如果NLP分析输出…

商业智能产品亚搏在线娱乐平台

您有没有想过用FME创建BI产品?亚搏在线娱乐平台你不是第一个!事实上,之前的一篇博客文章中提到了一位合作伙伴(塞特尔)这样做:

塞特尔FME和大数据的4个V:构建商业智能“产品”亚搏在线娱乐平台

那篇文章的一个关键句子说数据是经过评估的“对照单词值查找表(由setld维护),以排名前100条新闻”。

我不会声称知道他们的全部方法,但对我来说,他们维护的查阅表格相当于FME现在可以建立的NLP模型。虽然它可能不是1:1的替代品,这些新的变压器可能能够自动进行一些查找表维护。

基本上,从NLP输出中生成产品是一种真正的可能性。但它也可以帮助内部流程…

营销

SAFE亚搏在线软件营销团队必须具备报告新FME相关内容的触发器。但是谷歌快讯据我所知,只是关键词搜索:

是的…对不起谷歌,但这不是正确的FME。当然,这是可以理解的,因为他们的警报没有针对我们的需要进行培训。但是我们的营销团队为什么不创建一个NLP模型,并通过NLPClassifier运行未来的警报呢?过滤掉那些我们不感兴趣的FME?如果你在一家有营销团队的公司工作,你也可以这样做来帮助他们。

到目前为止,我提到的NLP示例都是非空间的。那么,我们能把地理因素纳入自然资源规划吗?

空间自然语言处理

假设你在推特上发布自然灾害警报。NLP可以评估tweet的相关性,在将其信息添加到地图之前。例如,我想一个受过适当训练的模特能分辨出“帮助”和“帮助”之间的区别。我的房子在火灾“还有“伊克斯!”我老板要去火灾我!”基本上,在数据到达地图之前添加一层过滤,通过教你的电脑评估tweet中“fire”一词的上下文。

有趣的是-作为本文注意-您还可以分析语言以获取有关位置的提示。例如,推特上写道:“斯普林菲尔德的龙卷风!在Cottonwood河以北的“NLP”可以识别出“Springfield”和“Cottonwood River”作为地名(我相信这是命名实体识别

当然,美国有很多春田,但是一个训练有素的模型甚至可以通过参照卡顿伍德河来判断它是哪个斯普林菲尔德。

但是为什么NLP呢?为什么不是人类的解释?因为我们谈论的是自动化系统。对,人类可以解释这些信息,但不是按比例,不是在速度,而不是自动的。但是使用NLP,FME服务器可以!

我真正想知道的是空间数据本身是否可以用作输入!例如,如果我使用标有坐标系的点特征训练一个NLP模型,我可以让NLPClassifier识别未标记数据的坐标系吗?!大概不会。这也是结构化数据,另外,我认为NLP只适用于单词,不是数字。但有时让想象变得狂野是很有趣的!

自然语言处理:总结

因此,这是对即将在FM2019中出现的自然语言处理功能的粗略指导。

一般来说,我们可以说,许多FME使用原始数据,并从中获得有用的信息;无论是翻译格式,重组数据,或者过滤内容。当你这样看FME时,实际上,这都是关于商业智能的。即使是空间数据和地图,也要把正确的信息传达给正确的人,为了做出更好的商业决策。

NLP可以帮上大忙。

到目前为止,我对NLP模型所采用的结构知之甚少,或者一些变压器参数的作用;所以你应该把我的建议当作一般性的想法,而不是明确的规则。

我希望我给你的是一个基本的理解,之后你会发现实验更容易。

顺便说一下,如果你一直看到最后,你觉得FME包文件怎么样?很酷,嗯?这将是如何传递和更新FME的一个巨大的发展。我认为这可能是2019年所有更新计划的最大影响。

我不知道NLP是否已经完全投入最新测试版,因为它的包装,但如果你想试试看,然后联系。如果您有任何一般性问题,同样适用。就像我们在东米德兰Bungem Ovva耳朵我鸭!