你好朋友!进展得怎样?如吗?2019年有一个非常棒的新FME,如果你“老了”,我会告诉你的。

好吧,这是一个独特的博客文章的开头!我通常的风格很正式,而且(我希望)更简洁。但我想从更自然的语言开始,因为今天我要讲的是自然语言处理(NLP);新功能将在FME2019。

NLP是一种计算机学习人类自然语言的技术。从技术上讲,自然语言是任何经过进化的正常语言。不一定是俚语。但并不是每个人都以正式的方式写作,所以通常你想处理包含不寻常短语的文本。

NLP甚至可以使用计算机生成类似人类的语音!但今天我想展示它的一个特殊方面:根据前面的示例挖掘信息并对其进行分类的能力。

让我们看看如何……

FME自然语言处理:场景

为了测试FME的新功能,我需要一个信息源——在NLP中它被称为语料库–幸运的是我发现一个以产品评论的形式。每个评论都与一个标签相匹配,以定义它是积极的还是消极的评论:

__非常失望!这太糟糕了!好书:写得好。

标签1表示负面评价,标签2表示正面评价。我可以利用这一点让FME了解什么是正面的评论,什么是负面的评论,然后给它提供未标记的评论,让它为我分类。这是通常被称为情绪分析...

FME自然语言处理:变形金刚

FME2019有两个新的变压器:NLPTrainerNLPClassifier.NLPTrainer是我提供的带有标签的评论,从中构建模型。NLPClassifier得到新的评论,并将它们与它的评论模型进行比较,以将它们分类为正面或负面。

由于这是一个全新的测试版功能,而且博客上的文字可能比预期的更持久,我想我应该用视频演示一下:

我忘了提到几个项目。首先,变压器的输出还包括一个摘要功能,包含有关准确性和使用的关键字的信息。

第二,NLP(大部分)是语言不可知论的。它假设一个类似英语的句子结构,但在其他语言中存储的数据上也能很好地工作。我确实认为你必须用你要测试的同一种语言进行训练!

最后,您不能添加到模型中。您可以用新的训练覆盖它,但不能添加到它。因此,您可能会保留原始的语料库,在此基础上添加内容,并在必要时重新创建模型。

无论如何,希望这段视频能帮助你理解我在说什么(双关语)。但是,尽管NLP很有趣,FME用户会用它做什么呢?

FME自然语言处理:示例

我总是喜欢举几个例子来说明新技术的用途。有时候我的想法和想法不会有什么结果,我也不会提出来。今天我将提到这些,以帮助你远离我认为的死胡同。

数据分类与质量保证

分类?嗯…很明显。这就是上面的视频所展示的。我认为这是FME最有可能的用途。

一种方法是对天气预报进行分类。例如,我想知道我是否可以训练一个模型在什么条件下闪电会发生。然后,我通过NLPClassifier运行新的预报,看看今天的条件是否有利于闪电的发生(那时我可以发出警告)。我看到了很多可能性。

这也让我想知道NLP是否可以支持数据QA。起初我想到了地址数据库。如果我训练NLP区分好地址和坏地址,它是否有助于发现未来发生的问题?可能会;但地址是非常结构化的,而且——据我所知——NLP都是关于非结构化的人类语言。所以尽管我还没有试过,我相信最好还是使用标准的转换器(Tester、AttributeValidator)来对结构化数据进行质量保证,并在输入是书面语句时使用NLP。

利用自然语言处理技术对数据进行分类和QA,可以提高输入的质量,从而提高输出的相关性。但是如果NLP分析输出……

商业智能产品亚搏在线娱乐平台

你有没有想过用FME来创造BI产品?亚搏在线娱乐平台你不是第一个!事实上,之前的一篇博客文章提到了一个合作伙伴(赛尔德)这样做:

setd、FME与大数据的四大Vs:打造商业智能“产品”亚搏在线娱乐平台

那篇文章的一个关键句子说,数据是评估的“对照单词值查找表(由setld维护),对前100条新闻进行排名”。

我不会声称了解他们的全部方法,但对我来说,他们维护的查找表等同于FME现在可以构建的NLP模型。虽然它可能不是1:1的替换,但这些新的转换器可能能够自动化一些查找表的维护。

基本上,从NLP输出制作产品是一种真正的可能性。但它也可以帮助内部流程…

营销

安全软件亚搏在线营销团队必须有触发器来报告新的fme相关内容。但谷歌快讯-据我所知-只是关键字搜索:

是的……对不起,谷歌,但这不是正确的FME。当然,这是可以理解的,因为他们的警报没有按照我们的需要进行培训。但是为什么我们的营销团队不应该创建一个NLP模型,并通过NLP分类器运行未来的警报,以筛选出我们不感兴趣的FME?如果你在一家有mar的公司工作凯廷队,你也可以这样做来帮助他们。

到目前为止,我所提到的NLP示例都是非空间的。那么我们是否可以将地理整合到NLP中……

空间NLP

假设您正在绘制有关自然灾害的推特警报。NLP可以在将推特信息添加到地图之前评估推特的相关性。例如,我想经过适当培训的模型可以区分“救命!我的房子在开着!”“哎呀!我的老板要“我!”基本上,在数据进入地图之前,你需要添加一层过滤,通过教你的计算机评估tweet中“fire”一词的上下文。

有趣的是,这篇文章提及–您还可以分析语言以获得有关位置的提示。例如,给出推特:“龙卷风在斯普林菲尔德!科顿伍德河以北”,NLP可以将“斯普林菲尔德”和“科顿伍德河”识别为地名(我相信称为命名实体识别).

当然,在美国有很多斯普林菲尔德,但一个训练有素的模型甚至可以通过参考卡顿伍德河来判断它是哪一个斯普林菲尔德。

但是为什么NLP呢?为什么不是人类的诠释呢?因为我们说的是自动化系统。是的,人类可以解释这些信息,但不是大规模的,不是速度的,也不是自动的。但是有了NLP, FME服务器可以!

我真正想知道的是空间数据本身是否可以用作输入!例如,如果我使用带有坐标系统标记的点特征来训练一个NLP模型,我能让NLPClassifier来识别未标记数据的坐标系统吗?!可能不会。这也是结构化数据,而且我认为NLP只适用于文字,而不是数字。但有时让想象力尽情发挥也很有趣!

FME自然语言处理:综述

以上就是对FME2019中即将到来的自然语言处理功能的粗略指导。

一般来说,我们可以说,许多FME的使用获取原始数据,并从中获得有用的信息;无论是转换格式,重组数据,还是过滤内容。当你以这种方式看待FME时,它其实就是商业智能。甚至空间数据和映射也是为了将正确的信息提供给正确的人,以便做出更好的业务决策。

NLP可以在这方面提供很大帮助。

到目前为止,我还不知道NLP模型采用的结构是什么,或者变压器的一些参数是做什么的;所以你应该把我的建议当成一般的想法,而不是明确的规则。

我希望我给了你们一个基本的理解,之后你们会发现实验更容易。

顺便提一下,如果你看了视频的最后,你对FME包文件有什么看法?很酷,不是吗?这将是FME如何交付和更新的巨大发展。我认为它实际上可能是2019年计划的所有更新中影响最大的。

我不知道NLP是否完全投入最新的测试但如果你想试用一下,可以联系我。如果你有任何一般性的问题,也同样适用。我们可能会说东米德兰兹喂,鸭子!

关于FME Fme 2019 FME传教士 机器学习 自然语言处理 NLP NLPClassifier NLPTrainer

马克爱尔兰

Mark,又名iMark,是FME的传道者(est. 2004),对FME培训充满热情。他喜欢以新颖有趣的方式帮助人们理解和使用技术。他的另一个爱好是足球。足球)。他非常喜欢科技和足球,还一起写了一篇关于这两者的文章!谁会想到呢?(答案:iMark)

评论

5对“FME 2019偷窥:机器学习和自然语言处理”的回应

  1. 三岛隆志 说:

    听起来太棒了。我想知道FME 2019中的NLP是国际化的还是只支持英语。

    • 马克爱尔兰 说:

      我被告知它应该适用于任何语言——尽管我还没有测试过它。我认为最大的挑战将是识别单个单词。英语很简单,因为单词之间有空格,但我相信很多语言都没有空格。对于日语来说,首先翻译内容可能会有所帮助。这只是一个猜测,但我不确定它对非拉丁字符是否有效。
      祝你好运!如果你尝试这个,请告诉我们它是如何工作的。

  2. 基姆 说:

    What’s coming in 2012? You must be showing your age!
    我被吸引到NLP来从人们为地址标签输入的所有垃圾中解析出地址。它看起来很有希望使用正则表达式。也许如果我加载正确的地址数据库,它将从(无用的)交付指令和冗余的委员会名称中拉出地址?

    • 马克爱尔兰 说:

      是的,我有点进步了。但至少当我坐在椅子上运球时,某个地方的电脑将能够使用NLP来理解我在说什么!至于地址,我不确定。是的,它可能会从发货说明中得到一些信息;但另一方面,地址通常是结构化的,而NLP更适合非结构化内容。但别因为我耽误了你。我很有兴趣看看你可以用它做什么(它将成为一个伟大的世界巡回演讲)!

  3. FME的新功能,是人工智能和机器学习的真正前沿。NLP使用计算机处理和分析大量的人类自然语言数据,无论语言或标准化水平。阅读Mark Ireland精彩的博客文章,了解新功能及其对FME用户的潜在用途。[...]

给…留一个回复匿名的取消答复

您的电子邮件地址将不会被公布。必填字段已标记

相关的帖子