你好,朋友!进展如何?都是不正常的嘘声?2019年有一个全新的FME,非常棒,如果你“老了你的”骨头,我会告诉你。

嗯,这是一篇博客文章的独特开场白!我通常的风格很正式,而且(我希望)更清晰。但我想从更自然的语言开始,因为今天我要介绍自然语言处理(NLP);FME2019中出现的新功能。

自然语言处理是一种计算机学习人类自然语言的技术。从技术上讲,自然语言是任何经过进化的正常语言。不一定是俚语。但并不是每个人都以正式的方式写作,所以通常你想处理包含不寻常短语的文本。

NLP甚至可以使用计算机生成类似人类的语音!但今天我想展示它的一个特殊方面:根据前面的示例挖掘信息并对其进行分类的能力。

让我们看看如何……

FME自然语言处理:场景

为了测试FME的新功能,我需要一个信息源——在NLP中它被称为语料库–幸运的是我找到了一个以产品评审的形式。每个评审都与一个标签相匹配,以定义是正面评审还是负面评审:

__非常失望!这太糟糕了!好书:写得好。

所以标签1表示负面评价,标签2表示正面评价。我可以用它来让FME了解是什么让一篇评论是正面的还是负面的,然后给它提供未标记的评论,让它为我分类。这通常被称为情绪分析...

FME自然语言处理:变形金刚

FME2019有两个新的变压器:NLPTrainerNLPClassifier. NLPTrainer是我提供给标签评论的内容,从中构建模型。NLPClassizer收到新的评论,并将其与评论模型进行比较,将其分为正面或负面。

由于这是一个全新的测试版功能,而且博客上的文字可能比预期的更持久,我想我应该用视频演示一下:

我忘了提到几个项目。首先,变压器的输出还包括一个摘要功能,包含有关准确性和使用的关键字的信息。

第二,NLP(大部分)是语言不可知论的。它假设一个类似英语的句子结构,但在其他语言中存储的数据上也能很好地工作。我确实认为你必须用你要测试的同一种语言进行训练!

最后,您不能添加到模型中。您可以使用新培训覆盖它,但不能添加到其中。因此,您可能会保留原始语料库,添加到其中,并在必要时重新创建模型。

无论如何,希望这段视频能帮助你理解我在说什么(双关语)。但是,尽管NLP很有趣,FME用户会用它做什么呢?

FME自然语言处理:示例

我总是喜欢举几个例子来说明新技术的用途。有时候我的想法和想法不会有什么结果,我也不会提出来。今天我将提到这些,以帮助你远离我认为的死胡同。

数据分类与质量保证

分类嗯……很明显。这是上面的视频已经显示的内容。我认为这是FME中最有可能的用法。

一种方法是对天气预报进行分类。例如,我想知道我是否可以训练一个模型在什么条件下闪电会发生。然后,我通过NLPClassifier运行新的预报,看看今天的条件是否有利于闪电的发生(那时我可以发出警告)。我看到了很多可能性。

这也让我想知道NLP是否可以支持数据QA。起初我想到了地址数据库。如果我训练NLP区分好地址和坏地址,它是否有助于发现未来发生的问题?可能会;但地址是非常结构化的,而且——据我所知——NLP都是关于非结构化的人类语言。所以尽管我还没有试过,我相信最好还是使用标准的转换器(Tester、AttributeValidator)来对结构化数据进行质量保证,并在输入是书面语句时使用NLP。

利用自然语言处理技术对数据进行分类和QA,可以提高输入的质量,从而提高输出的相关性。但是如果NLP分析输出……

商业智能产品亚搏在线娱乐平台

您是否想过使用FME创建BI产品?你不会是第一个!事实上,之前的一篇博文中提到了亚搏在线娱乐平台一位合作伙伴(赛尔德)这样做:

setd、FME与大数据的四大Vs:打造商业智能“产品”亚搏在线娱乐平台

那篇文章中的一个关键句子说数据是经过评估的“对照单词值查找表(由setld维护),对前100条新闻进行排名”。

我不会声称了解他们的全部方法,但对我来说,他们维护的查找表等同于FME现在可以构建的NLP模型。虽然它可能不是1:1的替换,但这些新的转换器可能能够自动化一些查找表的维护。

基本上,从NLP输出制作产品是一种真正的可能性。但它也可以帮助内部流程…

营销

安全软件亚搏在线营销团队必须有触发器来报告新的FME相关内容。但是谷歌快讯-据我所知-只是关键字搜索:

是的……对不起,谷歌,但这不是正确的FME。当然,这是可以理解的,因为他们的警报没有按照我们的需要进行培训。但是为什么我们的营销团队不应该创建一个NLP模型,并通过NLP分类器运行未来的警报,以筛选出我们不感兴趣的FME?如果你在一家有mar的公司工作凯廷队,你也可以这样做来帮助他们。

到目前为止,我所提到的NLP示例都是非空间的。那么我们是否可以将地理整合到NLP中……

空间NLP

假设您正在绘制有关自然灾害的推特警报。NLP可以在将推特信息添加到地图之前评估推特的相关性。例如,我想经过适当培训的模型可以区分“救命!我的房子在开着!”“哎呀!我的老板要“我!”基本上,在数据进入地图之前,你需要添加一层过滤,通过教你的计算机评估tweet中“fire”一词的上下文。

有趣的是,正如本文提及–您还可以分析语言以获得有关位置的提示。例如,给出推特:“龙卷风在斯普林菲尔德!科顿伍德河以北”,NLP可以将“斯普林菲尔德”和“科顿伍德河”识别为地名(我相信称为命名实体识别).

当然,美国有很多斯普林菲尔德,但是一个训练有素的模型甚至可以通过参考科顿伍德河来判断它是哪个斯普林菲尔德。

但是为什么NLP呢?为什么不是人类的诠释呢?因为我们说的是自动化系统。是的,人类可以解释这些信息,但不是大规模的,不是速度的,也不是自动的。但是有了NLP, FME服务器可以!

我真正想知道的是空间数据本身是否可以用作输入!例如,如果我使用坐标系标记的点特征训练NLP模型,我能让NLP分类器识别未标记数据的坐标系吗?!可能不会。这同样是结构化数据,而且我认为NLP只适用于文字,而不适用于数字。但有时让想象失控是很有趣的!

FME自然语言处理:综述

这是FME2019中即将推出的自然语言处理功能的粗略指南。

一般来说,我们可以说,许多FME的使用获取原始数据,并从中获得有用的信息;无论是转换格式,重组数据,还是过滤内容。当你以这种方式看待FME时,它其实就是商业智能。甚至空间数据和映射也是为了将正确的信息提供给正确的人,以便做出更好的业务决策。

NLP可以在这方面提供很大帮助。

到目前为止,我还不知道NLP模型采用的结构是什么,或者变压器的一些参数是做什么的;所以你应该把我的建议当成一般的想法,而不是明确的规则。

我希望我给了你们一个基本的理解,之后你们会发现实验更容易。

顺便提一下,如果你看了视频的最后,你对FME包文件有什么看法?很酷,不是吗?这将是FME如何交付和更新的巨大发展。我认为它实际上可能是2019年计划的所有更新中影响最大的。

我不知道NLP是否完全投入最新测试版,因为它是如何包装的,但如果你想尝试一下,请联系。如果您有任何一般性问题,同样适用。正如我们在书中可能会说的那样东米德兰我的鸭子!

关于FME Fme 2019 FME传教士 机器学习 自然语言处理 自然语言处理 NLPClassifier NLPTrainer

马克爱尔兰

Mark,又名iMark,是FME的传道者(est. 2004),对FME培训充满热情。他喜欢以新颖有趣的方式帮助人们理解和使用技术。他的另一个爱好是足球。足球)。他非常喜欢科技和足球,还一起写了一篇关于这两者的文章!谁会想到呢?(答案:iMark)

评论

5对“FME 2019偷窥:机器学习和自然语言处理”的回应

  1. 三岛隆志 说:

    听起来太棒了。我想知道FME 2019中的NLP是国际化的还是只支持英语。

    • 马克爱尔兰 说:

      我被告知它应该适用于任何语言——尽管我还没有测试过它。我认为最大的挑战将是识别单个单词。英语很简单,因为它在单词之间有一个空格,但我相信很多语言都不这么做。对日语来说,先把内容音译可能会有帮助。这只是一个猜测,但我不确定它对非拉丁字符的效果如何。
      祝你好运!如果你尝试这个,请告诉我们它是如何工作的。

  2. 基姆 说:

    What’s coming in 2012? You must be showing your age!
    我被吸引到NLP来从人们为地址标签输入的所有垃圾中解析出地址。它看起来很有希望使用正则表达式。也许如果我加载正确的地址数据库,它将从(无用的)交付指令和冗余的委员会名称中拉出地址?

    • 马克爱尔兰 说:

      是的,我有点进步了。但至少当我坐在椅子上运球时,某个地方的计算机将能够使用NLP来理解我在说什么!至于地址,我不确定。是的,它可能能够从交付说明中获得一些信息;但另一方面,地址通常是结构化的,NLP更适合于非结构化内容。但别让我打扰你。我很想看看你能用这个做些什么(这将是一个伟大的世界巡回演出)!

  3. FME的新功能,是人工智能和机器学习的真正前沿。NLP使用计算机处理和分析大量的人类自然语言数据,无论语言或标准化水平。阅读Mark Ireland精彩的博客文章,了解新功能及其对FME用户的潜在用途。[...]

给…留一个回复匿名的取消答复

您的电子邮件地址将不会被公布。已标记必填字段

相关的帖子