文本分析和翻译101

我们最常获得的问题之一帮助台是如何应用文本分析功能MeaningCloud提供特定的方案。

用户知道他们想要将文本分析合并到他们的流程中,但不确定如何将他们的业务需求转换为可以集成到他们的管道中的东西。

如果添加每个提供商的事实,每个提供商为他们提供的产品有不同的名称来执行特定的文本分析任务,那么它变得困难不仅仅是开始,而且甚至可以确切地bob体育开户知道您所需要的方案。

荷马 - 辛普森混淆

在这篇文章中,我们将解释我们不同的产品的不同产品,它们所提供的NLP(自然语言处理)任务,它们提供的附加值以及它们bob体育开户完成的要求。

[这篇文章最近于2018年10月最新,以包括我们的新功能。]

主题提取

主题提取是指“从非结构化和/或半结构化机器可读文档中自动提取结构化信息”的产品。[1].换句话说,主题提取从文本的收集提取特定信息,任何人从人们的名称到地点或金额的数量。

有许多方法来引用这个任务,例如命名实体识别派生自其最流行的子任务。然而,目标是相同的:从文本中提取结构化信息。

让我们来看看以下文本,从中获取纽约时报的文章

官方消息:西蒙·拜尔斯是世界上最好的体操运动员

里约热内卢-西蒙·拜尔斯,在参加奥运会之前就已经被认为是世界上最伟大的女子体操运动员,在周四的里约热内卢奥运会上赢得了女子个人全能的金牌,更加坚定了自己的地位。

19岁的拜尔斯身穿星条旗紧身衣,与玛丽·卢·雷顿(Mary Lou Retton)、卡莉·帕特森(Carly Patterson)、娜斯蒂亚·柳金(Nastia Liukin)和加比·道格拉斯(Gabby Douglas)一起成为美国全能冠军。

美国Aly Raisman,22岁赢得了银牌,俄罗斯的Aliya Mustafina赢得了青铜。

这一活动中的胜利带来了利润丰厚的认可和广泛的崇拜,这是一个受球运动艺术性展示的受欢迎程度博纳扎。在4英尺9英寸,尺寸为5英尺,百档是年轻观众可以与之相关的人。然后她表演,她的能力是难以想象的。

对于那些只学了四年体操的人来说,她的崛起是突然的。在2012年伦敦夏季奥运会上,道格拉斯成为了全场瞩目的焦点。拜尔斯从德克萨斯来到这里,为里约热内卢运动会献上了精彩的表演。无论你能否分辨出阿玛纳和土豚,你观察她并不是因为结果有疑问,而是为了见证一些无与伦比的东西。

那么,当我们用主题提取API.
demo_meaningcloud_infoextraction

起初,它似乎只是找到文本中出现的名称的问题,但它有一点才能。有很多方法可以引用他们名称所需的同一个人,昵称和变体。例如,在本文中,“Simone Biles”的概念出现五次,两个有她的全名,只使用她的姓氏。

但名称或命名的实体,因为它们通常被称为不是我们可能想要提取的唯一事情。在文本中,我们还可以看到数量,日期和关键字。根据您正在处理的方案,您需要提取不同类型的结构化信息。

有时,识别文本中的所有命名实体都足够了。对于这些实例,实体有一个类型的相关,所以您可以选择仅提取仅限位置,人员,组织等。您可以检查我们在我们中检测到的所有不同类型本体论

demo_meaningcloud_entitytypes.

您还可以通过我们的相应类型定义自己的条目定制引擎.通过使用用户词典您将能够使用自己的本体提取特定于您的领域的实体/概念。

这些是一些场景主题提取可以应用:

  • 新闻文章或博客帖子和语义出版的自动标签建议
  • 普及分析根据提到
  • 关键数据实体提取

文本分类/深度分类

文本分类深的分类是有意的产品bob体育开户文档分类文件分类,它的任务是“将文档分配给一个或多个类或类别”。[2].在这种情况下,我们不是从文本中提取内容,我们分析它并确定它应该分类为哪些可用的类别/类别。

这项任务假设我们预先定义了一些类别,并且我们知道决定文本是否应该被归入其中的标准。在《意义云》中,我们将这两个类别及其标准的定义称为分类模型深度分类模型

那么,为什么两个产品实现bob体育开户相同的功能?短暂的答案是性能和精确度.很长的答案是,根据我们正在处理的场景,我们需要定义的标准可能会非常不同。

具有非常不同类别的分类法不需要非常依赖于语言的标准,因此它们受益于分类引擎,该分类引擎具有统计组件和较少的标准定义中可用的语言特性。这两个特性对性能有很大的影响,为大型分类法提供了很好的结果。这就是你能做的文本分类API.

另一方面,在某些情况下,能够定义最详细的语言特征是正确分类文本的关键。对于这些实例,我们需要访问从形态句法分析中提供的所有信息,这正是您可以使用的深分类API.举个例子客户的声音员工的声音客户/员工使用的动词时态等细节可能会改变他们所说的话。

我们的文本分类API.提供几个通用的预定义模型,例如IAB.(来自广告业的标准)或IPTC.新闻分类的国际标准。的深分类API提供IAB标准的最新版本(IAB 2.0.)以及几个模型bob体育电竞 员工的声音

回到之前我们使用的示例,在右侧的图像中,我们可以看到我们的文本是如何由我们提到文本分类所提到的两个预定义模型的分类。

文档分类/分类给我们一个想法根据具体的标准,一篇文章是关于什么的.这可能适用于一篇文章,一条tweet或你从客户那里获得的反馈。

demo_meaningcloud_classification.

在某些情况下,这个通用标准可能不适合您的需求,因此在这些情况下,您可以通过使用我们的定制引擎

这些是一些场景文本分类/深的分类可以应用:

  • 新闻文章或博客帖子的自动标签建议。
  • 根据不同的标准对用户反馈进行完整的描述(视觉排序)。

情绪分析

bob电子体育竞技 是有意的产品情绪分析意见挖掘,即“识别并提取原始资料中的主观信息”。[3].情绪分析中最基本的任务之一是对文档,句子或特征/方面级别的给定文本的极性进行分类。

我们的情绪分析API结合了我们的核心引擎与情感信息进行的完整的形态学分析,使我们能够在每个级别提取情绪分析。

我们可以得到文本的整体极性,或者我们可以深入研究,看到构成文本的每一个句子所表达的极性。

demo_meaningcloud_globalsentiment

在右侧,我们可以看到我们以前使用的文本获得的全局分析。我们具有置信水平,协议/分歧值的极性值,以指示在文本内的所有句子/段/段在文本中检测到的所有极性,主观性值和讽刺意味。

Mangcloud还提供了将此分析结合的可能性主题提取功能,允许您获得与本体相关的极性和文本中的概念。这通常被称为aspect-level情绪分析

在右侧,我们看到检测到的一些实体。在图像中,用正极性检测到的实体以绿色 - 赢得奖牌的运动员 - 而没有极性的运动员在空白行中示出。

demo_meaningcloud_aspectlevelsentiment

就像我们提到的其他产品一样,情绪分析可以bob体育开户通过我们的定制引擎,包括与术语相关的情感,以及要在aspect层面上分析的实体和概念。

这些是一些场景情绪分析可以应用:

  • 客户满意度分析
  • 受欢迎程度分析
  • 《顾客的声音》

其他产品bob体育开户

文本群集

文本群集提供群集分析,“以这样的方式分组一组对象的任务,即同一组中的对象(称为群集)更相似(在某种意义上或另一个)上,而不是对其他组(集群)的那些“[4]

在这种情况下,所讨论的对象是文本,所提供的不同类型的分析可以帮助我们发现其中的模式,无论是可视化地对数据进行排序,还是学习有关数据的新信息,并将其作为其他类型分析的反馈。文本聚类的一个可能用途是将其应用于我们正在分类使用的文本文本分类为了识别新类别以添加到我们的模型。

在右侧,我们可以看到我们将获得的结果,如果我们分析了我们用作同一文章中的接下来的两个段落的示例的文本。这三个文本被分成了两个不同的集群:“里约热报游戏”和“执行”,这很好地符合他们的整体主题。

demo_meaningcloud_clusters

语言识别

语言识别是意义云的产品,用于“确定给定内容属于哪种自然语言”。[5].虽然它通常被认为是一项辅助任务,但它的重要性丝毫不减。

任何前面提到的分析都需要知道语言的内容来分析。如果您使用的是一种语言,这不是问题,但现在,多语言场景(如Twitter)越来越普遍,因此有一个API来执行这个任务是非常有用的。

义元化、词性和句法分析

词元化、词性(词性)和句法分析提供对文本的完整形态学分析:

  • 词元化-“把一个单词的不同屈折变化形式组合在一起,以便把它们作为一个单项进行分析”的任务。[6]
  • 词类语法标记- “在文本(语料库)中标记一个单词的任务,与特定部分的语音相对应”[7]
  • 解析语法分析- “分析一串符号,以自然语言或计算机语言分析,符合正式语法的规则”[8]

在右边,是形态句法树取自范例文本中的一个句子。

正如您可能从图像中猜到的那样,这种形态学树也与之相结合主题提取情绪分析

情绪分析 - 形态学

这提供了一个极其强大的API,在那里您可以使用形态,语法和语义信息来结合情感分析。输出非常复杂,但它为后处理提供了多种可能性,包括模式提取。

摘要

摘要是“缩短文本文档[......]的产品,以便创建与原始文件的主要观点的摘要”[9]

此任务是NLP的经典之一,一个重要的复杂性和非常有用的应用程序。有两种主要方法:抽取抽象.在第一种方法中,摘要只从文本的内容中提取(例如,选择出现在其中的关键字或其中的一些句子),而抽象摘要从头开始创建摘要。

我们的API提取摘要使用API​​请求中定义的句子数量。如果我们使用总结测试控制台要输入在整个帖子中使用的文本并将句子的数量设置为2,这是获得的结果:

里约热内卢-西蒙·拜尔斯,在参加奥运会之前就已经被认为是世界上最伟大的女子体操运动员,在周四的里约热内卢奥运会上赢得了女子个人全能的金牌,更加坚定了自己的地位。拜尔斯从德克萨斯来到这里,为里约热内卢运动会献上了精彩的表演。

文档结构分析

文档结构分析是指分析文档结构的产品,包括网页或任何带有标准标记语言的文本。这个任务因为需要处理大型文档而臭名昭著。处理这些类型的文档总是非常昂贵的,所以对于那些只对部件感兴趣的场景,有一个先天的他们的内容的想法,了解要关注的地方。

企业声誉

企业声誉不是典型的NLP任务,而是针对特定应用程序的多个任务的组合。一个社会实体(一个人、一个社会团体bob体育平台二维码、一个组织)的声誉是对该实体的一种看法,通常是根据一套标准进行社会评价的结果。[10]

通过结合主题提取情绪分析文本分类,我们能够根据a中定义的不同类别来分析与文中提到的组织相关的情绪声誉模型

这是我们主要能力的小摘要,可以通过我们使用api或者使用我们的集成-包括我们的Excel外接程序,如果你不喜欢编码。如果你看不出它们如何适用于你的场景或者对此有任何疑问,就写封信给我们我们会很乐意提供帮助。


对“”的两种思考文本分析和翻译101

我是研究学者,与旅游博客合作。我需要对旅游博客进行感伤分析,并找到与目的地某些功能相关的情绪。您能告诉我如何将产品用于我的研究?


留下一个回复

您的电子邮件地址将不会被公布。必需的地方已做标记*

*
*