文本分析和含义101

我们经常出现的问题之一Helpdesk是如何应用文本分析功能含义库德提供特定方案。

用户知道他们想将文本分析纳入其流程中,但不确定如何将其业务需求转化为可以集成到管道中的东西。

如果您补充说,每个提供商为他们提供的产品都有不同的名称来执行特定的文本分析任务,那么不仅要开始使用,而且甚至确切地知道您的场景所需的内容bob体育开户。

荷马·辛普森(Homer-Simpson)

在这篇文章中,我们将解释我们使用的不同产品的目的,它们与之绑定的NLP(自然语言处理)任务,所提供的附加价值以及所bob体育开户满足的要求。

[[该帖子于2018年10月上次更新,以包括我们的新功能。这是给予的

主题提取

主题提取是含义Cloud的产品,用于“从非结构化和/或半结构化机器可读文档中自动提取结构化信息”[1]。换句话说,主题提取从文本集合中提取特定的信息,从人的名字到位置或金额数量。

有多种方法可以参考此任务,例如命名实体识别源自其最受欢迎的子任务。但是,目标是相同的:从文本中提取结构化信息。

让我们看一下以下文本,取自《纽约时报》的文章

官方:西蒙妮·比尔斯(Simone Biles)是世界上最好的体操运动员

里约热内卢(Rio de Janeiro) - 西蒙妮·比尔斯(Simone Biles),在参加奥运会之前,已经被认为是世界上最伟大的女体操运动员,他在周四强调她的地位,通过在里约热内卢运动会上赢得了女子个人的全能金牌。

19岁的Biles穿着明星和条纹的紧身连衣裤,加入了Mary Lou Retton,Carly Patterson,Nastia Liukin和Gabby Douglas,成为美国全能的获胜者。

22岁的美国艾莉·赖斯曼(Aly Raisman)赢得了俄罗斯的银牌和21岁的阿里亚·穆斯蒂芬(Aliya Mustafina)赢得了铜牌。

在这一事件中,胜利带来了利润丰厚的认可和广泛的崇拜,这是一个由体育艺术的黄金时段展示所推动的。在4英尺9英寸处,尺寸为5英尺,是年轻观众可以与之联系的人。然后她的表现,她的能力是无法想象的。

她的上升突然是那些只有四年的体操的人。在2012年伦敦的去年夏季奥运会上,道格拉斯(Douglas)是秀场。毕业士从得克萨斯州到达这里,并为里约奥运会带来了年龄的表演。无论您是从Aardvark中知道AMANAR,您都不会看她,不是因为结果是有疑问的,而是目睹没有平等的东西。

因此,当我们使用我们的信息提取信息时,该文本看起来如何主题提取API
demo_meaningcloud_infoextraction

起初,似乎只是找到出现在文本中的名称的问题,但还有更多。有很多方法可以考虑您需要考虑的同一个人,昵称和名称的变体。例如,在本文中,“ Simone Biles”的概念出现了五次,两次带有她的全名,而三个仅使用她的姓氏。

但是,名称或命名实体(通常称为它们)并不是我们唯一要提取的东西。在文本中,我们还可以看到数量,日期和关键字。根据您正在处理的情况,您需要提取不同类型的结构化信息。

有时,识别文本中的所有命名实体已经足够了。对于这些情况,实体具有关联的类型,因此您可以选择仅提取位置,人员,组织等。您可以检查我们在我们的发现中检测到的所有不同类型本体论

demo_meaningcloud_entitytypes

您还可以通过我们的相应类型来定义自己的条目定制引擎。通过使用用户词典您将能够使用自己的本体论提取特定于域的实体/概念。

这些是一些场景主题提取可以应用:

  • 新闻文章或博客文章和语义出版的自动标签建议
  • 根据提及的流行分析
  • 关键数据实体提取

文本分类/深度分类

bob平台 bob娱乐 是含义的产品bob体育开户文档分类或者文档分类,这是“将文档分配给一个或多个类或类别”的任务[2]。在这种情况下,我们没有从文本中提取一些内容,而是分析它并确定应将其分类为哪些可用类别/类别。

该任务假设我们事先有许多类别,并且我们知道确定文本是否应分类为任何一个标准。在《含义》中,我们将这些类别及其标准的定义称为分类模型或者深度分类模型

那么,为什么要实施相同功bob体育开户能的两个产品呢?简短的答案是性能和精度。漫长的答案是,根据我们正在处理的情况,我们需要定义类别的标准可能会大不相同。

具有非常不同类别的分类法不需要非常依赖语言的标准,因此它们受益于具有统计组件和标准定义中可用的语言功能较少的分类引擎。这两个功能对性能产生了很大的影响,为非常大的分类法提供了很好的结果。这就是您可以做的文本分类API

另一方面,在某些情况下,能够定义最详细的语言功能是正确分类文本的关键。对于这些情况,我们需要访问我们的形态句法分析提供的所有信息,这正是您可以处理的深度分类API。以例如客户的声音或者员工的声音诸如客户/员工使用的动词时的详细信息可以改变他们在说的话。

我们的文本分类API提供了几种通用预定义的模型,例如IAB(广告行业的标准)或IPTC(对新闻进行分类的国际标准)。这深度分类API提供最新版本的IAB标准(IAB 2.0)以及几种模型bob体育电竞 员工的声音

回到我们之前使用的示例,在右图的图像中,我们可以看到我们的文本如何通过我们提到的文本分类的两个预定义模型进行分类。

文档分类/分类使我们有一个了解根据特定标准的文字是什么。这可能适用于文章,推文或您从客户那里获得的反馈。

demo_meaningcloud_classification

在某些情况下,此通用标准可能不符合您的需求,因此对于这些情况,您可以通过使用我们的分类模型来定义自己的分类模型定制引擎

这些是一些场景文本分类/深层分类可以应用:

  • 新闻文章或博客文章的自动标签建议。
  • 根据不同的标准对用户反馈的完整表征(视觉排序)。

情感分析

bob电子体育竞技 是意义上的产品情感分析或者意见采矿,这是“在原始材料中识别和提取主观信息”的任务[3]。情感分析中最基本的任务之一是对文档,句子或功能/方面级别上给定文本的极性进行分类。

我们的情感分析API结合了我们的核心引擎进行的完整形态句法分析以及情感信息,这使我们能够在各个层面提取情感分析。

我们可以获得文本的全球极性,或者我们可以更深入地看到,看到构成文本的每个句子中表达的极性。

demo_meaningcloud_globalsentiment

在右边,我们可以看到我们以前用作示例的文本获得的全局分析。我们具有具有信心水平的极性价值,协议/分歧价值,以指示在文本中是否在每个句子/段中检测到的所有极性同意,主观性值和讽刺价值。

含义Cloud还提供了将此分析与主题提取功能,允许您获得与实体和文本中的概念相关的极性。这通常称为方面级别的情感分析

在右边,我们看到了一些检测到的实体。在图像中,用正极性检测到的实体以绿色显示(赢得奖牌的运动员),而没有极性的运动员则显示在空白行中。

demo_meaningcloud_aspectlevelsentiment

就像我们提到的其他产品一样,情绪分析可以bob体育开户通过我们的定制引擎,均与术语以及在方面层面进行分析的实体和概念相关的情感。

这些是一些场景情感分析可以应用:

  • 客户满意度分析
  • 受欢迎程度分析
  • 顾客的声音

其他产品bob体育开户

文本聚类

文本聚类提供群集分析,即“以某种方式分组一组对象的任务,即同一组中的对象(称为群集)在彼此中(在某种意义上)比其他组中的对象(在某种意义上)更相似(在某种意义上)(群集)(群集)透明[4]

在这种情况下,所讨论的对象是文本,所提供的不同类型的分析可以帮助我们发现它们中的模式,以视觉上排序数据或学习有关它的新信息,并将其用作其他类型的分析的反馈。文本群集的可能用途是将其应用于我们正在使用的文本中文本分类为了确定新类别以添加到我们的模型中。

在右边,我们可以看到,如果我们分析了与同一文章中接下来的两个段落一起用作示例的文本,我们将获得的结果。这三个文本分为两个不同的群集:“ Rio Games”和“表演”,它们非常适合其整体主题。

demo_meaningcloud_clusters

语言标识

语言标识是“确定给定内容的自然语言”的意义库德产品[5]。尽管通常被认为是一项辅助任务,但同样重要。

前面提到的任何分析都需要了解要分析的内容的语言。如果您使用一种语言工作,这不是问题,但是如今,诸如Twitter之类的多语言场景越来越普遍,因此拥有API来执行此任务非常有用。

柠檬水,POS和解析

狐猴,POS(语音的一部分)和解析提供文本的完整形态句法分析:

  • 狐猴-“将单词的不同变化形式分组在一起,以便将它们分析为单个项目”的任务”[6]
  • POS标签或者语法标签- “标记文本中的单词(语料库)为对应语音的特定部分”的任务”[7]
  • 解析或者句法分析- “用自然语言或计算机语言分析一串符号的任务,符合形式语法的规则”[8]

右边是从示例文本中的句子之一获得的形态句法树。

正如您可能从图像中猜测的那样,这条形式的树也与主题提取情感分析

情感 - 分析词法

这提供了一种非常强大的API,您可以将情感分析与形态,句法和语义信息相结合。输出非常复杂,但为后处理提供了无数的可能性,包括模式提取。

摘要

摘要是含义Cloud的产品,用于“缩短文本文档[…],以创建用原始文档的主要点创建摘要”[9]

这项任务是NLP的经典作品之一,是重大复杂性和极为有用的应用程序之一。有两种主要方法:挖掘抽象。在第一个中,摘要​​专门从文本的内容(例如,选择出现在其中或某些句子中的关键字)时提取,而抽象性摘要从头开始创建摘要。

我们的API提取摘要API请求中定义的句子数量。如果我们使用摘要测试控制台要输入我们在整个帖子中一直使用的文本并将句子的数量设置为2,这就是获得的结果:

里约热内卢(Rio de Janeiro) - 西蒙妮·比尔斯(Simone Biles),在参加奥运会之前,已经被认为是世界上最伟大的女体操运动员,他在周四强调她的地位,通过在里约热内卢运动会上赢得了女子个人的全能金牌。毕业士从得克萨斯州到达这里,并为里约奥运会带来了年龄的表演。

文档结构分析

文档结构分析是含义Cloud的产品,用于分析文档的结构,其中包括网页或任何具有标准标记语言的文本。这项任务是对处理大型文档的需求而声名狼藉的。处理此类文档总是昂贵的,因此对于您只对零件感兴趣的情况,拥有一个很有用先验他们的内容的想法知道要关注哪里。

公司声誉

公司声誉不是经典的NLP任务,而是重点关注特定应用程序的几个任务的组合。“社会实体(一个人,社会群体,组织bob体育平台二维码)的声誉是对该实体的看法,通常是社会评估对一组标准的结果”[10]

通过组合主题提取,,,,情感分析文本分类,我们能够根据文本中提到的组织相关的情感声誉模型

这是我们的主要功能的一个小摘要,可以通过我们的蜜蜂或使用我们的任何集成- 包括我们的Excel加载项 - 如果您不喜欢编码。如果您看不到它们如何应用于您的方案或对此有任何疑问,只是给我们放一条线我们很乐意为您提供帮助。


2个关于”的想法文本分析和含义101透明

我是一名研究学者,并与旅游博客合作。我需要在旅游博客上进行情感分析,并找到与目的地某些功能有关的情感。您能告诉我如何使用您的产品进行研究吗?


发表评论

您的电子邮件地址不会被公开。必需的地方已做标记*

*
*