非结构化内容正在增长。把它变成可操作的见解

人与人之间交流的“天然”原材料不是结构化数据,而是自由格式的文本、图像、音频和视频等非结构化内容。人们普遍认为80%的业务相关信息是非结构化的,主要是文本,而这种非结构化内容的增长速度远远快于结构化数据。

尽管作为有价值的见解来源,开放文本具有巨大的潜力,但它在决策过程中很少被分析或使用,因为手动阅读和提取见解在最好的情况下是乏味的和昂贵的,在最坏的情况下,考虑到信息量巨大,是不可能的。为了克服这一挑战,文本分析技术自动处理和分析文本内容,并提供有价值的见解,将这些“原始”数据转换成结构化的、可用的信息

什么是文本分析?

文本分析,大致相当于文本挖掘,是指自动从文本中提取高价值信息.这种抽取通常涉及对输入文本进行结构化,在结构化文本中发现模式,最后评估和解释结果。机器学习、统计学、计算语言学、数据挖掘和信息检索技术都在这一过程中使用,使文本挖掘成为一个很强的多学科领域。这些技术和过程揭示了知识——事实、观点、关系——否则这些知识将以文本形式隐藏起来,无法被自动处理。为此目的,文本分析工具使用为所分析的语言建模的语言资源(语法、本体、分类法)。

为什么文本分析比以往更重要?

文本分析的重要性
一直以来都有从非结构化内容中提取信息的需求,特别是在最近几年,爆炸性的用户生成内容社会媒bob体育平台二维码体(网络、论坛、社区)极大地增加了这种需求。大量的评论、帖子和产品评论每天都在网上生成。它们可以用来“把握市场或社会的脉搏”,这使得这种资源非常有价值!组织的内部内容和外部互动(通过电子邮件、聊天等)也越来越丰富和有价值。因此,社交媒bob体育平台二维码体和商务信函已经成为采用分析技术的最强大驱动力。此外,市场上一系列可靠、易于使用和集成、价格合理(大多数为SaaS)的技术和产品的可用性也促使它被各种组织采bob体育开户用。

在哪里可以使用它?

文本分析在多个上下文中增加了值,并且几乎每天都发现了新的应用领域。这些是最常见的:
  • 各种组织需要了解他们与之互动的人。在企业中,这被称为客户的声音或客户体验管理。大规模,自动处理调查,联络中心记录和社交媒体评论中包含的非结构化信息提供了360度客户的观点。bob体育平台二维码在公共主管部门(如市议会)和其他政治组织的情况下,这种情况被称为公民的声音或选民的声音
  • 在某种程度上与前面提到的应用程序重叠的一个领域是媒体监测和分析,特别是新的社交媒体,也是传统的,鉴于分析的信息可以由(潜bob体育平台二维码在)客户和记者,分析师和影响者产生。
  • 此外,当我们分析一个组织的内部社区时,我们讨论的是员工的声音面向人才管理的应用程序。
  • 科学研究文本分析用于挖掘大量的文章和其他文档,识别关系,并促进信息检索。
  • 媒体和出版商使用它来充分利用他们的档案,更快地制作高质量的内容,通过个性化的内容吸引观众并通过定向广告和新的商业模式将产品货币化。
  • 在司法和预防犯罪领域,在合规性和ediscovery应用程序,它用于自动处理文件和通信,以便披露可能的刑事行为的线索,例如,内幕交易或欺诈。
  • 卫生、法律等领域的组织利用它自动代码和分析记录以便更好地进行分类、映射和利用。

文本分析的典型任务

文本挖掘过程通常会组合多个任务,其中包括以下内容:
  • 分词标记(或词性标注)包括识别文本的结构,并根据上下文为每个词指定语法类别。
  • 聚类允许您根据相似性将文档分组到集合中,从而发现文档集合中的相关主题和关系。它在探索性应用程序中特别有用,在这些应用程序中,目的是发现没有预定义的、相似或重复的主题。
  • 分类分类,包括将文本分配给预定义分类法中的一个或多个类别,并考虑文本的全局内容。通常,它需要预先配置和训练的分类模型,按照所选的分类法构建。分类是用来确定在整个文本中讨论的主题。
  • 信息提取标识实体(人名、地名、公司和品牌)、抽象概念和其他特定元素:数量、关系等。它用于检测被提及的内容,并识别文本中最有意义的元素。
  • 情绪分析检测文档中包含的极性(正,负,中性或没有极性)。这种极性可以作为主观意见或客观事实的表达。除了在文档级别的全局极性之外,还可以进行更粒度的分析,并确定与同一文档中提到的不同方面或属性相关联的极性。
在意义云,我们提供api来执行所有这些任务

是什么决定了文本分析的质量?

与许多人工智能应用程序一样,文本挖掘并不完美,因为它并不能在所有情况下提供正确的结果。事实上,甚至没有“人类智力”是完美的在理解文本时。对人类分析师的一些实验表明,由于语言的模糊,成功的百分比为90-95%。自动分析的质量基本上由参数提供查全率和查准率,分别表示遗弃性(识别所有相关元素)和正确性(每个已识别的元素是相关的结果)的结果。召回和精确度是对立的,感觉到一种提高精度的技术将减少召回,反之亦然。因此,根据文本分析开发解决方案涉及在召回和精度之间实现最佳的权衡,具体取决于所讨论的场景。
文本分析的质量
当然,文本分析系统的质量取决于所使用的技术和算法。但还有另一个标志着文本挖掘项目最终结果是否合适的关键因素:是否它的工具可以适应问题的领域。这个特性是通过裁剪项目中使用的语言资源(词典、分类模型和情感词典)来实现的。例如,如果我们分析用户评论对酒店在伦敦,我们必须包括的项目,如他们的名字,典型的属性,定义其质量(房间、服务、食品等),与这一事实相关联的极性房间是大或小,模型按主题分类这样的谈话,和更多。为特定领域定制资源使我们能够在精确度和召回率之间达成最佳折衷。MeaningCloud有强大的用于自定义资源的函数这让我们可以很容易地将其功能适应于每个领域。

自动化文本分析的优势

有时,手动处理是文本挖掘的可行选择。然而,当要求体积、速度或可变性增加,自动加工至关重要,因为它导致不可否认的效益:
  • 体积、可伸缩性,当要分析的文本数量增加时,手工处理的规模就不合适:它的单位成本随着数量的增加而增加。在一个非结构化内容数量呈指数级增长的世界里,这是不可接受的。相比之下,自动化工具可以以越来越低的成本处理几乎无限的数量。
  • 均匀性,标准化 -由于语言的模糊性,人力分析师也容易出错。此外,这些错误和应用的标准取决于个人(甚至取决于他/她的情况)产生的难以防止的不一致。虽然自动分析的准确性最初可能较低,但它的偏差是同质的,因此更容易抵消。此外,自动工具总是应用一致的标准和过程,提供更一致的结果。
  • 可用性 -自动工具总是可用的,这使得特定的人在特定的时间出现是不必要的。
  • 低延迟,自动程序的响应时间是毫秒(即使是在高容量的情况下),这使得决策和行动几乎是实时的。
  • 质量- - - - - -通过适当地适应应用环境,自动工具可以实现与人工处理相当的精度和召回率参数。

文本分析与认知计算之间的关系是什么?

认知计算使得可以提供新的问题。它解决了以歧义和不确定性为特征的复杂情况。换句话说,它解决了人类类型的问题。认知计算将人工智能和机器学习算法结合在一起的方法中再现人类大脑的行为.认知计算的承诺之一是提供一种采用自然语言通信的新用户体验。此外,其学习能力非常有趣和有前景。认知计算通过使用新技术将分析扩展到新类型的数据类型。这种类型的数据包括多媒体和非结构化内容;新技术是语言处理和机器学习。这些技术允许我们通过示例而不是编程它们来培训认知系统。文本分析是新认知计算的子集和主要组成部分,将分析范围扩大到以前无法实现的字段,因为它们使用了更传统的技术,例如商业智能或统计数据。

良好的文本分析解决方案应该有哪些功能?

该行业的专家强调了一系列有助于文本挖掘工具的价值和适用性的特征:
  • 完整性:它必须具有广泛的功能,以实现文本分析任务。
  • 可积液:它应该很容易集成到系统、应用程序和当前的用户流程中。这可以通过开放接口、兼容不同语言和系统的sdk和插件来实现。
  • 定制:它应该促进自己的适应应用程序域以优化准确性。
  • 低风险和成本它必须包括经过验证的和真实的技术,它不应该需要大量的投资或承诺,它必须是负担得起的。
这些属性加在一起,就产生了一个短暂的效益:他们允许用户快速获得先前提到的技术所承诺的福利,而无需花在内部开发上的宝贵时间和资源。