组类似文本并发现有意义的主题

文本群集API将一组文本划分为几个组 - 在其中的相似性和差异上划分为它们 - 并给出每个代表名称。使用它来检测重复的文本,推荐相关内容,根据其内容组织收集中的文本(而不是外部预定义的类别),并在客户的反馈和所有类型的非结构化交互中发现有意义的主题。

WapeCloud的文本群集API

文本集群API自动检测隐式结构一系列文件,识别它内部最常见的主题并在几个组中安排单个文档(集群)。该分布最大化了同一组元素之间的相似性,同时,同时,不同组之间的差异。此翻译CLOUD API专门从事处理非结构化内容(不像市场上经常出现的那样,结构化数据的集群功能)。它不是通过应用纯粹的文本相似性来对文档进行分组,而是根据文档关于收集中存在的主题的相关性,并自动为每个集群分配一个表示其主要主题的标题或名称。此外,它内部雇佣lemmatization.能够考虑一个术语的所有变体的技术,它可以配置为考虑停止词和其他语言方面。

文本分类和聚类之间的差异

分类或分类文本的分类包括将预定义分类法中的一个或多个类别分配给单个文本。创建分类模型需要使用手动预分类文本来训练一个引擎,或者为每个类别定义一系列规则(即所谓的监督学习)。意义云通过它提供分类功能文本分类的API,提供不同的预定义和标准分类模型(例如,IPTC for News,Web内容的IAB),并且还使用户能够创建自定义模型通过产品的个性化工具。

相比之下,聚类通常在一组文档上同时执行,以根据其相似性排列在几组中。此外,它不依赖于预定的分类学:决定文​​本是否属于一个组或另一个是动态的,并且它基于该组文档的内容。因此,聚类不需要以所谓的无监督学习的方法进行分类的前后定义,也不需要进行规则的随后的培训或定义。
分类和聚类是两种补充方法.当一组文档的结构是预先知道的,并且目的是分析单个文档时,分类是合适的。聚类需要同时分析一组文档(如果一组文档被改变,结果也会改变),但是提供了潜在的发现内隐结构和有意义的主体从文件的内容中出现。
通常,聚类可以获得更有意想不到的见解并将它们编成法典使用“相同的术语”出现在文本中。例如,公司可以将其客户的反馈与其不同的产品进行分类,并将意见路由到适当的部门。bob体育开户但是,使用聚类技术,该公司可能发现,在某个时期,大多数意见是关于“网站太慢”的事实,即独立于产品:一个重要的见解,可能会使用所提到的刚性分类消失。

文本聚类应用程序

聚类是专门用于那些旨在检测不同文本之间的关系,将它们动态地分布在自然组中,或在其内容中发现最相关的主题,并以自己的术语表达它们的应用程序。更具体地说,在分析客户的声音或管理客户体验的关键领域,当需要发现那些客户的“新声音”时,应用聚类。

媒体监测和分析(社会和传统)bob体育平台二维码

检测重复内容,抄袭鉴定,相关新闻。

信息检索和推荐系统

分组搜索结果,援助导航,相关信息建议,内容和产品的建议。bob体育开户

反馈分析和意见采矿

检测调查和权利要求的未预定和不可预定的主题(启用更积极的管理和更有效的反应);逐字使用“他们自己的话”逐字的聚合和描述;分析客户,员工,公民等的声音。想法管理。

文件组织

根据隐含的科目,根据内容本身出现的隐性科目以及从外部分类,构成文件和记录的结构。

MaintCloud的文本聚类API的优点

我们的API专门用于处理非结构化内容(不是结构化数据),并且易于配置和集成。

针对非结构化内容进行了优化

它以几种语言处理所有类型的文本——从正式语言的文档到社会评论——并采用词元化来考虑一个术语的所有变体。bob体育平台二维码

自动生成描述

它使用出现在每个集群的文本中的短语来为每个集群提供有意义的描述。

可配置的

它允许定义停止词和配置其他语言方面,以适应和完善文本分析。

易于整合

它的标准接口和sdk能够轻松地将集群整合到任何具有最大可伸缩性和可用性的应用程序中。

谁可以受益

市场调研和CX管理机构可以使用此API在客户和员工提供的非结构化反馈中发现“新声音”。任何行业的公司和组织都可以发现其文档和记录集合的隐含结构。媒体(传统的和社交的)监控和分析工具的提供商可以整合这些高级功能,从而使他们的产品与众不同。bob体育平台二维码

市场调研和传播机构

客户体验管理(CX)服务提供商

客户反馈和媒体监控工具的供应商

任何需要组织文件集合的行业的公司