提取最相关的信息

主题提取能够标记任何类型的内容的人,地点或组织的名称,以使其更加可找到并且可以与其他内容链接。标记此信息有助于构建任何类型的非结构化信息(文本,音频或视频)并获得其语义标记。

含义Cloud的主题提取API

该API从文本中提取最相关的信息,例如人,地点,组织或产品,称为称为bob体育开户命名实体。此外,它还将主要概念和许多其他相关数据标识为日期,电话号码,金额或电子地址(URL,电子邮件,主题标签)。这些实体,概念和价值观提供了文档的语义表示,从而可以开发智能应用程序以几种语言处理内容。但是,该分析不仅限于对上述实体的识别:通过核心分析,它链接到代表它的外部资源,例如Wikipedia或链接数据。

含义Cloud在任何类型的文本中都标识了此信息,它是网页,新闻,社交网络内容或音频和视频成绩单。bob体育平台二维码它不仅能够以不同的语言(多语言)进行分析,还可以使用一组通用类型(多语言)进行分析。该实体类型的层次结构(称为本体论)包含200多个类,例如,可以同时说Google是一个组织和软件公司。

此外,您还可以添加自己的词典来扩展含义Cloud标记实体和概念的功能,并将其调整到其他域或应用程序的要求。您需要分析有关生物医学的文件吗?您可以将药物,活性成分或疾病的名称纳入语义分析科学文献。

自动化信息提取的优势。申请

实体的注释及其分类和歧义可改善信息检索,搜索引擎定位或相关内容的建议。此外,允许语义信息处理来提取关系或标记与实体相关的情感是一项基本任务。

竞争情报

从任何新闻或Web内容中提取最相关的实体和概念,以监视趋势并创建商业智能应用程序。

bob体育平台二维码社交媒体分析

找出目标受众在社交网络中的主题和利益。bob体育平台二维码确定与对话主题相关的趋势。

搜索和内容建议

使用类别标记您的内容或产品,以帮助导航或检测网站中bob体育开户的相关内容。


我们主题提取API的亮点

实体类型

不仅是人,地点和组织。使用具有200多种实体类型和亚型的扩展层次结构。

概念提取

标记并分组主要概念,包括多词的概念(例如“金融危机”)并找出其相关性。

引号和其他相关数据

标签引号或间接语音并在其归属的文本中识别。分析新闻和社交网络的理想选择。bob体育平台二维码还提取其他相关数据,例如日期,金额或电话号码。

歧义实体和核心

使用上下文提示确定提到哪个实体及其类型,如果有几个共享同名名称。不要将巴塞罗那市与足球队混淆。

多种语言

提取西班牙语,英语,法语,意大利语和加泰罗尼亚语具有共同分类法的提取实体。

Wikipedia和链接数据

链接标记的实体与Wikipedia页面或链接的数据云资源(如FreeBase和DBPedia)。