NLP技术:最新技术,趋势和挑战

这篇文章根据我们与客户和研究项目的工作,在2019年底之前介绍了对自然语言处理技术的愿景。

NLP技术实际上已经在许多不同的任务中实现了人类质量(甚至更好),这主要是基于机器学习/深度学习技术的进步,这些技术可以利用大量的培训数据来构建语言模型,但也允许核心文本处理引擎的改进和语义知识数据库的可用性。

NLP在人类层面的任务

NLP无处不在,因为许多NLP任务的技术几乎都可以达到人类质量:

  • 文本分类是最受欢迎的任务,用于垃圾邮件检测,消息路由或信息分析
  • 主题提取也是一项常见的任务,主要用于标记非结构化内容和创建建议系统
  • 文本聚类是首选的无监督算法用于探索性分析和趋势主题检测
  • 模糊搜索和匹配,为了相似性检测,窃,目录分析等。
  • 机器翻译
  • 核心文本处理任务(解析,语义标记,歧义)是其他任务的基础

值得一提的其他流行任务包括信息提取,文本理解,聊天机器人的实现,摘要和文本生成。

传统的NLP技术仍然使用,例如基于规则的模型,依赖性解析或状态自动机,尽管机器学习,尤其是深度学习,在NLP任务中带来了许多进步,例如文本分类或语义歧义。

机器/深度学习

机器学习制造模型构建非常简单,快速,但缺点是最频繁的系统是黑盒子在添加新知识的地方很难/不可能(除了在培训数据中添加更多样本并重建模型)。

此外,由于问题的问题,机器学习尚未成为NLP任务的一般性缺乏培训语料库(大标签数据集):

  • 该问题通过高级技术来部分克服(例如与变压器并改善了注意力层)和验证的语言模型(例如Google的伯特,Openai的GPT-2,,,,Elmo或微软的MT-DNN)。在NLP的背景下,转移学习本质上是在一个数据集中训练模型,然后调整该模型以在其他数据集上执行不同的NLP功能的能力。这显示了通用域的有希望的结果,例如文本生成,摘要提取或机器翻译以及最新的最新结果。
  • 不幸的是,预估计的模型主要取决于语言(主要用于英语)和域独立于域(通用),并且转移学习尚未进步以使其适应具有较少训练数据或具有特定词汇的域的语言。

因此,传统的NLP方法虽然在人类工作中更加密集,但对于许多情况来说,仍然是最佳选择,因为通常可以简化错误,并且可以简化精确度。

混合解决方案bobapp苹果版

一般而言,深度学习是文本分类的最佳选择,其中有大量的培训数据。当培训数据稀缺时,其他更古典的机器学习技术,例如决策树或SVM,通常提供更好的结果,计算成本较少。

混合解决方案bobapp苹果版结合机器学习(机器的意见)基于规则的后过滤(类似人类的校正)就精度提供了最佳结果,并且必须在不久的将来变得流行。

此外,某些机器/深度学习技术对支持人类在构建/改进模型的过程中:

  • 规则感应技术用于生成初稿规则模型。
  • 语义扩展技术(例如单词/句子嵌入),用于改善规则召回。

近期或中期未来

增强预验证的模型有关更多语言和特定领域(例如银行业,营销)尚未到来,可以在非类别的情况下使用。

增强转移学习技术,尚未开发使用(减少)域特异性训练数据对那些经过验证的模型的进一步适应。

目前,在培训模型和运行服务的硬件方面,深度学习仍然是昂贵的,但是硬件和机器学习平台将是便宜,更容易访问在不远的将来。

自动的模型参数的优化,例如当前的汽车,将通过诸如进化算法之类的技术来改进,简化模型构建并取得更好的结果。

普及其他NLP任务(其精度当前低于阈值):

我们迈向未来的步骤

目前的意义正在交付深层语义分析使用高级的视力语义规则方法:

  • 它利用了意义上的核心引擎对文本进行的深层词法和语义分析。
  • 在该分析的基础上,使用了结合提取的语义信息和强大运算符的高级规则。
  • 结果是:高级模式检测,细粒度,通过级别的分类,语义关系的提取等。

进入未来

此外,我们正在研究模型生成/改进

  • 使用标记数据自动培训最佳机器学习分类器
  • 使用培训数据自动生成基于规则的模型进行分类或提取模型
  • 根据培训数据和质量检查指标自动生成模型改进的建议
  • 使用用户反馈自动对模型进行自动再培训

我们正在使用,等等:

而且,我们正在研究语义表示非结构化结构化信息:

  • 从非结构化文本生成文档语义图(例如在RDF中)
  • 语义图的开发(例如,自然语言查询sparql
  • 发现文件之间的关系:
    • 趋势主题检测,发现从文档集中发现的主题
    • 文档聚类,用于分组类似文档
  • 文字生成
    • 摘要,用于自动生成文档的有意义的摘要
    • 自动描述,用于自动创建文档标题(自动标题)
    • 聊天机器人对话,用于生成对话机器人的响应

使用,等等:

  • 洞察力提取模型:我们从非结构化文本中提取深层复合见解的技术
  • 实体歧义
  • 文本理解技术
  • 机器/深度学习

关于Julio Villena

技术爱好者。@MeaningCloud的创新负责人:自然语言处理,语义,客户的声音,文本分析,智能机器人过程自动化。@UC3M的研究人员和讲师爱上了教学和知识共享。

发表评论

您的电子邮件地址不会被公开。必需的地方已做标记*

*
*