漳州新闻网

首页 > 正文

从基础到 RNN 和 LSTM,NLP 取得的进展都有哪些?

www.sytfyd.com2019-09-06

机器学习领域最令人着迷的任务之一是培训机器以了解人类交流的进展。在机器学习领域,这个分支称为自然语言处理。

本文试图通过深度学习和神经网络的发展来解释自然语言处理的基础知识和自然语言处理的快速进展。

在我们深入研究之前,有必要了解一些基础知识。

这是什么语言?

一种语言,基本上是人类社会共有的固定词汇,用于表达和传达他们的思想。

作为其成长过程的一部分,这个词汇已经代代相传,并且大部分词汇保持不变,每年增加一小部分。

保持诸如字典之类的精细资源,以便当人遇到新单词时,他或她可以参考字典来理解其含义。一旦人们接触到这个词,就会将其添加到他或她自己的词汇表中,并可用于进一步的交流。

计算机是一种在数学规则下工作的机器。它无法解释或理解人类可以轻松完成的事情,但它可以在几秒钟内执行复杂的计算。

为了处理任何概念,计算机必须以数学模型的形式表达这些概念。

此约束极大地限制了计算机可以使用的自然语言的范围和范围。目前,机器在执行分类和翻译任务方面非常成功。

分类基本上是将一段文本分类为一个类别,而翻译是将这段文本转换为任何其他语言。

自然语言处理(简称NLP)广义地定义为通过软件自然处理自然语言(例如语音和文本)。

自然语言处理的研究已经存在了50多年,并且随着计算机的兴起从语言学领域发展而来。

如前所述,让机器理解自然语言(人类使用的语言)需要将语言翻译成可以建模的数学框架。以下是一些帮助我们实现这一目标的最常用技术。

分词是将文本分解为单词的过程。参与可以出现在任何角色上,但最常见的分词方式是在空间上进行分词。

词干提取是截断后缀以获得基本单词的粗略方法,通常包括删除派生词缀。衍生词是一个词由另一个词形成(衍生)的词。衍生词通常属于与原始单词不同的单词类。最常见的算法是Porter算法。

词汇缩减词汇和单词的形态分析,通常只是为了消除句末的变化。后缀是添加到单词末尾的一组字母,用于更改其含义。一些结束变化是单词加s的复数,例如bat,bats。

N-gram是组合相邻单词以表示目的的过程,其中N表示要组合的单词的数量。

例如,考虑一句话,“自然语言处理对计算机科学至关重要。”

1-gram或unigram模型将句子标记为单词的组合,因此输出将是“自然,语言,处理,权利,计算机,科学,重要”。

bigram模型将其标记为两个单词的组合,输出将是“自然语言,语言处理,处理对,对计算机,计算机科学,科学至关重要”

类似地,trigram模型将其分解为“自然语言处理,语言处理对,计算机处理,计算机科学,计算机科学”,并且n-gram模型将句子标记为n个单词的组合。

将自然语言分解为n-gram是保持句子中出现的单词数量的关键,而句子是自然语言处理中使用的传统数学过程的支柱。

在单词bag模型表示中实现这一点的最常见方法是tf-idf。

TF-IDF是一种对词汇进行评分的方式,为词语提供足够的权重,与其对句子含义的影响成比例。得分是两个独立分数的乘积,词频(tf)和逆文件频率(idf)。

RYQcf4O7x1NJMO

双向RNN由前向和后向循环神经网络组成,在任何给定时间t结合两个网络的结果进行最终预测,如图所示。

在本文中,我试图涵盖自然语言处理领域中所有流行的相关实践和神经网络架构。对于那些有兴趣学习更多神经网络的人,我强烈建议您去Coursera的Andrew Ng。

想看相关文献和参考内容?

点击[从基本到RNN和LSTM,NLP的进展如何? 】你可以访问

通过

您可能错过了这些公司的秋季技巧,添加B站,美团,携程,网易等(不断更新.)

从今天起,AI Learning Society定期收集和推广主要企业的帖子和介绍信息,并邀请求职者和企业人力资源专家分享他们的求职经历。此外,我们将在社区工作推荐部分更新AI公司学校招聘和社会招聘信息。欢迎对AI行业感兴趣的新毕业生来AI工作室提交简历

单击链接以查看过去一段时间的业务信息:

雷锋网雷锋网雷锋网

http://www.whgcjx.com/bds6Z0fa5/0.html

热门浏览
热门排行榜
热门标签
日期归档