RNN为什么会梯度消失(rnn梯度消失问题)

编辑：佚名 • 时间：2023-08-07 12:17:25 • 阅读:-

cs224n 2019 Lecture 7 Vanishing Gradients and Fancy RNNs

大家好，关于RNN为什么会梯度消失很多朋友都还不太明白，今天小编就来为大家分享关于RNN梯度消失与解决办法的知识，希望对各位有所帮助！

本文目录

RNN为什么会梯度消失
神经网络中的梯度消失和梯度爆炸是如何解决的

RNN为什么会梯度消失

梯度消失/梯度爆炸的问题不仅仅是RNN有，而是深度神经网络所面临的问题。这里简单地介绍一下RNN和RNN梯度消失的原因。

RNN

RNN是循环神经网络的英文缩写(也是递归神经网络的英文缩写)。

RNN模型如下图所示

展开后就是

RNN的损失

贯穿一个序列中每一个元素，Wa,ba,Wy,by都是被共享的，所以交叉熵损失是

RNN的梯度消失

当RNN处理长序列的时候，通常会出现梯度消失的问题。

让我们来借助一个例子处理这个问题。假设我们正在处理语言建模问题，尝试学习两个系列:

"Thecat,whichalreadyate........................,wasfull"

"Thecats,whichalreadyate........................,werefull"

这里我们需要学习的是，"was"搭配"cat"，"were"搭配"cats"。

普通的RNN会很难获得它们的关系。要计算单词"was"，我们需要计算之后所有单词的梯度。

乘以分数往往会使梯度消失，而乘以大的数目会导致梯度爆炸。这时候有一些的权重可能没有被更新。正如深度网络一样，很容易发生梯度消失问题。

在深层网络(反向传播)中，想要计算前面(某一层)的权重，需要计算在它之后所有层的权重，这会导致梯度消失。处理长序列的RNN也会发生类似的问题。

RNN梯度消失/梯度爆炸的对策

梯度爆炸的解决方案

截断反向传播。在反向的途中不更新所有权重，不是最佳的，所有权重都不更新。梯度裁剪。

梯度消失问题的解决方案

权重初始化，比如HE初始化。回声状态网络(ECS)。使用LSTM/GRU网络。参考

个人网站博客：https://www.soaringroad.com/result/category/DeepLearning.ai

最后

根据所学的DeepLearning.ai发表一下见解，抛砖引玉，欢迎大家讨论。

神经网络中的梯度消失和梯度爆炸是如何解决的

神经网络中的梯度消失和梯度爆炸主要原因有三点：

1、神经网络层数加深；

目前，深度神经网络通过不断的构造出越来越深的网络，从而实现比浅层网络更为复杂多样的任务，比如深度卷积网络（CNN）用于图像分类，循环神经网络（RNN）用于自然语言处理。

2、反向传播的权重更新机制。

同时，现有的权重更新机制都是基于反向传播，也就是由损失函数得到的误差，通过链式求导来反向传播梯度，从末层向第一层逐层的更新和优化网络中的权重。这样就可以实现损失函数最小化的目标。这种寻优机制简单易懂，实现起来也十分便捷。

3、激活函数sigmoid的使用

为了使得神经网络能够有更强的表达能力，往往会在每层加入一个非线性的激活函数，而最经典的就是sigmoid函数。

sigmoid函数的导数

我们会发现sigmoid函数的导数最大只有0.25。那么在进行多层的反向传播中利用链式求导，就会将sigmoid导数累层计算。那么传到靠近输出层的时候，梯度就会变得很小，那么对权重更新的幅度就微乎其微，这就是梯度消失问题。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。这种梯度的不稳定就会使得，深层网络中不同层的学习速度差异很大，表现为在靠近输出层的学习效果好，而到了输入层则变得尤为缓慢。

目前已经出现了许多方法来防止在训练过程中出现梯度不稳定的问题。

1)如将sigmoid函数换成ReLU或者LeakReLU等激活函数。ReLU的导数，不是0就是1，因此就能很好的解决梯度消失的问题。

1)梯度截断。对于出现了梯度爆炸问题，可以对梯度的上限设定阈值，从而有效的避免梯度过大。

2)对权重进行合理的初始化。使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。如使用Xavier或MSRA初始化。

关于本次RNN为什么会梯度消失和RNN梯度消失与解决办法的问题分享到这里就结束了，如果解决了您的问题，我们非常高兴。

声明：本文内容来自互联网不代表本站观点，转载请注明出处：https://bk.77788889.com/11/88336.html

标签：梯度消失为什么 RNN

为什么厕所叫wc

为什么厕所叫wc? 厕所名称的由来在中国,许多家庭使用的厕所都被称为“马桶”,但在一些地区,厕所的名称可能与家庭无关。据说,“马桶”这个词来自于古代的“马桶”......

编辑：投稿
时间：2023-12-04
标签：#厕所 #为什么 #wc
为什么雨后会有彩虹(为什么雨后会有彩虹答案二年级)

为什么雨后会有彩虹? 雨后晴空万里,天空中的云朵在阳光的照耀下闪烁着绚烂的光芒,而此时,如果你仔细观察,会发现天空中出现了一道绚丽的七色光带,它被称为彩虹。那......

编辑：励志文章
时间：2023-12-04
标签：#会有 #彩虹 #雨后 #为什么
为什么电话打不通(为什么电话打不通也打不出去)

为什么电话打不通? ------- 有时候,我们会遇到一个让人沮丧的事情,那就是打一个电话,但是发现电话打不通。这为什么呢?让我们来看看本文将讨论的原因。首先,电话......

编辑：励志人生
时间：2023-12-03
标签：#打不通 #为什么 #电话
台风为什么要起名字(台风名字的由来台风为什么要取名字)

台风为什么要起名字? 台风是一种极端天气现象,通常会给人们带来严重的破坏和伤害。但是,为什么台风要起名字呢? 1. 方便人们识别和应对台风起名字是为了让人们能......

编辑：励志文章
时间：2023-12-03
标签：#台风 #起名字 #为什么
松茸为什么不能水洗

松茸为什么不能水洗：松茸是一种珍贵的野生菌类，因其具有极高的营养价值和药用价值而备受人们喜爱。然而，松茸的食用前需要经过一定的加工处理，而水洗就是其中......

编辑：励志句子
时间：2023-12-02
标签：#水洗 #松茸 #不能 #为什么
太原为什么叫太原(太原为什么是山西的省会)

太原为什么叫太原：太原历史悠久，文化底蕴深厚。作为山西省的省会，太原这个名字有着悠久的历史。那么，太原为什么叫太原呢？太原名字的由来太原的历史可以追......

编辑：佚名
时间：2023-12-01
标签：#太原 #为什么
瘦人冷知识大全(瘦人为什么怕冷)(那一天我穿越了)

其实瘦人冷知识大全的问题并不复杂，但是又很多的朋友都不太了解瘦人为什么怕冷，因此呢，今天小编就来为大家分享瘦人冷知识大全的一些知识，希望可以帮助到大家......

编辑：匿名
时间：2023-09-09
标签：#瘦人 #怕冷 #为什么 #知识 #大全
巴萨100个冷知识，巴萨为什么那么怕拜仁(巴萨为什么打不过拜仁)

大家好，关于巴萨100个冷知识很多朋友都还不太明白，不过没关系，因为今天小编就来为大家分享关于巴萨为什么那么怕拜仁的知识点，相信应该可以解决大家的一些困惑......

编辑：励志文章
时间：2023-09-09
标签：#巴萨 #拜仁 #那么 #为什么 #知识
冷知识为什么外国没有为什么外国没有万

大家好，冷知识为什么外国没有相信很多的网友都不是很明白，包括为什么外国没有万也是一样，不过没有关系，接下来就来为大家分享关于冷知识为什么外国没有和为什......

编辑：互联网
时间：2023-09-09
标签：#外国 #为什么 #没有 #知识
冷知识人人都是吞金兽为什么人吞金就死了

大家好，关于冷知识人人都是吞金兽很多朋友都还不太明白，今天小编就来为大家分享关于为什么人吞金就死了的知识，希望对各位有所帮助！本文目录为什么孩子叫吞金......

编辑：励志一生
时间：2023-09-09
标签：#吞金 #都是 #死了 #人人 #为什么
蓝染冷知识50条蓝染为什么厉害

大家好，如果您还对蓝染冷知识50条不太了解，没有关系，今天就由本站为大家分享蓝染冷知识50条的知识，包括蓝染为什么厉害的问题都会给大家分析到，还望可以解决......

编辑：励志文章
时间：2023-09-09
标签：#厉害 #为什么 #知识 #蓝染冷
冷知识账号值得模仿吗(冷知识账号值得模仿吗为什么)(冷知识账号怎么变现)

大家好，冷知识账号值得模仿吗相信很多的网友都不是很明白，包括冷知识账号值得模仿吗为什么也是一样，不过没有关系，接下来就来为大家分享关于冷知识账号值得模......

编辑：匿名
时间：2023-09-09
标签：#模仿 #账号 #值得 #知识 #为什么

RNN为什么会梯度消失

神经网络中的梯度消失和梯度爆炸是如何解决的

相关推荐