训练一个RNN网络,如果权重与激活值都是NaN,下列选项中,哪一个是导致这个问题的最有可能的原因()。
A.梯度消失
B.梯度爆炸
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
A.梯度消失
B.梯度爆炸
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
A.1
B.100
C.300
D.10000
A.这没关系。只要随机初始化权重,梯度下降不受权重大小的影响
B.这将导致tanh的输入也非常大,因此导致梯度也变大。因此,您必须将α设置得非常小以防止发散;这会减慢学习速度
C.这会导致tanh的输入也非常大,导致单位被“高度激活”,从而加快了学习速度,而权重必须从小数值开始
D.这将导致tanh的输入也很大,因此导致梯度接近于零,优化算法将因此变得缓慢
A.使用增加训练次数的方法不一定可以减少代价函数的取值
B.神经网络权重的初始化大小会对网络的训练结果无影响
C.对神经网络训练的优化需要综合考虑激活函数、网络结构、权重更新方法等多种因素
D.分析问题确定后,神经网络合适的结构就可以确定
A.ReLU的单侧抑制提供了网络的稀疏表达能力。
B.ReLU在其训练过程中会导致神经元死亡的问题。
C.从计算的角度上,Sigmoid和Tanh激活函数均需要计算指数,复杂度高,而ReLU只需要一个阈值即可得到激活值。
A.使用sigmod函数容易出现梯度消失
B.sigmod的导数形式较为复杂
C.双曲正切更简单
D.sigmoid函数实现较为复杂
A.根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0
B.可以采用ReLU激活函数有效的解决梯度消失的情况
C.根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大
D.可以通过减小初始权重矩阵的值来缓解梯度爆炸
A.Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNN
B.DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0
C.丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络
D.Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟合