假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数小。以下哪些方法可以帮助找到值较小的参数值?()
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.随机梯度下降
B.设置Momentum
C.设置不同初始值
D.增大batchsize
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
A.梯度方向是函数值下降最快方向
B.梯度下降算法是一种使得损失函数最小化的方法
C.梯度下降算法用来优化深度学习模型的参数
D.梯度反方向是函数值下降最快方向
A.这没关系。只要随机初始化权重,梯度下降不受权重大小的影响
B.这将导致tanh的输入也非常大,因此导致梯度也变大。因此,您必须将α设置得非常小以防止发散;这会减慢学习速度
C.这会导致tanh的输入也非常大,导致单位被“高度激活”,从而加快了学习速度,而权重必须从小数值开始
D.这将导致tanh的输入也很大,因此导致梯度接近于零,优化算法将因此变得缓慢
A.AlexNet的网络结构和LeNet非常类似,但更深更大,并且使用了层叠的卷积层来获取特征
B.GoogLeNet的主要贡献是实现了一个bottleneck模块,能够显著地减少网络中参数的数量
C.ResNet使用了特殊的跳跃链接,大量使用了批量归一化,并在最后使用了全连接层
D.VGGNet的主要贡献是展示出网络的深度是算法优良性能的关键部分