假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,...,X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是()。
A.特征X1很可能被排除在模型之外
B.特征X1很可能还包含在模型之中
C.无法确定特征X1是否被舍
D.以上答案都不正确
A.特征X1很可能被排除在模型之外
B.特征X1很可能还包含在模型之中
C.无法确定特征X1是否被舍
D.以上答案都不正确
A.数据集合扩充
B.L1和L3正则化
C.提前停止训练
D.使用Dropout方法
(i)利用表13-1中同样的变量估计kids的一个泊松回归模型。解释y82的系数。
(ii)保持其他因素不变,黑人妇女和非黑人妇女在生育上的估计百分数差异是多少?
(iii)求σ。有过度散布和散布不足的证据吗?
(iv)计算泊松回归中的拟合值和作为kidsi和kidsi之相关系数平方的R2。并与线性回归模型中的R2相比较。
A.小芳:从机器学习理论的角度,这样的情况不应该发生,快去找大赛组委会反应
B.小刚:你这个有可能是由于过拟合导致的
C.小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不可能有收益的
D.小平:你可以考虑一下,使用交叉验证来验证一下是否发生了过拟合
A.剔除所有的共线性变量
B.剔除共线性变量中的一个
C.通过计算方差膨胀因子(VarianceInflationFactor,VIF)来检查共线性程度,并采取相应措施
D.删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则化方法来解决多重共线性问题,例如Ridge或Lasso回归
A.对训练集随机采样,在随机采样的数据上建立模型
B.尝试使用在线机器学习算法
C.使用PCA算法减少特征维度
A.使用前向特征选择方法
B.使用后向特征排除方法
C.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征
D.查看相关性表,去除相关性最高的一些特征