本题利用401KSUBS.RAW中的数据。
(i) 计算样本中nettfa的平均值、标准差、最小值和最大值。
(ii) 检验假设平均nettfa不会因为401(k) 资格状况而有所不同, 使用双侧对立假设。估计差异的美元数量是多少?
(iii)根据计算机习题C7.9的第(ii)部分,e401k在一个简单回归模型中显然不是外生的,起码它随着收入和年龄而变化。以收入、年龄和e40lk作为解释变量估计nettfa的一个多元线性回归模型。收入和年龄应该以二次函数形式出现。现在,估计401(k)资格的美元效应是多少?
(iv) 在第(iii) 部分估计的模型中, 增加交互项e401k·(age-41) 和e401k·(age-41)2 。注意样本中的平均年龄约为41岁,所以在新模型中,e401k的系数是401(k)资格在平均年龄处的估计效应。哪个交互项显著?
(v)比较第(iii)和(iv)部分的估计值,401(k)资格在41岁处的估计效应差别大吗?请解释。
(vi) 现在, 从模型中去掉交互项, 但定义5个家庭规模虚拟变量:fsize l, j size2,f size 3, f size 4和f size 5。对有5个或5个以上成员的家庭, fsize 5等于1。在第(iii) 部分估计的模型中, 增加家庭规模虚拟变量, 记得选择一个基组。这些家庭虚拟变量在1%的显著性水平上显著吗?
(vii) 现在, 针对模型
在容许截距不同的情况下, 做5个家庭规模类别的邹至庄检验。约束残差平方和SSR, 从第(vi) 部分得到,因为那里回归假定了相同斜率。无约束残差平方和SSRUR=SSR1+SSR2 +…+SSR5 , 其中SSRf是从仅用家庭规模f估计的方程中得到的残差平方和。你应该明白,无约束模型中有30个参数(5个截距和25个斜率),而约束模型中有10个参数(5个截距和5个斜率)。因此,带检验的约束个数是q=20,而且无约束模型的df为9275-30=9245。
A.H0:β0=β1=0,并运用F检验
B.H0:β1=0,并运用F检验
C.H0:β1=0,运用T检验
D.B和C都是正确的,可以仍选其一进行检验
A.在严重多重共线性下,OLS估计量仍是最正确线性无偏估计量
B.多重共线性问题的实质是样本现象,因此可以通过增加样本信息得到改善
C.虽然多重共线性下,很难准确区分各个解释变量的单独影响,但可据此模型进展预测
D.如果回归模型存在严重的多重共线性,可不加分析地去掉某个解释变量从而消除多重共线性
A.异方差
B.完全多重共线
C.遗漏变量偏差
D.虚拟变量陷阱
A.如果使用横断面数据进行回归分析会使r2的值上升。
B.回归分析对估计利息收入不再适用。
C.一些没有包括在模型中的新的因素引起了收入的变化。
D.线性回归分析会提高模型的可信度。
人口特征方面的数据。目的是想考察快餐店是否在黑人更集中的区域收取更高的价格。
(i)求出样本中prpblck和income的平均值及其标准差。prpblck和income的度量单位是什么?
(ii)考虑一个模型,用人口中黑人比例和收入中位数来解释苏打饮料的价格psoda:
用OLS估计这个模型并以方程的形式报告结果, 包括样本容量和R。(报告估计值时不要使用科学计数法。)解释prpblck的系数。你认为它在经济上算大吗?
(iii) 将第(ii)部分得到的估计值与psoda对prpblck进行简单回归得到的估计值进行比较。控制收入变量后,这种歧视效应是更大还是更小了?
(iv)收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值:
(vi)求出1og(income)和prppov的相关系数。大致符合你的预期吗?
(vii)评价如下说法:“由于log(income)和prppov如此高度相关,所以它们不该进入同一个回归。”