总体平方和(TSS)
- 总体平方和的计算公式为: TSS=\sum_{i=1}^{n}(y_i-\bar{y_i})^2,\bar{y_i}为总体平均值
- 衡量因变量的总变异
回归平方和(ESS)
- 总体平方和的计算公式为: TSS=\sum_{i=1}^{n}(\hat{y_i}-\bar{y_i})^2,\hat{y_i}为预测值,\bar{y_i}为总体平均值
- 衡量由回归模型解释的因变量的变异
残差平方和(RSS)
- 残差平方和的计算公式为: RSS=\sum_{i=1}^{n}(y_i-\hat{y_i})^2,\hat{y_i}为预测值
- 残差平方和越小,说明模型的预测值与实际值越接近,模型的拟合效果越好
- 衡量回归模型未解释的因变量的变异
- 它们之间的关系是: TSS=ESS+RSS
判定系数
- 判定系数的计算公式为:R^2=1−\frac{SS_{res}}{SS_{tot}},其中 SS_{res}是残差平方和,SS_{tot} 是总平方和
- 判定系数的值越接近1,说明回归模型解释的变异占总变异的比例越大,模型的拟合效果越好
标准差
- 总体标准差定义为:\sigma =\sqrt{\frac{1}{N}\sum_{i=1}^{n}(x_i-\mu )^2},\mu 是总体均值
- 样本标准差定义为:s =\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x} )^2},\bar{x}样本均值
- 标准差越大,数据的分布越分散;标准差越小,数据的分布越集中。
方差
- 总体方差定义为:\sigma =\frac{1}{N}\sum_{i=1}^{n}(x_i-\mu )^2,\mu 是总体均值
- 样本标准差定义为:s =\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x} )^2,\bar{x}样本均值,取n−1 而不是 n 作为分母,是应为样本均值的随机性导致样本方差的计算会低估总体方差。通过使用 n−1 作为分母,我们可以得到一个期望值等于总体方差的样本方差估计
- 方差总是非负的
- 方差对异常值(outliers)非常敏感,因为异常值会显著增加数据的离散程度
标准正态分布(z分布)
- 标准正态分布的概率密度函数为:f(z)=\frac{1}{\sqrt{2\pi }}e^{-\frac{z^2}{2}}
- 任何正态分布都可以通过标准化转换为标准正态分布
- 标准正态分布关于 z=0对称,即 f(z)=f(−z)
- 标准正态分布的取值范围为 (−∞,+∞)
- 标准正态分布的均值为0,标准差为1
z检验
- Z检验基于标准正态分布(Z分布),它适用于样本量较大(通常 n≥30)且总体标准差已知的情况
- Z检验(Z-test)是一种统计假设检验,用于确定样本均值与总体均值之间是否存在显著差异,或者两个样本均值之间是否存在显著差异。
Z检验的步骤通常包括:
- 提出假设:零假设(H0)通常假设均值之间没有差异,备择假设(H1)假设存在差异。
- 计算Z统计量:根据样本数据计算Z统计量,其公式取决于Z检验的类型。
- 确定显著性水平:选择一个显著性水平(例如0.05)。
- 查找临界值:在Z分布表中查找给定显著性水平下的临界值。
- 比较Z统计量和临界值:如果Z统计量的绝对值大于临界值,则拒绝零假设,认为均值差异在统计上是显著的。
- 通过Z检验,我们可以确定观察到的均值差异是否可能由随机误差造成,从而为科学决策提供依据。
Z统计量
z=\frac{\bar{x}-\mu}{\sigma\sqrt{n}},其中\bar{x}为样本均值,\mu为总体均值,\sigma为总体标准差,n为样本量
卡方分布
- 卡方分布定义为 k 个独立的标准正态分布(Standard normal distribution)随机变量的平方和: \chi^2={Z_1}^2+{Z_2}^2+...+{Z_k}^2
- 卡方分布是非对称的,其形状通常偏右
- 卡方分布的取值范围为 [0,+∞)[0,+∞)
- 卡方分布的期望为 k,方差为 2k
F分布
- F分布定义为两个独立U/V的卡方分布(Chi-square distribution)随机变量的比值,每个都除以其自由度d1/d2:F=\frac{U/d1}{V/d2}
- F分布的取值范围为 [0,+∞)[0,+∞)
- F分布的期望和方差存在,但形式较为复杂,通常需要通过数学软件或查表来计算
F检验(卡方检验)
F检验的步骤包括:
- 提出假设:检验统计量在零假设下服从F分布。
- 计算检验统计量,并得出对应的值。
- 如果计算的F值小于事先确定的显著性水平时,拒绝原假设,认为模型中的至少有一个参数是显著的
- 通过卡方检验,我们可以判断分类变量之间是否独立,或者一个分类变量与理论分布之间是否有显著差异。
f统计量
F=\frac{MS_{between}}{MS_{within}},其中MS_{between}是组间均方,MS_{within}是组内均方
t分布
- t分布用于估计正态分布总体的均值,当总体标准差未知且样本量较小时。
- t分布的定义为:T=\frac{Z}{\sqrt{\frac{x^2}{n}}}
- t分布关于0对称,即 f(t)=f(−t)f(t)=f(−t)
- t分布有一个自由度参数 nn,表示卡方分布的自由度
- t分布的取值范围为 (−∞,+∞)(−∞,+∞)
- t分布的期望为0,方差为\frac{n}{n-2} (当 n>2 时)
t检验
t检验的步骤通常包括:
- 提出假设:零假设(H0)通常假设两个均值之间没有差异,备择假设(H1)假设存在差异。
- 计算t统计量:根据样本数据计算t统计量,其公式取决于t检验的类型。
- 确定自由度:根据样本量计算自由度。
- 查找临界值:在t分布表中查找给定自由度和显著性水平下的临界值。
- 比较t统计量和临界值:如果t统计量的绝对值大于临界值,则拒绝零假设,认为均值差异在统计上是显著的。
- 通过t检验,我们可以确定观察到的均值差异是否可能由随机误差造成,从而为科学决策提供依据。
t统计量
t=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{{s_1}^2}{n_1}+\frac{{s_2}^2}{n_2}}},其中\bar{x_1}、\bar{x_2}为样本均值,{s_1}、{s_2}为样本标准差,n_1、n_2样本量
最小二乘法
- 最小二乘法(Least Squares Method)的基本思想是:给定一组观测数据点,我们希望找到一个函数(通常是线性函数),使得这个函数与实际数据点之间的误差(即残差)的平方和最小
- 最小二乘法求解函数为:F_{lsm}=\beta_0+\beta_1x_i,使得S=\sum_{i=1}^{n}(y_{i}-(\beta_0+\beta_1x_i))^2最小。
- 计算步骤为:
- 定义目标函数:目标函数是误差的平方和 S。
- 求导数:对目标函数 S 分别对 β0 和 β1 求偏导数。
- 设置导数为零:将偏导数设置为零,得到一组方程。
- 解方程:解这组方程,得到 β0 和 β1 的值。
- 最小二乘法对异常值(outliers)非常敏感,因为异常值会显著增加误差的平方和
异方差
异方差(Heteroscedasticity)是指在回归模型中,误差项的方差不是恒定的,而是随着解释变量的变化而变化。
异方差及对普通最小二乘估计量的影响
- 参数估计量的非有效性
- 参数估计量仍然是线性无偏
- 显著性检验的失效
- 预测精度的降低
- 估计量的高方差
多重共线性
- 多重共线性(Multicollinearity)是指在回归模型中,两个或多个自变量(预测变量)之间存在强烈的线性相关性。
- 检测方法:
- 方差膨胀因子(VIF),一般认为,VIF值大于5或者10表明存在严重的多重共线性,需要进一步处理
- 容忍度(Tolerance):这是VIF的倒数,较低的容忍度值(通常小于0.1)表明高共线性
- 相关系数矩阵:检查预测变量之间的相关系数。高度相关(例如,相关系数大于0.8或小于-0.8)可能指示共线性
- 处理策略:
- 移除变量:如果某些变量之间存在高共线性,可以考虑从模型中移除一些变量。
- 合并变量:将相关的变量合并为一个新变量,例如,通过计算几个相关变量的平均值