常见概念
H0
:原假设(或零假设),是指研究人员在研究之前对情况的最初信念。一般是结论是为真的假设,如两个变量是独立的(对于独立性检验)或拟合优度是合适;各组的均值是相等的。
H1
:备择假设(或替代假设),是指研究人员想要证明为真的研究假设。一般情况下,备择假设的结论和原假设相反。一般是结论是为真的假设,如两个变量不是独立的(对于独立性检验)或拟合优度是不合适;各组的均值不是相等的。
α(Alpha)
:显著性水平(Significance Level)也记为p值(p-value)
,是估计总体参数落在某一区间内,可能犯错误的概率。通常取α<=0.05或α<=0.01。这表明,当作出接受原假设的决定时,其正确的可能性(概率)>=95%或>=99%。显著性反应了备择假设和原假设是否有显著性差异。
β (Beta)
:第二类错误概率(Type II Error Probability),是进行假设检验时,原假设不正确,然而未能拒绝原假设的错误。
第一类错误
:弃真错误,即H0本来正确,却拒绝了它,犯这类错误的概率不超过α
。
第二类错误
:取伪错误,即H0本不真,却接受了他,犯这类错误的概率记为β
。
CI
:置信区间(Confidence Interval),是对产生这个样本的总体的参数分布(parametric distribution)中的某一个未知参数值,以区间形式给出的估计。比如:调查全校男生的平均身高,数量太多,抽样100人,样本均值为a ,若由此认为总体均值为a(点估计),若用一个范围(a+-b)去估计总体均值(区间估计)。[a-b,a+b]
就是置信区间,总体均值真的在这个区间范围的概率就是置信度(水平)。
正态分布
:高斯分布(Gaussian distribution),是统计学中最常见的概率分布之一。正态分布是关于其均值对称的,方差的值是固定的。当均值为0,方差为1时,正态分布称为标准正态分布。正态分布在均值处达到峰值,在正负2个标准差(±2𝜎)处包含约95%的数据,在正负3个标准差(±3σ)处包含约99.7%的数据。
t分布
:Student t 分布,是一种概率分布。t分布是对称的,其形状中心在0。t分布的形状由一个参数决定,称为自由度(df)
,通常表示为df=n-1,其中n为样本大小。t分布的总体标准差是未知的,随着样本量大小增加,t 分布会变得与正态分布更加相似。
t检验
:student test,用于确定两组数据的均值是否存在显著差异,或者确定一个样本的均值与已知的总体均值之间是否存在显著差异,记为t值
。t值的绝对值越大,表示样本均值与假设均值之间的差异越大。如果计算出的t统计量大于临界值,或者p值小于显著性水平α,拒绝零假设,认为两组数据的均值存在显著差异。如果t统计量小于临界值,或者p值大于显著性水平α,不能拒绝零假设,认为两组数据的均值没有显著差异。t检验的三个前提条件:
- 独立性:样本数据应该是独立的,即一个数据点的变化不应影响另一个数据点。
- 正态性:样本数据应近似正态分布,特别是在样本量较小时。
- 方差齐性(对于独立样本t检验):两个样本群体的方差应该相等或相似。
卡方分布
:χ²分布,是由若干个独立的标准正态分布随机变量的平方和得到的。卡方分布是右偏的,其形状由自由度决定。自由度越大,分布越接近正态分布。卡方分布的概率密度函数(PDF)只在非负数范围内定义。
卡方校验
:χ²分布,卡方分析或χ²检验,是统计学中用于分析分类变量之间是否独立的一种方法。观察频数和在零假设(H0)下期望频数的偏差的比较,记为χ²值
。如果计算出的卡方统计量大于临界值,或者p值小于显著性水平,拒绝零假设,认为两个变量不独立或拟合优度不合适。如果卡方统计量小于临界值,或者p值大于显著性水平,不能拒绝零假设,认为两个变量独立或拟合优度合适。卡方检验的前提条件:
- 独立性:数据收集应满足独立性的要求。
- 足够大的期望频数:每个单元格的期望频数应大于5,以满足卡方检验的使用条件。
F分布
:费舍尔(Snedecor)分布,是由两个独立的卡方分布随机变量的比值形成的,其中每个卡方分布随机变量首先被除以其自由度。F分布是一种非对称分布,其形状取决于两个参数,即两个卡方分布的自由度。当自由度较小时,F分布的形状更加偏斜。随着自由度的增加,F分布逐渐趋向于正态分布。
F检验
:联合假设检验(joint hypotheses test)、方差比率检验、方差齐性检验,是用于比较两组或多组数据的方差是否相等,组间(或称为处理间、因素间)均方差与组内(或称为误差、组内)均方差的比值记为F值
。如果计算出的F统计量大于临界值,或者p值小于显著性水平α,拒绝零假设,认为不同组之间存在显著差异。如果F统计量小于临界值,或者p值大于显著性水平α,不能拒绝零假设,认为不同组之间没有显著差异。F检验的前提条件:
- 独立性:样本数据应该是独立的。
- 正态性:样本数据应近似正态分布。
- 方差齐性:各组的方差应该相等或相似。
常见变量
μ(Mu):总体均值(Population Mean),是所有数据的平均值。
σ(Sigma)::总体标准差(Population Standard Deviation),是所有数据偏离总体均值的平均距离。
σ²:方差,是表示数据分布的离散程度。是标准差的平方。
X̄(X bar):样本均值(Sample Mean),是样本中所有数据的平均值。
s:样本标准差(Sample Standard Deviation),是样本中所有数据偏离样本均值的平均距离。
N:总体大小(Population Size),是所有数据的数量。
n:样本大小(Sample Size),是样本中数据的数量。
p:概率(Probability),是度量随机事件发生的可能性大小。概率越大,随机事件越有可能发生。概率的取值范围是 0 <= p <=1。
df:自由度,是样本中独立或能自由变化的数据的个数,值为样本的数量减一(n-1)。
MS:均方,是平方和除以其自由度的值。
R/r:相关系数(Correlation Coefficient),是衡量两个变量之间线性关系强度和方向的指标。r=1 表示两个变量之间存在完全的正线性关系。𝑟=−1表示两个变量之间存在完全的负线性关系。𝑟=0表示两个变量之间没有线性关系。
常见运算
Σ:求和(Summation)
∑:累计(Cumulative Sum)