统计方法
- 描述统计。描述数据特征。
- 推断统计。对总体特征作出推断。包括参数估计(点估计、区间估计)和假设检验(建立研究者试图反驳的假设,检验统计量的值,拒绝假设或者拒绝假设)。
统计数据类型
按计量尺度
- 分类数据。只能归于某一类别的非数字型数据,如人口按性别分为男、女两类
- 顺序数据。只能归于某一有序类别的非数字型数据,如产品分为一等品、二等品、三等品、次品等
- 数值型数据。结果表现为具体的数值,如身高为175cm、168cm、183cm
按收集方法
- 观测数据。通过调查或观测而收集到的数据。
- 实验数据。在实验中控制实验对象而收集到的数据
按时间状况
- 截面数据。在相同或近似相同的时间点上收集的数据
- 时间序列数据。在不同时间上收集到的数据
总体和样本
总体
- 所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素
- 分为有限总体和无限总体
样本
- 从总体中抽取的一部分元素的集合
- 元素的数目称为样本容量或样本量
参数、统计量和变量
参数
- 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
- 所关心的参数主要有总体均值(µ)、标准差(σ)、总体比例(π)等
- 总体参数通常用希腊字母表示
统计量
- 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
- 所关心的样本统计量有样本均值( x )、样本标准差(s)、样本比例(p)等
- 样本统计量通常用小写英文字母来表示
变量
- 说明现象某种特征的概念。如商品销售额、受教育程度、产品的质量等级等
- 变量可以分为定性变量(分类变量/顺序变量)、数值型变量
随机变量
随机变量指与随机事件的每一个可能结果相对应数值的集合。随机变量可以是离散的,也可以是连续的。
- 期望值E(X)。随机变量的平均值,是所有可能取值的加权平均。
- 方差。衡量随机变量取值的离散程度,即值与其期望值之间差异的平方的平均值。
准确度和精密度
- 准确度。也叫真实性,观察值与真值的接近程度
- 精密度。也叫重复性,指在相同条件下,多次重复测量所得结果之间的一致性或接近程度。
误差
试验中不可控因素所引起的实际观察值与客观真实值(真值)之差
- 随机误差。在实验或测量过程中由于各种原因产生的、难以预测且不具有固定模式的误差。随机误差使数据相互分散,影响了数据的精密度。
- 系统误差。指在重复测量或实验过程中,由于某些固定或可预测的原因导致的误差。系统误差使数据偏离了其理论值,影响数据的准确度。
错误
试验过程中,人为作用引起的差错如药品称量错误,数据录入错误等
调查方法(样本数据来源)
概率抽样
- 也称随机抽样。分为简单随机抽样(不加任何分组、划类、排队等)、抽样框(能够代表总体的所有特征,包括不同的子群体)、系统抽样(总体按一定顺序排列,然后按相等距离或间隔抽样)的距离或间隔抽取样本单位)
- 按一定的概率以随机原则抽取样本
- 每个单位被抽中的概率是已知的,或是可以计算出来的
- 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
- 样本统计量的理论分布存在
- 可根据调查的结果推断总体
抽样框
指的是包含了总体中所有成员的列表或数据库
分层抽样
先按特征分组分层,每个层内抽取若干个体。各层之间的差异大,层内个体差异小
整群抽样
按照一定的因素自然归并成若干个互不交叉、互不重复的集合,整群抽取或者整群不抽取。群与群之间的结构相似,群内个体之间差异大
非概率抽样
- 不是依据随机原则
- 是根据研究目的
- 采用某种方式从总体中抽样
- 分为偶遇抽样(又称方便抽样/就近抽样)、 配额抽样(又称定额抽样)、志愿者抽样、立意抽样(又称判断抽样)、 滚雪球抽样
- 样本统计量的分布是不确定的
- 无法使用样本的结果推断总体
数据误差
- 抽样误差。由于抽样的随机性所带来的误差,受样本的大小、总体的变异性影响
- 非抽样误差。包含抽样框误差、回答误差、无回答误差、调查员误差、测量误差等
定性变量展示图表
- 条形图。通过水平或垂直的条形来表示数据的大小。
- 主次图。又叫排列图、帕累托图。将各组按频率由高至低排列后制作的条形图
- 饼状图。一种圆形统计图表,用于展示数据的比例关系。
- 列联表。又叫交叉表,种用交叉表格展示两个或多个定性变量各类别中频率
- 复式条形图。两个或两个以上条形图并排起来以比较同一组个体中不同类别的频数差异
- 堆积条形图。将代表不同类别的矩形“堆积”起来,表示该类的频数或相对频率(百分比)
数值变量展示图表
- 茎叶图。把较不变的高位数字(茎)放到前面,变化较大的低位数字(叶)放到后面。非常适合展示小型到中型的数据集。
- 直方图。将数据分组(称为“桶”或“区间”)并计算每个组的频数(或频率、密度),然后用条形图的形式表示出来。直方图可以清晰地显示数据的集中趋势、离散程度和分布形状。
- 散点图。利用点在空间分布形态反映两个变量之间关系。点的横坐标代表一个变量,点的纵坐标代表另一个变量。
- 分层直方图。不同类别中的某个数值型特征的直方图都采用相同的分组。
时序数据展示图表
- 时间序列图。以时间为横轴,以变量的值为纵轴的连线图。
空间数据
记录了空间实体的位置、形状、大小、分布特征及与之相关的诸多方面信息的数据
数据的概括性度量(统计量)
数据的中心
- 均值。对于有限总体,总体均值 𝝁 就是总体𝒙𝟏, 𝒙𝟐, ⋯ , 𝒙𝑵 中所有N个数的平均。
- 样本均值\bar{x}。对于一个大小为 𝒏𝒏 的样本 𝒙𝟏, 𝒙𝟐, ⋯ , 𝒙𝒏,其样本均。
- 中位数。将数据从小到大排序后位于数据中间位置的那个数。对于总个数为偶数,中位数是中间两个值的平均值。
- 众数。一组数据中出现次数最多的变量值。
- 截尾平均。对去掉一个最大值和一个最小值后的n-2个数求得的平均
- 加权平均。对于数据𝒙𝟏,𝒙𝟐, ⋯,𝒙𝒏 ,设第i个数 𝒙𝐢的权重为𝒘𝐢,满足𝒘𝐢 ≥ 𝟎,𝒘𝟏 + 𝒘𝟐 + ⋯ + 𝒘𝒏 = 𝟏,那么,该数据的加权平均\bar{x}_w = 𝒘𝟏 * 𝒙𝟏 + 𝒘𝟐 * 𝒙𝟐 + ⋯ + 𝒘𝒏 * 𝒙𝒏
数据波动
- 极差。R = max(x_i) - min(x_i)
- 总体方差。\sigma ^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu )^{2}
- 总体标准差。\sigma =\sqrt{\sigma ^{2}}
- 样本方差。s ^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x} )^{2}
- 样本标准差。s =\sqrt{s ^{2}}
变异系数
当两组或多组数据的单位不同,或平均水平差异较大时,可用变异系数来比较它们波动程度的大小。
- 总体变异系数。CV=\frac{\sigma }{\mu }
- 样本变异系数。\widehat{CV}=\frac{s}{\bar{x}}
百分位数
百分位数是一些特殊的分界点,用于界定数据在整个数据集中的排位。如被推荐人的各项能力在班上处于“前5%” 、 “前20%”还是“前50%”中的哪一个位置
四分位数
- 四分位数是指三个特殊的百分位数:第一四分位数 𝑄1 即第25百分位数,
第二四分位数 𝑄2 即第50百分位数,第三四分位数 𝑄3 即第75百分位数。 - 内四分位点范围: IQR = 𝑄3 − 𝑄1
离群值
比𝑸𝟏 小1.5倍IQR、或者比𝑸𝟑还大至少1.5倍IQR的数是离群值
偏态
现实生活中,现象之分布并不完全对称,而是或多或少地不同程度地存在着非对称情况;在统计上将这个非对称分布称为偏态。
偏度
- 偏度\alpha =\frac{m^3}{\sigma ^3}=\frac{\frac{\sum (x-\bar{x})^3}{n}}{\sigma ^3}
- 偏度=0,对称分布
- 偏度>0,右偏态
- 偏度<0,左偏态
峰态
一个次数分布陡峭或平缓的指标,峰度越大,分布形态越陡峭,总体的数值越集中。
峰度
- 峰度K=\frac{n(n+1)\sum (x_i-\bar{x})^4-3(\sum (x_i-\bar{x})^2(n-1))}{(n-1)(n-2)(n-3)s^4}