统计学学习笔记


数据分析的一些总结和笔记

明确几个概念

  • 大学的学的概率论与数理统计其实是由概率学和统计学两部分组成的。现在重点学习一下统计学
  • 统计学可以分为两种:描述统计学和推论统计学。描述统计学相对简单,大部分都知道。就是统计数据的
    具体参数。比如平均数,众数,中位数,方差等等。推论统计学就比较厉害了。核心理论是大数定理。核心内容是
    抽样分布,参数估计和假设检验。
  • 概念不清,建议购买一本教材。推荐中国人民大学出版社的<<统计学>>第六版,作者贾俊平,何晓群等

数据分析基本入门方法

  • 数据分析基本分析方法:相关并不代表因果(correlation doen not prove causation),两个变量相关并不意味着其中一个是另一个发生的原因。
  • 随机样本的解释:每个对象被选中的概率是一样的。

集中趋势

  • 平均数的缺点:当有异常值得时候,数据分布会被拉偏,得出的结论也具有误导性。这方面众数可以弥补。

    涉及到一些中英对照

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    均值->mean
    中位数 ->median
    众数->mode
    偶数->even
    奇数->odd
    正态分布->Normal
    双峰分布->Bimodal
    偏斜分布->Skewed
    均匀分布->Uniform
    箱线图->Boxplots
    直方图->Histogram

方差的一些注意点

方差可以分为两种,样本方差和总体方差。在 Google 表格中对应的函数分别是 Stdev 和 Stdevp.
在实际过程中往往我们是不知道总体方差的,所以通常使用样本方差去估计总体方差。所以通过贝塞尔校正系数
来弥补这样带来的缺陷。

标准差与标准误

  • 这个容易混淆。具体可以参考这篇论文,讲的非常清晰。让我来替你弄清楚他们两个吧
  • Standard deviation of the sampling distribution (抽样分布的标准偏差)
    =stand error (标准误差)

这里深刻理解两者的含义就很好理解.两者的对象不同.
标准差针对的是个体之间的差异,是整个 样本对样本 平均数的离散程度 ,是数据精密度的衡量指标
而标准误差反映 样本平均数对总体平均数 的变异程度 ,从而反映抽样误差的大小,是量度结果精密度的指标

抽样分布

如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到N取n的组合个样本(所有可能的样本个数)。抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。由平均数构成的新总体的分布,称为 平均数的抽样分布 。随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。

如果特指的统计量是样本均值,则此分布为均值的抽样分布。类似的有标准差、方差、中位数、比例的抽样分布。

参数估计

  • 理解点估计和区间估计
  • 正确理解置信区间
  • 根据样本量,总体方差是否已知,是否是正态分布来正确选择总体均值的区间估计计算公式
  • 一个总体参数和两个总体参数的区间估计方式不同
  • 在两个总体参数内部根据样本数量不同计算方式也不同。小样本情况下可能会涉及到总体方差的合并

假设检验

  • Cohen’s d 的含义
    以标准偏差作为单位,这些均值之间相差多少

  • 相依样本或者重复试验。一般有一下几种。

    1. Repeated measures design ->重复衡量设计
    2. Longitudinal design ->纵向设计
    3. Pretest posttest->预期检验 后期检验

总的来说就是只有一个总体参数,好处是节约成本,坏处是有残留效应

  • 独立样本

总的来说就是有两个总体参数。好处坏处与上面相反

  • 理解 P值
  • 我们应说“保留零假设”或“未能拒绝零假设”,而不是“接受零假设。
  • 理解什么时候用单测或者双侧校验。
  • 同上根据总体参数数量,样本数量,总体方差是否一致,采用不同的方式来进行校验。

一些概念通俗理解

协方差与相关系数

参考知乎上这个通俗解释

总结一下就是:

  • 如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高.反之,说明X,Y 反向运动,协方差绝对值越大,说明反向程度越大
  • 相关系数就是对协方差的一个标准化.用于评判(X1,Y1)和(X2,Y2)不同对之间的相关性.

自相关系数和偏自相关系数

参考这个可以对自相关有个理解

排列与组合

知乎通俗解释
总结:

  • 排列关注取出一定情况下,在内部再进行一次排列
  • 组合只关注取出的情况,不关注内部排列顺序

箱线图

箱形图为什么能检测异常值,原理是什么?
箱线图有两种功能:

  • 检查异常值,如果你认为数据里面有异常值的话
  • 看数据整体分布.如果你认为数据里面都是正常值.

总结

频率主义(传统经典统计学)和贝叶斯主义

参考这个实现

布兰大学根据统计学做的可视化,更好的理解统计学