统计思维-程序员数学之概率统计


经验之谈无法提供有说服力的证据和可靠的结论:

为了解决经验之谈的种种不足,运用下面的统计学手段:

横断面研究(cross-sectional study):研究的是在同一时间内的样本数据。 纵贯研究(longitudinal study):在一段时间内反复观察圈定的样本。 被调查者(respondent),一组被调查者被称为队列(cohort)


连续模型也是一种数据压缩。如果模型能很好地拟合数据集合,那么少量参数就可以描述大量数据。

  1. 指数分布 独立事件发生时间的间隔分布符合指数分布。
  2. 帕累托分布 现实中财富的分配状况,居住地区的规模大小,都符合帕累托分布
  3. 二项分布 n个独立的是非实验中成功次数的离散概率分布
  4. 泊松分布 单位时间内随机事件发生次数的概率分布
  5. Beta分布 狄利克雷分布

偏度(skewness)是一个分布函数不对称性的度量,通常我们可以通过比较平均值和中值来判断分布是左偏还是右偏。如果平均值小于中值的话,那么意味着左偏,反之右偏。

如果了解数据符合某个分布的话,我们还可以进行估计,但是估计和指标之间是存在鲁棒性差别的。比如指数分布,指数分布的均值是1/lambda. 但是通过均值来估计lambda, 如果数据中存在异常点的话,那么lambda估计偏差会比较大。更好的指标是通过中位数估计是log(2)/lambda,使用中位数来估计受异常点的影响小,鲁棒性更高。


频率论在哲学上是没有错误的,但是它却限制了概率的使用范围,只限于随机的物理系统(例如原子衰变)或因无法预测而被视做随机的系统(例如意外死亡)。任何涉及人为因素的情况都不使用。还有一种观点是贝叶斯认识论(bayesianism),这种观点将概率定义为时间发生的可信度。根据这个定义,概率几乎能用于所有情况。贝叶斯概率的一个问题是它会受个体认知的影响。

统计学家在各种体育运用中测试了这些假设,但所有的结果都是一致的:不存在诸如连胜,连败这一类的东西。假设每次比赛都是独立事件,看到多次连胜或者连败的情况也很正常。这并不能说明这次获胜和下次获胜之间有什么联系。另一个类似现象是聚类错觉(clustering illusion),指看上去好像有某种特点的聚类实际上是随机的。

确定系数 (Coefficient of Determination)也就是常说的R2,来评价模型的预测能力。 R2 = 1 - Var(e) / Var(y). 其中Var(e)是true和pred的MSE,Var(y)是true_avg和pred的MSE.

两个变量之间的相关性可以通过 皮尔逊相关系数(pearson correlation coefficient) 量化。它只能用来测量两变量间的线性关系,而没有办法测量非线性关系,此外它的量化值也不一定反应在图的斜率。为了解决它受异常点的影响比较大的问题,可以在计算之前将变量值变为变量秩(rank), 这样得到的相关系数是 斯皮尔曼秩相关系数.


统计显著检验:

整个思路可以这么理解:为了说明某个统计效应是显著的,先假设这个效应不存在。然后在这个假设下计算出,出现该效应的概率p值,如果这个p值很小的话,那么就认为具有统计显著性。

对于双边检验(偏差的绝对值在一定范围内就认为是可以接收的),p值通常设置为0.05. 对于单边检验(偏差不能大于或者是小于某个值),p则减半通常为0.025. 对于假设的检验我们可能会出现两类错误:false positive(假阳性,接受假设是错误的情况),以及false negative(假阴性,拒绝接受假设是正确的情况)。p值可以控制假阳性的概率,p越小那么我们越有信心认为原始假设是正确的,但是同时我们承担一定的风险就是,我们可能会认为原始假设错误而实际是正确的假设。

统计显著检验只是从统计学角度得到的一个证明,至于人们是否接受以及现实是否会发生,则没有任何帮助。如果从概率论角度考虑的话,显著检验可以提升后验概率,提升比率称为贝叶斯因子

卡方检验 卡方分布 卡方分布是k个符合标准正态分布的变量的平方和叠加。卡方检验可以用来检查多个变量之间的分布是否有显著性的差异。