reading-notes

张俊的读书笔记

View project on GitHub

概率

概率介绍

在可能出现几种不同的结果的情况下,对于任一种特定结果的概率被定义为所有可能结果的分数或比例。如果将可能的结果表示为A、B、C、D等,那么:

A的概率=结果为A的个数/可能的结果的总数

一个随机样本要求在总体中的每个个体都有相等的机会被选择。对于许多统计公式都是必要的第二个要求是,如果选择不止这个个体,选择这个个体的概率与选择另一个个体的概率必须相同。

概率与正态分布

概率与二项分布

二项分布

  1. 两个类别被记做A和B。
  2. 与每个类别相应的概率(或比例)被记做:
    1. p=p(A)=A的概率
    2. q=p(B)=B的概率
    3. p+q=1.00
  3. 样本的个体或观察的个体被记做n。
  4. 变量X指类别A在样本中出现的次数。

使用这个记号法,二项分布显示了与从X=0到X=n的每个X值相应的概率。

二项分布的正态近似

当n较大时,二项分布倾向于趋近正态分布。具体来说,pn和qn都大于等于10的时候,二项分布将会是一个近似的正态分布:

平均数:$\mu=pn\ (6.1)$

标准差:$\sigma=\sqrt{npq}\ (6.2)$

$z=\frac{X-\mu}{\sigma}=\frac{X-pn}{\sqrt{pqn}}\ (6.3)$

关于推论统计

图6.12所示为来自我们的假设研究的最初总体。注意大部分的分数位于μ=400附近。另外还需注意,我们已经分布的中央95%与极端的5%分开的界限。边界位于z=+1.96和z=-1.96处(右尾端极端值0.025的边界为z=+1.96,左尾端极端值0.025的边界为z=-1.96。这两个尾端合计占分布的0.05)。

边界被设定在z=±1.96,这决定了样本是否与原始的总体显著不同的客观标准。具体来说,一个落在超过z=±1.96的边界以外的样本不只是极端值,它也极端地不可能出现,这里“极端地不可能”被定义为小于等于5%的概率。