reading-notes

张俊的读书笔记

View project on GitHub

相关与非参数检验-二项检验

概述

二项检验使用样本数据评估关于含有二项数据总体p与q值的假设。

二项检验的假设

在二项检验中,虚无假设陈述了总体概率p与q的精确的值。理论上,你可以选择任意H0的概率,但是通常存在着选择这些值的明显理由。虚无假设通常是下面两个类别的一个:

  1. 只是偶然
    1. 通常,虚无假设认为,两个结果A与B在总体中发生的概率可以被预测为简单的偶然性机会。例如,如果是抛硬币,虚无假设可以陈述为p(正面朝上)=1/2,p(背面朝上)=1/2.注意,这个假设陈述了常见的平衡硬币的机会概率。还要注意的是,不一定需要陈述两个概率。只要说明了p,q值为1-p。对于抛硬币的例子,虚无假设为:H0:p=p(正面朝上)=1/2(硬币各部分密度均匀)
    2. 同样,如果你从一副牌中抽取一张,并试图预测每次抽取的花色,对于任意一次抽取,正确预测的概率将是p=1/4(有四种花色,你有1/4的机会猜中)。在这种情况下,虚无假设为:H0:p=p(猜测正确)=1/4(结果完全取决于几率造成的)
    3. 在每种情况下,虚无假设只是陈述了总体不存在异常时的情况;也就是说,结果的发生是由偶然的机会造成的。
  2. 没有变化或没有差异
    1. 通常,你可能知道一个总体的概率,并想要确定同样的概率是否存在于另一个总体中。在这种情况下,虚无假设为:在两个总体之间不存在差异。假如国家统计说明,明年12个司机中就有1个将发生交通事故,那么16岁初次驾驶的司机中也有同样的概率吗?依照虚无假设:H0:对于16岁的司机,p=p(事故)=1/12(与一般总体没有不同)
    2. 同样,假如去年有30%的新生没有通过大学写作考试。今年,大学要求所有新生参加写作课程。这个课程能对考试不及格的人数产生影响吗?依照虚无假设:H0:对于今年的学生,p=p(不及格)=30%(与去年没有不同)

二项检验的检验统计量

像我们在第6章注意到的那样,当值pn与qn都等于或大于10时,二项分布近似于正态分布。这个事实非常重要,因为它允许我们计算z分数,并使用正态分布表回答关于二项事件的概率问题。具体来说,当pn与qn都不小于10时,二项分布将有下面的属性:

  1. 分布的形状近似于正态。
  2. 分布的平均数是$\mu=pn$ 。
  3. 分布的标准差是:$\sigma=\sqrt{npq}$

有了这些参数,就可以计算二项分布中每个X值对应的z分数。

$z=\frac{X-\mu}{\sigma}=\frac{X-pn}{\sqrt{npq}}\ (19.1)$ ,见公式6.3

这个是被用于二项检验的基本z分数公式。然而,我们简单变化一下这个公式,使它更符合二项假设检验的逻辑。这个变化就是将z分数的分子与分母同时除以n。得到的公式是:$z=\frac{X/n-p}{\sqrt{pq/n}}\ (19.2)$

对于二项检验,这个公式的值被定义为:

  1. X/n是样本中被归入类别A的个体的概率。
  2. p是在总体中被归入类别A的个体概率的假设值(从H0得来)。
  3. $\sqrt{pq/n}$是X/n样本分布的标准误,它表示样本统计量(X/n)与总体参数(p)之间的标准距离。

因此,二项z分数的结构(公式19.2)可以表示成:$z=\frac{X-\mu}{\sigma}=\frac{X-pn}{\sqrt{npq}}$=(样本概率(数据)-假设总体概率)/标准误

二项检验

二项检验的假设

二项检验要求两个假定条件:

  1. 样本必须由独立观察值组成。
  2. pn与qn的值必须都大于或等于10,才能使用正态分布表来决定玲姐区域。

卡方检验与二项检验的关系

两个检验之间的关系可以被表示为公式:

$\chi^2=z^2$

符号检验

虽然二项检验可以被用在很多不同的情况下,有一个特殊应用应该被重视。对于比较两个条件的重复测量研究,通常可以使用二项检验来评估结果。重复测量研究测量了同一个体在两种不同的处理条件下或在两个不同的时间点上的情况。当测量提供了数值分数时,研究者可以直接计算两个分数之间的差,然后用重复测量t检验评估数据。然而,有时研究者可能只记录了两个观察值之间差异的方向。例如,临床医生可以观察病人在治疗前与治疗后的情况,只是注意到了每个病人是否好转或恶化了。注意,临床医生只是记录了变化的方向。没有关于变化程度的测量;还要注意,变化的方向必须是二项变量。也就是说,只有两个值。在这种情况下就可以使用二项检验来评估数据。传统上,变化的两个可能的方向用正负号记录,正号说明增加,负号说明减少。当使用二项检验评估符号数据时,它被称为符号检验

例19.2 一个研究者检验了针灸治疗关节炎的效果,他以36个被诊断有关节炎的人做样本。在治疗开始前测量每个个体的疼痛程度,在针灸治疗4个月之后再次测量他们的疼痛程度。对于每个样本,治疗后,25个人的疼痛症状减轻了,11个人的疼痛加重了。这些数据能说明质量有显著的效果吗?

符号检验的零差异