卡方测验

卡方检验是一种用于确定观察到的频率与期望频率之间差异的统计检验。它可以用于比较两个或更多组分类变量的频率分布,以确定它们是否来自同一总体。

下面是进行卡方检验的基本步骤:

  1. 提出假设:你需要提出原假设和备择假设。原假设是指两个或更多组之间没有显著差异,而备择假设则是指它们之间存在显著差异。
  2. 确定显著性水平:在进行卡方检验之前,你需要确定显著性水平,通常为0.05或0.01。这表示如果计算出的p值小于显著性水平,则可以拒绝原假设。
  3. 收集数据:你需要收集每个组的样本数据,并计算每个组的观察频率。
  4. 计算期望频率:根据原假设,计算每个组的期望频率。
  5. 计算卡方值:将观察频率和期望频率之间的差异平方除以期望频率,然后将所有结果相加,即可得到卡方值。
  6. 查找临界值:使用自由度和显著性水平查找卡方分布表格,以确定拒绝原假设所需的临界值。
  7. 进行统计检验:比较卡方值和临界值。如果卡方值大于临界值,则可以拒绝原假设,并认为组之间存在显著差异。如果卡方值小于或等于临界值,则不能拒绝原假设。

例子

假设你是一位研究人员,想要确定在某个城市中,男性和女性的吸烟率是否存在显著差异。你随机选择了200名男性和200名女性,并记录了他们是否吸烟的情况。你的原假设是男性和女性的吸烟率没有显著差异,备择假设是男性和女性的吸烟率存在显著差异。

下面是卡方检验的步骤:

  1. 提出假设: 原假设:男性和女性的吸烟率没有显著差异备择假设:男性和女性的吸烟率存在显著差异
  2. 确定显著性水平:假设我们将显著性水平设置为0.05
  3. 收集数据:你收集了200名男性和200名女性的数据,并记录了他们是否吸烟。结果如下:
吸烟 不吸烟 总数
男性 50 150 200
女性 30 170 200
总数 80 320 400

计算期望频率:根据原假设,男性和女性的吸烟率相同。因此,期望频率可以通过以下公式计算:

男性吸烟人数的期望频率 = (男性总人数 × 吸烟总人数) / 样本总人数 = (200 × 80) / 400 = 40

男性不吸烟人数的期望频率 = (男性总人数 × 不吸烟总人数) / 样本总人数 = (200 × 320) / 400 = 160

女性吸烟人数的期望频率 = (女性总人数 × 吸烟总人数) / 样本总人数 = (200 × 80) / 400 = 40

女性不吸烟人数的期望频率 = (女性总人数 × 不吸烟总人数) / 样本总人数 = (200 × 320) / 400 = 160

  1. 计算卡方值:根据上面的期望频率,我们可以计算出每个单元格的卡方值,然后将所有单元格的卡方值相加,得到总的卡方值。计算公式为:

卡方值 = Σ [ (观察频率 - 期望频率)² / 期望频率 ]

​ 卡方值 = [(50-40)² / 40] + [(150-160)² / 160] + [(30-40)² / 40] + [(170-160)² / 160] = 2.5

2.确定自由度:自由度的计算公式为自由度 = (行数-1) × (列数-1),在这个例子中,自由度为 (2-1) × (2-1) = 1。

3.查找卡方分布表:在自由度为1时,显著性水平0.05对应的卡方值为3.84,而计算得出的卡方值2.5小于3.84。

4.得出结论:因为计算得出的卡方值小于临界值3.84,所以在显著性水平0.05下,我们无法拒绝原假设,即男性 和女性的吸烟率没有显著差异。

卡方检验的重点在于通过计算卡方值来判断两个变量之间是否存在显著性关联。具体来说,卡方值是通过比较观察频率和期望频率之间的差异来计算的,如果两者之间差异很大,则卡方值会比较大,反之则会比较小