快捷搜索:

记数数据统计法—卡方检验法

  统计数据统计 - 卡方检验

  一,卡方拟合检验一,卡方检验的一般问题卡方检验应用于计数资料分析,对于任何假设的整体分布,所以是非参数检验之一。这是由统计学家皮尔森派生的。理论上,实际观测次数([font =] fo)与理论次数(也称为预期次数)之差的平方除以理论次数并近似于奇校验次数平方分布。表示为:这是原始的卡方检验,其中f越大,近似值越好。显然,[font =] fo和[font =] fe之间的差别越大,卡方值越大; [fo = fo]和[font =] fe之间的差值越小,卡方值越小;指示[font =] fo和[font =] fe之间的区别。根据这个公式,可以认为卡方检验的一般问题是检验名义变量的实际观测数与理论数的分布是否存在显着差异。它主要用于两种情况:卡方检验可以检验实际观测次数与单个多项分类的名义变量的每个类别的理论数目之间的一致性,其中观察次数基于样本数据更多的真实数量,理论数量是根据理论或经验来获得预期的次数。这种测试称为合适测试。拟合检验的零假设是,观察次数和理论检验次数之间没有差异。理论数的计算一般是根据一定的理论,按一定的概率由样本得到的实际观测值进行计算。这里提到的一些理论可能是经验的或理论的。确定理论卡方检验的数量是关键。拟合测试的自由度的确定与两个因素有关:一个是被分类的项目的数目,另一个是在理论时间的计算中使用的统计或约束的数目,这是自由度。因为在理论频率的计算中一般只使用[font =]“total [font =]”统计量,所以自由度通常是分类中的项数减去[1]。然而,在连续数据分布匹配程度的检验中,理论的数量往往是通过数据个数,均值,标准差等统计量来计算的,所以这时候的自由度应该从总分类项目由更多数字组成。根据理论测试数量的定义,拟合测试具有以下的集中应用。二,检验无差异的假设所谓无差异假设,就是每个类别的实际计数没有差别,即每个类别的概率相等(均匀分布),所以理论上的正确数目与计算概率相同的条件。也就是说,任何一个的理论数量都等于[font =] / category的总数。因此,自由度等于分类数减去[font =] 1。[例子:] [例子]随机地扔出麻将骰子300次,看看骰子面是否均匀。结果如下:[font =] 43,[font = 49],[font =] 56,[font =解决方案:每个类的理论数量是[font =] 300/6 = 50,并代入公式:因此,在[font =] 0.05的显着性水平上,这个骰子的六个面是统一的。随机询问了62名新生,问他们是否应该细分为艺术,回答是肯定的,反对21人,询问是否有重要的区别。解决办法:如果没有显着差异,那么每个职业和对手的每一半,因此一个测试没有差异的假设,所以理论次数[/] = 60/2 = 30,进入公式:所以对于文科而言,学生的态度是有显着差异的。三,检验假设分布的概率这里的假设分布可以是经验的,也可以是理论分布。公式中所需的理论数量是根据这里假定的分布来计算的。 [例3]国际色彩障碍研讨会宣布,每12名男子中就有一名是先天性色盲。在一所学校抽取的132名男生中,有4人是盲人,询问男性的色盲率与上述比例是否有显着差异解决方法:根据国际研讨会的统计在颜色损害方面,有132人应该有色盲,其余的121人是非盲人的,用公式表示:因此,在0.05和显着性水平上,男性的色彩 - 男性盲人比例和国际色彩心理学研讨会的统计数据。显然,按照这个比例,色盲比国际色彩障碍研讨会要少。在CET 4中,一个学生做了正确的事情[font =] 28 [font = 4]确定学生是否完全在猜测这个问题。解决方案:如果学生完全猜测,那么平均来说,每个问题的正确概率是[font =] 1/4,所以[font = [font =] 80/4 = 20个问题,公式是:[font =] [font =]因此,学生可能会做一些问题。连续变量分布的拟合检验对于一组连续的数据,经常需要讨论其分布顺序遵循何种理论分布。这方面的主要应用是在常规的正常性测试之前经常提到的。首先将测量数据分类到频数分布表中,绘制二次分布,据此选择合适的理论分布。这些理论分布是不同的,例如正态分布,均匀分布等。然后根据所选理论计算的理论分布数,计算卡方统计量和显着性检验。如果差异显着,说明所选择的理论分布不合适,则可以选择一个理论分布来测试,直到完全合适。当然,有时候只需要测试一下是否有一定的理论分布,比如常态测试(详见课本内容)。 [font =]连续随机变量分布的一致性检验,关键步骤是计算理论的数量和确定自由度。理论计算的次数是根据所选理论的分布情况,并用统计数据来计算各组的统计量(频度分布表)的理论数量。自由度是组的数量减去用于计算理论数字的统计数量。 [font =]这个拟合测试更复杂,不是必需的。在卡方检验中,当分类数小于[5]时,卡方统计量不能满足卡方分布,此时需要校正卡方统计量,称为卡方连续性校正,公式如下:虽然这种校准方法,卡方统计可以更接近卡但是,我们仍然建议增加样品在实践中的能力,并尽量减少发生这种情况不受理论分配的限制。第2节独立测试[font =] - 卡方测试也可以用来测试两个或两个以上的因素(每个有两个或两个以上的类别)之间是否相互作用的问题,这个测试称为独立测试。例如,为了讨论血型与人格的关系,血型分为四类,人物采用心理学[font = A] A型人物有两种[font = A]和[font = B],每种这可能是由它们之间的交叉形成的八种类型之一[font =]。没有关系,你可以使用卡方独立性测试。 [font =]独立卡方检验是用来测试两个或更多的因素(每个有两个或多个类别)是否相互影响。所谓独立,即无关,互不影响,也就是说各个类别之间的比例因素,在另一个因素的分类下是相同的,比如血型和人格等] A型个性的比例,血型的关系类型,与B型人格类型相同的血型比例,可以说血型和个性是独立的,当然这里的比例相同[font =]在统计意义上,应该说“两个比例之间的差异不超过误差范围”,因为两个完全相同比例的样本集可能是小的,小的,甚至是不可能的。相反,如果一个因素的不同类别之间的比率对于其他因素各不相同,则它们是相关的。如果A型A型血的比例高于B型A型血的比例并且达到显着水平,那么可以说血型和性格相关,而不是相互独立。独立卡方检验的零假设是因素是相互独立的。所以理论上的计算次数是基于这个假设的,具体的计算方法,采用列联表的方法,下面将举一个例子。对学生课外活动的调查结果汇总如下表格,表格中的颜色方块的数字是原始数据,括号内的数字,里面的数字是理论次数(根据原则将在下面介绍),其余的是原始数据。[小计] [小计] [小计] [小计] [小计]娱乐[字体=] [font =] [font = (7.8)[font =](font =“fy”)[font =宋体]因为所有学生都以27:18:52的比例参加所有三项活动,如果课外活动的选择与性别无关,这三类活动的比例也应该是相同的比例,并且可以计算出男女的数量,所以每个单元的理论考试数量计算为如下:[font =]理论男生人数参加实际a理性参与休闲活动:[size = 55 * 18/97 = 10.2理论参与者人数:[size = 55 * 52/97 = 29.5 [font =参加体育活动的理论人数:42×27/97 = 11.7参加休闲活动的人数:42×18/97 = 7.8阅读活动的理论尺寸:42×52/97 = 22.5我们表示按照[font =] fx和[font = fy]分别排列,总数由[font =] N表示。因此,上述计算理论次数的方法可以表示如下:卡方独立性检验可以表示如下,其中最后一个公式更容易计算,font =] fxy代表每个细胞的原始数据。由于按照各个因子([font =] fx和[font =] fy)分类的小计用于计算理论次数,所以它们的数量用[font =] R表示,而总数[font =而这个总和又可以按照每个因素分类的小计来计算,所以从总的类别数量中减去[Rs = R + C]减去重复的总和,从而构成1个自由度,自由度最后测试的独立性是由上面的例子计算得出的:[font =] [font =]或者:[font =] [font =]这两个公式有一些不同的计算结果,这是(2)= 2,[font =]χ20.05(2)= 5.99,所以在[font =] 0.05的显着性水平上,拒绝零假设是性别可以被认为与课外活动的内容有关,或者男孩和女孩在选择课外活动方面存在显着差异。对于构成两个类别的两个因素中的每一个,数据被组织成大小为2×2的表格,这通常被称为对于四个网格表格,对于四个网格表格教科书给出更简明的公式:[font =] a,[font =] b,[font =] c,[font =] d要求[font =] a和[font =这个公式的含义是非常清楚的,就是当对角单元的数量越多,差异越大时,卡方检验就越容易显着,自然就意味着这两个变量之间的关系越接近。掌握了一般的[font =] R * C表格计算,这四个网格表计算相对简单多了。不要从这里开始[font =]请注意,在独立性测试中,还存在一个特定单元的理论情况的数量小于或等于[5]的问题。正如在拟合测试中,我们仍然建议在实践中增加样本容量,最大限度地减少这种情况的发生是不服从分配理论。而且,在独立性检验中,如果原假设被拒绝,即各种因素之间存在相关性,那么这只是一个总体结果,就好像只有在方差分析中确定了相互作用,而具体的关联无法回答表格的问题。如果因素是独立的,请在此停止。如果这些因素之间存在相关性,则应进行进一步分析,以清楚了解变量的数量是如何相关的。有一些方法可以检查这个卡方,但不像参数测试那么严格。卡方检验的独立性一般局限于两个变量之间的关系,对于一些名义变量,常常将一个变量独立的检验方法进行分割,然后尝试对多个检验的结果进行积分。这种做法似乎更加牵强。质量相关性由于使用卡方检验来解决变量之间的相关性,所以也可以构建与秩或秩相关的乘积相关的相关程度的度量以及相关的质量。 。常用质量相关如下:[相关性] [相关性] [相关性] [相关性] []仅适用于四格表,这就需要两个不同的变量。与Φ相关的公式实际上是通过对四格表的卡方值进行变换,使它们的值在正值和负值之间近似地变化,从而容易地将通用的相关系数的意义解释。在卡方检验中,我们提到卡方值的大小反映了实际人数与理论人数之差的大小,而独立检验的理论检验人数是基于独立假设两个变量的大小平方值的大小也反映了两个变量相互独立多远,彼此距离越远。因此,卡方值本身反映了两个变量之间的相关程度。 [font =]Φ相关公式如下:根据分子正负号的相关系数可以取正值和负值。然而,几乎所有与质量有关的相关性都不是独立构建的,所有这些都是卡方检验的卡方统计量的变化。所以实际上,只要进行卡方独立测试,那么这个两步过程就解决了一次。计算质量相关系数只是为了更好地理解这两个变量之间关系的紧密程度。相关性实际上是从四格表格到一般应急表格的适用情况的扩展。关联公式的来源与[]基本相同。关联的公式是:[font =] [font =]该系数的值也在[font =] 0和[font =] 1之间,而不考虑[1]。和使用[font =]Φ一样,最好先验证两个变量在使用连接之前是否相关,这只有在两个变量相关时才有意义。 [font =] [font =]阅读材料[font =]
有一个班长,有两个考生,分别是[font =] A和[font =] B,45和[font =老师认为选票的差距太小,不足以表明[font = B]更受欢迎。因此,他决定让两人一星期连续监督两周后公开投票。 B不服气,那老师古怪,你主动为他服务,你能用统计知识来解释这个投票结果吗?首先想想。在这种情况下,卡方分布可以用来测试两个候选人的选票之间是否有显着差异。 (实际频率)[(预期频率)[font =] [font =] 45 [font = 2] [font = 2] [font = 0.68,很显然,两票之间确实没有显着差异,老师的决定是对的。

  关键词:标准材料应用sci设计

您可能还会对下面的文章感兴趣: