好研网
博客中心 > 教育满意度调查样本容量的确定

教育满意度调查样本容量的确定

发布时间:2014-02-01 16:12:00 作者:674311 浏览次数: 评论:2 分享

教育满意度调查样本容量的确定

 

  要:教育满意度调查越来越普及,然而不少调查项目没有遵守社会调查的科学规范,随意指定样本量。常见的抽样错误有误用“大样本”、按比例抽样以及使用了错误的样本框。确定样本量的科学方法应当基于抽样理论,根据研究的需要进行估计。在一般的社会调查中,可以适当采用通行的经验规则。

关键词:满意度调查    抽样    样本量    教育研究

 

 

一、问题的提出

随着依法行政的深入推进,绩效评估和问责制越来越受到重视。近年来,满意度调查作为政府部门绩效考核必不可少的组成部分,被广泛地应用于各个领域。一些行政部门在实施满意度调查时,工作热情高涨、理性行为缺失,出现了违背科学规律盲目蛮干的现象。有的调查项目设计不规范,个别项目甚至根本不知如何确定样本,无视科学依据随意指定样本数量。

拟从2012年起分期实施的某项教育满意度调查,以县为单位进行调查,要求对40万以上人口的县,按总人口的1.5‰进行抽样;40万人口以下单位,样本数为600。我国人口超过100万的县市100多个,个别县市人口达200多万。采用这种抽样方案,对人口多的县市是非常大的负担。

全国范围内实施该项民意调查,预计总样本数将超过250万份。为了确保问卷调查的可靠性,一些省市要求学生家长“集中填写问卷”,这意味着非常高的调查成本。粗略估计,参与问卷调查的家长平均每人需要花费半天的时间,误工损失近100元,外加交通和餐饮费,每份问卷的调查成本超过120元。那么,全国完成该项调查的最低成本为3亿元左右。如此庞大的民意调查花费,是对有限教育资源的巨大浪费。按照科学的方法开展教育满意度调查,根本不需要这么大的样本量。

 

二、常见的抽样错误

(一)误用“大样本”

一种常见的错误是误用“大样本”。这种错误来源于某些文献对抽样论述不细致,一些文献仅仅提及到大样本和小样本概念,让人误以为“大”就是够用。其实“大样本”的概念是与数据分布联系在一起的。

数据的正态分布有助于把握数据之间的内在联系,揭示数据背后的隐含意义。一般情况下,小于30个样本,数据无法表现出正态分布;大于30个样本,数据呈正态分布。样本越大,数据的分布越接近正态分布曲线。30个以上的样本叫“大样本”,小于30个样本叫“小样本”。30个样本是数据分布正态化的数量下限。有人误解,认为“大样本”就是可靠的样本,不管做什么研究,只要选取30个以上样本就行。

(二)按比例抽样

人口普查或统计调查等是广大人民群众广泛知晓的按一定比例社会调查,人口普查抽样比例高,许多人因此以为,社会调查应当按比例抽样,抽样比例越大,精确度越高。

人口统计是以统计学方法分析人口的生物学和社会学特征,预测人口流动和变化情况,为经济社会发展提供科学的基础数据。中国年度人口统计抽样比分3种:大普查年份抽样、小普查年份抽样比1%、普通年份抽样0.1%。2010年《中国人口和就业统计年鉴》使用的数据,大部分是以0.873‰抽样比采集的。

北京是人口抽样调查样本2011年提高到2%,而往年抽样调查样本比为0.2%例。中国人口调查十年一次全民大普查,逢“0”的年份进行;五年一次抽样比例为1%的小普查,逢“5”的年份进行;既不逢“0”也不逢“5”的年份,则进行人口变动年度抽样调查,抽样比例全国规定是0.1%,北京基本按0.2%的比例抽样,这些抽样调查正是每年北京发布最新人口规模的依据。如2009年市统计局公布,年末全市常住人口1755万人,比上年末增加60万人,主要就是靠年度人口抽样调查来推算。[1]

弗洛德把按某一比例确定样本量称为“一个普遍的误解”。在总体的规模较小时,样本占总体比例的变化会影响推断结论的可靠性。但是,在大多数情况下,样本仅仅占总体的极小部分,这时样本比例“增加一点”不会影响研究中从样本推断总体的能力。[2]

总体规模对于从中选出一定规模的样本能否很好地描述总体并没有实质性的影响,假设样本设计和抽样过程的所有方面都是一样的,一个由150人组成的样本对由一个15 000或1 500万人构成的总体进行描述,可以得出同样有效的精确结论。

其实在社会调查实践中,样本量占总体的比例不是一个理论值,而是一个经验值。比如在世界各国的人口普查或人口调查中,抽样比例并不相同,即使是同一个国家,在不同时期,采用的抽样比也存在着差异。但是,即使是这一经验值,也只是在调查研究所受各种约束条件下一种可行的选择,并不是必然的选择。弗洛德明确表示:[3]

指定一个总体的分数作为样本规模的方法不是确定样本规模的恰当方法。抽样误差从根本上说取决于样本的规模,而不是取决于总体体现于样本中的比例。

(三)错误的样本框

一个理想的样本框中,每一个研究对象都有同等的机会被选中作为样本,以保证样本的代表性。总体的情况往往非常复杂,常常包含若干不同特征和规模的亚群体,这就要求在抽样的时候全面考虑各种因素,以确保样本涵盖到总体中的所有单元。失真的样本框导致错误的研究结论,最著名的案例是美国《文学文摘》对1936年所做的选情预测。

《文学文摘》在1890年至1938年是美国一种流行的期刊,它通过调查,成功地预测了1920到1932年间4次美国总统大选。1936年大选前夕,《文学文摘》选择1000万人进行民调,得到超过200万的回应,预测罗斯福的竞争对手将赢得选举。而实际的结果是罗斯福以历史上最大的优势赢得选举。其预测失败的原因在于,它仅仅从电话号码薄、车牌登记名单中选取样本,这些人是少数富人,选取样本把占绝大多数的穷人排除在外。在当时经济萧条的情境下,穷人是罗斯福的有力支持者。

如果抽样方法不科学,样本的代表性不够,即使基于巨大样本量得出的结论,也无法可靠地反映总体,得出不真实的结论。在进行研究设计时,不仅仅考虑样本量大小,而且还应当要确保样本的代表性。

随着统计学研究日益深入,抽样调查技术不断优化,调查结果越来越准确,而样本量越来越小。2000年美国总统选情民调,若干民调机构精确地预测到选举结果,误差不超过2个百分点。这些机构调查的样本量不到2000。[4]

 

三、如何确定样本量

(一)抽样理论

在很大程度上,研究设计决定了样本的规模。比如,实验研究中,15个样本可能就具有很好的代表性。在推断研究中,可能需要较大的样本量来推断总体的特征,样本量的大小视具体情形而异。

之所以要进行抽样,是因为无法观察总体或者观察总体需要的代价太高。社会科学研究方法允许通过基于对样本的研究,来推测总体的情况。从理论上说,样本在总体中占的比例越大,推测的结论越可靠。因此,在不计时间和金钱的条件下,可以地研究尽可能多的样本,以提高科学性。但是,当可靠性提高到一定程度,继续增加样本量也不会大幅度提高可靠性。

研究设计常常面对两难境地,太大的样本会浪费人力、财力,太小的样本会减少调查结果的效用。最困难的是,经常没有足够的资料使我们可以确信所选取的样本量是是最好的。[5]所幸的是,在长期的研究实践中,基于统计学理论,人们发现了关于确定样本量的规则和知识,积累了不少有用的经验。这些规则、知识和经验,形成了今天被广泛遵循的“抽样理论”。

    (二)几种常见的样本量确定方案

基于样本平均数估计总体平均数。例如从考生总数为5万人的总体中,抽出一个大小合适的样本,通过样本的平均分来推断总体平均分。要求允许的误差δ=3,可信度为99%。

由于总体标准差σ未知,样本平均数与总体平均数离差统计量呈t分布,其统计量为:ta/2= ;根据公式计算样本量的公式:n= 。ta/2不是常数,它随自由度df=n-1的大小而变化。在样本量确定前,自由度无法确定。所以要求得样本量n的值,需要采用尝试法。首先将假设自由度df=∞的ta/2值代入上面的公式,计算出n1,再把df=n1-1的ta/2值代入公式,求出n2、n3,直到连续两次求得的n值相等。

实际上,对样本标准差的无偏估计值S也是未知值。我们以一般的正常测量分数为参照,为方便说明计算方法,S取值为10来加以计算。因为α=0.01(双侧),查t表,t0.01=2.575 8。当S=10时,n1= =73.7≈74。根据df=74-1=73查tt740.01=2.644,计算n2= =77.7≈78,再计算n3=78。统计学家用尝试法研制了由样本平均数估计总体平均数所需样本量表,以总体标准差估计值S与最大允许误差δ的比值为依据,对所需样本数量进行列表。查表所得值与上述计算方法所得值完全一样。

以样本比率估计总体比率。样本量越大,样本比率的抽样分布越趋向于正态分布,那么对总体比率估计的样本量可以用公式来计算:

n= =

Za/2表示α值置于正态分布两端时相应的Z值,δ为最大允许误差,p为样本比率。例对某地区中小学生睡眠障碍进行比率推断的样本量进行确定。假设从已知文献中得知,其他地区中小学生睡眠障碍检出率为15~18%;可保守估计本地区睡眠障碍比率为25%,允许最大误差为0.03,99%的可信度,α=0.01。查表得Z=2.58,代入公式,n= =1386.75≈1387。

    两个样本平均数差异性检验、比率差异性检验以及相关系数显著性检验,都有不同的计算公式。总之,调查研究的抽样,样本量的确定绝不是以总体的某一比例来规定,都需要依据统计学理论进行计算。

(三)实践中的运用方案

在简单随机抽样的条件下,要求可信度为95%、误差限为0.05,不论总体多大,400个样本即可满足给定的精度要求。因此,有的人把400个样本看成是“饱和样本”。

国外的满意度调查实践看,样本量一般为200多个。ACSI 的每个公司有大约250个样本,ECSI 的每个公司有至少250个样本,NCSI 的每个公司有200个样本。对于我国顾客满意度模型研究,在确定顾客满意度研究的样本量时,要综合考虑样本代表性、模型参数估计和检验的需要。从以上3个方面的模型参数估计的准确性角度,使用PLS( Partial Least Square) 方法估计顾客满意度模型最小推荐100个样本;最好230个样本以上。[6]弗洛德也认为,250个左右的样本量,能够满足一般的调查需要。

综上,从调查总体按特定比例抽样并不是科学的方法,某些项目由于调查的复杂性,必须采用大容量样本,样本量与总体的比例,不是必然要求。像满意度调查这类简单的调查,根本不需要太大的样本量。以县为单位的教育满意度调查,其样本量宜确定为200左右,既靠保证调查精度在可接受的范围,又大大节约了调查成本。在教育经费极其匮乏的时代,节约成本是一种明智的选择。从另一种意义上说,政府行为必须遵循科学规范,建立在科学性的基础上。

 

 

参考文献



[1] 锦尨. 北京年度人口抽样调查今入户 样本量为往年十倍[EB/OL]. http://www.china.com.cn/info/2011-11/01/content_23781519.htm,[2012-0413]

[2] [美]弗洛德·J·福勒,JR. 调查研究方法[M].孙振东,龙藜,陈荟译.重庆:重庆大学出版社,2004:36.

[3] [美]弗洛德·J·福勒,JR. 调查研究方法[M].孙振东,龙藜,陈荟译.重庆:重庆大学出版社,2004:38.

[4] [美]艾尔·巴比. 社会研究方法:第10版[M]. 邱泽奇译. 北京:华夏出版社,2005:174.

[5] W.G.科克伦. 抽样技术[M].

[6] 梁艳,金进勇. 顾客满意度模型的样本量研究[J]. 统计研究,2007(07):68-73.

已到第一张图片了。

重新播放

已到最后一张图片了。

重新播放






评论 已有