『壹』 统计数据的误差有哪些
众所周知,统计数据的准确性是统计工作的生命,提高统计数据质量是统计工作的重中之重.然而,对如何评价统计数据质量的统计误差指标,却是统计部门和统计工作者秘而不宣或者忌讳的问题,甚至在《统计学原理》中都很少讨论,广大群众对此颇有微词,笔者认为有必要进行探讨并澄清一些事实.
一、统计误差的分类
顾名思义,误差是指一个量的观测值或计算值与其真值之差;统计误差,即反映某客观现象的一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量.那么统计误差有哪几种呢?
1.按产生统计误差的性质来分有:空间误差、时间误差、方法误差和人为误差四种.
空间误差是指统计调查范围所产生的误差,包括重漏统计调查单位,跨区域统计等;
时间误差是指统计调查对象因时期或时点界定不准确所产生的误差.如企业核算时间不能满足统计部门的报表制度要求而估报所产生的误差;延长或缩短时期所产生的误差;时期错位产生的误差等.
方法误差是因使用特定的统计调查方法所产生的误差.如抽样调查中的代表性误差(抽样平均误差),它是指采用抽样调查方法中的随机样本(非全面单位)来推算总体所产生的误差的平均值,不是绝对的统计误差.对代表性误差可以根据组织方法和抽取本的容量,一般可以计算其平均误差,而且通过扩大样本量或优化调查的组织方法来缩小.又如统计部门因人力、物力和财力等资源不足,致使报送渠道不畅通,统计调查不到位,推算方法不科学、不规范所产生的误差.
人为误差是指在统计设计、调查、整理汇总和推算等过程中因人为过错产生的误差.人为误差是统计误差中产生因素最多的一类,它又分为度量性误差、知识性误差、态度性误差和干扰性误差.度量性误差是指统计指标因计量或者从生产量到价值量换算所产生的误差;知识性误差是指统计人员因统计知识不够,对统计指标的涵义不理解或错误理解所产生的误差;态度性误差是指统计人员因对统计工作不负责而随意填报统计数据而产生的误差,包括乱报、漏填或不按规定的计量单位填报等;干扰性误差是指统计对象或统计部门受某种利益驱动而虚报、漏报或者捏造统计数据所形成的误差.
2.统计误差按工作环节来分有:源头误差、中间环节误差和最终误差三种.源头误差是指起报单位或申报者所产生的误差;中间环节误差是指统计调查数据在逐级上报过程中所产生的误差,包括加工整理、汇总和推算等环节;最终误差是指下级各基层数据汇总数或规范的方法得到的推算数与最终使用数之间的差异值.按工作环节划分的统计误差类别是相对的,中间环节误差在不同的场合有可能是源头误差,也可能是最终误差.源头误差在有些场合也叫调查误差,或叫登记误差.
二、对统计误差的几点认识
1.宏观统计的误差是客观存在的,不以人们意志为转移的,统计部门的任务就是尽可能缩小统计误差.如计量误差,比方人的高度都有早晚不一致的现象存在,不同调查单位因量器质量不同、标准不同也必定产生误差.再如空间性误差,在实际统计过程由于社会经济现象的复杂性无法涵盖所有的调查单位所产生的误差.又举个最通俗的例子,菜贩买入100斤菜零售最后加总后可能是98斤,也可能不断往菜上泼水买出102斤,这就充分说明统计误差的客观存在性.
2.当前中国统计基础薄弱,统计数据质量不可高估,有些统计指标的误差还相当大.统计部门不要“黄婆买瓜,自买自夸”了,一定要有忧患意识.我记得一位香港统计专家曾指出:“中国统计好比建在沙漠的房子”,言外之意就是基础不牢.如GDP核算,全国数据与各省汇总数据有不少的差距,由地市汇总的数据与省一级的差距也很大,据说有些省差异率高达30%,如果以“各对50大板”计,其误差率也达到15%.又如1998年全国GDP的增长率为7.8%,而全国只有个别省低于7.8%,各省加权的平均增长速度近10%,全年新增GDP数值全国与各省的差异率高达25%以上.
3.计划和各类政绩考核对统计数据干扰不可低估.如果有兴趣的话,你可以统计一下各地GDP增幅比计划高或者持平的比率,可能是相当高的,这并不是说明计划部门的计划多么精确合理,而是说明统计数据确实受到干扰,当然干扰数据不一定是各级领导,而是统计部门或者方法不规范所致.再比如我市某乡镇若干年上造和下造的水稻播种面积一致,而且与考核指标有惊人的相似.又如有些乡镇不再需要村文书报数据,而是给乡镇反馈数据.
4.统计工作不是生长在“真空”中,统计数据也受到党风、社会风气、法律氛围和各种秩序的影响,因此统计部门无法完全控制统计误差.如统计源头数据或者原始凭证是财务核算或业务核算的数据,在这个环节出现误差,光靠统计部门是远远不够的.
5.统计误差与投入的人力、财力密切相关.现在上级统计部门动不动增加统计调查任务,根本不考虑基层的承受能力,导致数据质量严重下滑,统计职业道德有“沦丧”的危险,所谓“车到山前必有路”、“越难统计越好做”都说明了这些.
6.在统计工作中应有估计的合法地位.我们在推行抽样调查过程中,一般都采用点估计,实际是利用样本均值来推算,这本身就有代表性误差,应该在误差控制范围允许做适当的调整,以保证历史数据的平滑.在统计守法方面,往往政府统计部门及其统计人员可能是最大的违法者,在日常统计工作中有大量的估计成份,如基层报不齐需要估报,基层数据不符合逻辑需要调整等,这些都得不到统计法律、法规的保障,还好统计部门在守法和执法既是运动员又是裁判员.因此,统计工作中应在科学、规范的基础上允许进行必要的估计,并在《统计法》上明确给予综合统计部门这一权利.
7.统计部门要有科学的态度,不能做数字游戏,不要亵渎《统计法》赋予的“权威”.一是对每一项工作不能敷衍了事,要有求真务实的精神和精品意识,当前普查工作过多过滥的嫌疑,数据质量也不高,基层政府财政苦不堪言,而普查数据对当地经济建设或者决策的作用却不大;二是不能在人力、财力和物力不许可的情况下,不能层层布置落实新统计项目,如乡镇一级计算国内生产总值;三是要善用抽样调查,有些地方为考核乡镇政绩,每一个乡镇整群抽取10户农户登记(不超过总体1%)计算农民纯收入,显然代表性误差非常大,人为作假更为方便;四是基层政府统计部门的人员配置只能应付数据采集、处理任务,对社会经济运行的分析研究不是统计部门的优势,要扬长避短,不要顾此失彼,如果没有准确的统计数据,就不可能有高质量的统计分析,若只是数据文字化则本身就是徒劳.
8.要关注“富瞒穷虚”的统计现象.不少富裕地区没有完善全面反映社会经济的发展情况,反映总量指标时瞒的成分非常大,美言“留有余地”,而且在反映增长速度时大搞“橡皮筋”游戏,有很好的伸缩力,想缓速度少报几个单位,想加快速度多挖潜几个单位;而穷的、经济基础比较薄弱的地区,有强烈的“赶超”意识,千方百计地利用统计上的“盲点”,提高经济总量及其发展速度.如无法详尽搜集到统计资料的限额以上工业总产值、农业总产值等大做文章,来料加工产品按全值计算等.
三、统计部门在缩小统计误差中的应有作为
1.统计设计中必须对登记误差有要补救措施,建立所谓“测谎”系统.源头数据质量问题统计部门往往把责任推给受调查者,有无能为力之感.如农业普查采取逐户登记的办法进行,农户往不往不能或不敢如实申报,多数应该是少报,而我们在实际普查过程中,事后质量抽查实质是为了“测谎”,可惜很多普查机构对这一环节重视不够,面上调查完成后有大功告成的感觉,对这一阶段工作敷衍了事,不敢揭露问题,不深入开展工作,往往得到的误差几乎为零,使这一环节气扎扎实实走过场,得到结果可想而知,如农普的畜牧生产情况数据与原来的统计数据甚远,究竟哪个为准都没有说服力.在抽样调查方案设计中,也应建立“测谎”系统,否则调查误差始终是统计数据质量的“瓶颈”. “ 测谎”系统要建立必要指标体系和评价方法,要广泛使用数理统计中的假设检验方法.
2.必须有完善的指标体系及其计算方法.目前在总结国民经济核算体系中就速度问题的计算方法重视不够,五花八门,无所适从.而且到目前为止是继续采用过去一起沿用的不变价方法,还采用价格指数剔除法都不很明确,甚至专业统计和综合平衡统计计算方法截然不同,甚至省和市一级的计算方法也不同,公布的速度也不一样,造成不良的社会影响.
3.在抽样调查工作中,上下应该采取不同的样本,对总体单位较少的总体不宜采用抽样调查.上下采用同一样本最容易受到人为的干扰,特别是统计部门为了保持数据的延续性所作各种“技术性”调整.抽样调查在国家一级和省一级大面积推广积极作用不容质疑,但在地市一级、县级进行就不是“一抽就灵”, 如某县在商饮抽样调查中,抽3-5单位推算全县的饮食业零售额,其误差和人为因素就可想而知.因此,统计部门要在对总体分析的基础分析再选择调查方法.
4.在统计体制上必须进行彻底的变革.国家、省一级的正常统计任务今后应以三支调查作为其调查骨干,不应再采取逐级上报的方式.市、县及以上统计机构的统计任务以为当地党政领导决策服务为主,统计基本内容可统一,但要赋予更大的主动权.
5.加大统计执法力度,保证源头数据的准确性.基层统计部门今后应在加强统计信息工程建设的基础上从数据采集的圈圈中跳出来,重点加大统计执法检查,对弄虚作假的单位要坚决严肃查处,在立法上罚款数额应该大幅增加,以威慑统计违法者,逐步建立全社会的统计诚信体系
『贰』 数据分析中常犯的统计学错误有哪些
1. 变量之间关系可以分为两类
函数关系:反映了事物之间某种确定性关系。
相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;
2. 为什么要对相关系数进行显著性检验?
实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量。
3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小。
4. 多重共线性与统计假设检验傻傻分不清?
多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。
一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。
关于数据分析中常犯的统计学错误有哪些,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。