『壹』 統計數據的誤差有哪些
眾所周知,統計數據的准確性是統計工作的生命,提高統計數據質量是統計工作的重中之重.然而,對如何評價統計數據質量的統計誤差指標,卻是統計部門和統計工作者秘而不宣或者忌諱的問題,甚至在《統計學原理》中都很少討論,廣大群眾對此頗有微詞,筆者認為有必要進行探討並澄清一些事實.
一、統計誤差的分類
顧名思義,誤差是指一個量的觀測值或計算值與其真值之差;統計誤差,即反映某客觀現象的一個量在測量、計算或觀察過程中由於某些錯誤或通常由於某些不可控制的因素的影響而造成的變化偏離標准值或規定值的數量.那麼統計誤差有哪幾種呢?
1.按產生統計誤差的性質來分有:空間誤差、時間誤差、方法誤差和人為誤差四種.
空間誤差是指統計調查范圍所產生的誤差,包括重漏統計調查單位,跨區域統計等;
時間誤差是指統計調查對象因時期或時點界定不準確所產生的誤差.如企業核算時間不能滿足統計部門的報表制度要求而估報所產生的誤差;延長或縮短時期所產生的誤差;時期錯位產生的誤差等.
方法誤差是因使用特定的統計調查方法所產生的誤差.如抽樣調查中的代表性誤差(抽樣平均誤差),它是指採用抽樣調查方法中的隨機樣本(非全面單位)來推算總體所產生的誤差的平均值,不是絕對的統計誤差.對代表性誤差可以根據組織方法和抽取本的容量,一般可以計算其平均誤差,而且通過擴大樣本量或優化調查的組織方法來縮小.又如統計部門因人力、物力和財力等資源不足,致使報送渠道不暢通,統計調查不到位,推算方法不科學、不規范所產生的誤差.
人為誤差是指在統計設計、調查、整理匯總和推算等過程中因人為過錯產生的誤差.人為誤差是統計誤差中產生因素最多的一類,它又分為度量性誤差、知識性誤差、態度性誤差和干擾性誤差.度量性誤差是指統計指標因計量或者從生產量到價值量換算所產生的誤差;知識性誤差是指統計人員因統計知識不夠,對統計指標的涵義不理解或錯誤理解所產生的誤差;態度性誤差是指統計人員因對統計工作不負責而隨意填報統計數據而產生的誤差,包括亂報、漏填或不按規定的計量單位填報等;干擾性誤差是指統計對象或統計部門受某種利益驅動而虛報、漏報或者捏造統計數據所形成的誤差.
2.統計誤差按工作環節來分有:源頭誤差、中間環節誤差和最終誤差三種.源頭誤差是指起報單位或申報者所產生的誤差;中間環節誤差是指統計調查數據在逐級上報過程中所產生的誤差,包括加工整理、匯總和推算等環節;最終誤差是指下級各基層數據匯總數或規范的方法得到的推算數與最終使用數之間的差異值.按工作環節劃分的統計誤差類別是相對的,中間環節誤差在不同的場合有可能是源頭誤差,也可能是最終誤差.源頭誤差在有些場合也叫調查誤差,或叫登記誤差.
二、對統計誤差的幾點認識
1.宏觀統計的誤差是客觀存在的,不以人們意志為轉移的,統計部門的任務就是盡可能縮小統計誤差.如計量誤差,比方人的高度都有早晚不一致的現象存在,不同調查單位因量器質量不同、標准不同也必定產生誤差.再如空間性誤差,在實際統計過程由於社會經濟現象的復雜性無法涵蓋所有的調查單位所產生的誤差.又舉個最通俗的例子,菜販買入100斤菜零售最後加總後可能是98斤,也可能不斷往菜上潑水買出102斤,這就充分說明統計誤差的客觀存在性.
2.當前中國統計基礎薄弱,統計數據質量不可高估,有些統計指標的誤差還相當大.統計部門不要「黃婆買瓜,自買自誇」了,一定要有憂患意識.我記得一位香港統計專家曾指出:「中國統計好比建在沙漠的房子」,言外之意就是基礎不牢.如GDP核算,全國數據與各省匯總數據有不少的差距,由地市匯總的數據與省一級的差距也很大,據說有些省差異率高達30%,如果以「各對50大板」計,其誤差率也達到15%.又如1998年全國GDP的增長率為7.8%,而全國只有個別省低於7.8%,各省加權的平均增長速度近10%,全年新增GDP數值全國與各省的差異率高達25%以上.
3.計劃和各類政績考核對統計數據干擾不可低估.如果有興趣的話,你可以統計一下各地GDP增幅比計劃高或者持平的比率,可能是相當高的,這並不是說明計劃部門的計劃多麼精確合理,而是說明統計數據確實受到干擾,當然干擾數據不一定是各級領導,而是統計部門或者方法不規范所致.再比如我市某鄉鎮若干年上造和下造的水稻播種面積一致,而且與考核指標有驚人的相似.又如有些鄉鎮不再需要村文書報數據,而是給鄉鎮反饋數據.
4.統計工作不是生長在「真空」中,統計數據也受到黨風、社會風氣、法律氛圍和各種秩序的影響,因此統計部門無法完全控制統計誤差.如統計源頭數據或者原始憑證是財務核算或業務核算的數據,在這個環節出現誤差,光靠統計部門是遠遠不夠的.
5.統計誤差與投入的人力、財力密切相關.現在上級統計部門動不動增加統計調查任務,根本不考慮基層的承受能力,導致數據質量嚴重下滑,統計職業道德有「淪喪」的危險,所謂「車到山前必有路」、「越難統計越好做」都說明了這些.
6.在統計工作中應有估計的合法地位.我們在推行抽樣調查過程中,一般都採用點估計,實際是利用樣本均值來推算,這本身就有代表性誤差,應該在誤差控制范圍允許做適當的調整,以保證歷史數據的平滑.在統計守法方面,往往政府統計部門及其統計人員可能是最大的違法者,在日常統計工作中有大量的估計成份,如基層報不齊需要估報,基層數據不符合邏輯需要調整等,這些都得不到統計法律、法規的保障,還好統計部門在守法和執法既是運動員又是裁判員.因此,統計工作中應在科學、規范的基礎上允許進行必要的估計,並在《統計法》上明確給予綜合統計部門這一權利.
7.統計部門要有科學的態度,不能做數字游戲,不要褻瀆《統計法》賦予的「權威」.一是對每一項工作不能敷衍了事,要有求真務實的精神和精品意識,當前普查工作過多過濫的嫌疑,數據質量也不高,基層政府財政苦不堪言,而普查數據對當地經濟建設或者決策的作用卻不大;二是不能在人力、財力和物力不許可的情況下,不能層層布置落實新統計項目,如鄉鎮一級計算國內生產總值;三是要善用抽樣調查,有些地方為考核鄉鎮政績,每一個鄉鎮整群抽取10戶農戶登記(不超過總體1%)計算農民純收入,顯然代表性誤差非常大,人為作假更為方便;四是基層政府統計部門的人員配置只能應付數據採集、處理任務,對社會經濟運行的分析研究不是統計部門的優勢,要揚長避短,不要顧此失彼,如果沒有準確的統計數據,就不可能有高質量的統計分析,若只是數據文字化則本身就是徒勞.
8.要關注「富瞞窮虛」的統計現象.不少富裕地區沒有完善全面反映社會經濟的發展情況,反映總量指標時瞞的成分非常大,美言「留有餘地」,而且在反映增長速度時大搞「橡皮筋」游戲,有很好的伸縮力,想緩速度少報幾個單位,想加快速度多挖潛幾個單位;而窮的、經濟基礎比較薄弱的地區,有強烈的「趕超」意識,千方百計地利用統計上的「盲點」,提高經濟總量及其發展速度.如無法詳盡搜集到統計資料的限額以上工業總產值、農業總產值等大做文章,來料加工產品按全值計算等.
三、統計部門在縮小統計誤差中的應有作為
1.統計設計中必須對登記誤差有要補救措施,建立所謂「測謊」系統.源頭數據質量問題統計部門往往把責任推給受調查者,有無能為力之感.如農業普查採取逐戶登記的辦法進行,農戶往不往不能或不敢如實申報,多數應該是少報,而我們在實際普查過程中,事後質量抽查實質是為了「測謊」,可惜很多普查機構對這一環節重視不夠,面上調查完成後有大功告成的感覺,對這一階段工作敷衍了事,不敢揭露問題,不深入開展工作,往往得到的誤差幾乎為零,使這一環節氣扎扎實實走過場,得到結果可想而知,如農普的畜牧生產情況數據與原來的統計數據甚遠,究竟哪個為准都沒有說服力.在抽樣調查方案設計中,也應建立「測謊」系統,否則調查誤差始終是統計數據質量的「瓶頸」. 「 測謊」系統要建立必要指標體系和評價方法,要廣泛使用數理統計中的假設檢驗方法.
2.必須有完善的指標體系及其計算方法.目前在總結國民經濟核算體系中就速度問題的計算方法重視不夠,五花八門,無所適從.而且到目前為止是繼續採用過去一起沿用的不變價方法,還採用價格指數剔除法都不很明確,甚至專業統計和綜合平衡統計計算方法截然不同,甚至省和市一級的計算方法也不同,公布的速度也不一樣,造成不良的社會影響.
3.在抽樣調查工作中,上下應該採取不同的樣本,對總體單位較少的總體不宜採用抽樣調查.上下採用同一樣本最容易受到人為的干擾,特別是統計部門為了保持數據的延續性所作各種「技術性」調整.抽樣調查在國家一級和省一級大面積推廣積極作用不容質疑,但在地市一級、縣級進行就不是「一抽就靈」, 如某縣在商飲抽樣調查中,抽3-5單位推算全縣的飲食業零售額,其誤差和人為因素就可想而知.因此,統計部門要在對總體分析的基礎分析再選擇調查方法.
4.在統計體制上必須進行徹底的變革.國家、省一級的正常統計任務今後應以三支調查作為其調查骨幹,不應再採取逐級上報的方式.市、縣及以上統計機構的統計任務以為當地黨政領導決策服務為主,統計基本內容可統一,但要賦予更大的主動權.
5.加大統計執法力度,保證源頭數據的准確性.基層統計部門今後應在加強統計信息工程建設的基礎上從數據採集的圈圈中跳出來,重點加大統計執法檢查,對弄虛作假的單位要堅決嚴肅查處,在立法上罰款數額應該大幅增加,以威懾統計違法者,逐步建立全社會的統計誠信體系
『貳』 數據分析中常犯的統計學錯誤有哪些
1. 變數之間關系可以分為兩類
函數關系:反映了事物之間某種確定性關系。
相關關系:兩個變數之間存在某種依存關系,但二者並不是一一對應的;反映了事務間不完全確定關系;
2. 為什麼要對相關系數進行顯著性檢驗?
實際上完全沒有關系的變數,在利用樣本數據進行計算時也可能得到一個較大的相關系數值(尤其是時間序列數值)。當樣本數較少,相關系數就很大。當樣本量從100減少到40後,相關系數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關系數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標准化處理,不會影響相關系數;我們計算的相關系數是線性相關系數,只能反映兩者是否具備線性關系。相關系數高是線性模型擬合程度高的前提;此外相關系數反映兩個變數之間的相關性,多個變數之間的相關性可以通過復相關系數來衡量。
3. 增加變數個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小。
4. 多重共線性與統計假設檢驗傻傻分不清?
多重共線性與統計假設沒有直接關聯,但是對於解釋多元回歸的結果非常重要。相關系數反應兩個變數之間的相關性;回歸系數是假設其他變數不變,自變數變化一個單位,對因變數的影響,而存在多重共線性(變數之間相關系數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變數進行相關系數分析,初步判定是否滿足前提---多重共線性。
關於數據分析中常犯的統計學錯誤有哪些,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。