⑴ 如何從網站數據統計中發現網站存在的問題
做網站優化已經一年有餘,在這一年多的時間里接手過很多網站,也學到了不少東西,對於那些基礎知識而言,最重要的還是要去實踐,去嘗試,這樣才能夠學到更多的東西,不斷提高自己,在優化初期,我們是會犯不少錯誤的,有效的分析然後去發現這些錯誤,然後尋找解決方案,那麼對於優化中的錯誤我們應該從哪些地方去發現呢!通常我的做法就是去看網站的數據統計。 首先、看網站的新老用戶比列 如果說我們的網站新老用戶比例較高,那麼就說明網站一般都是一些新用戶在訪問,網站回頭率低,和少有人刻意的去記住網址或者加入收藏,以便下次訪問,這就說明了網站對用戶的吸引力不夠強,用戶體驗做的不好,此時我們就要看看網站內容是否符合用戶的口味、網站設計是否美觀、網站伺服器是否穩定等等,通常我遇到這種情況的時候,就是緊抓網站內容質量建設,用內容來吸引用戶。 其次、看用戶在頁面上的停留時間 一般情況下,通過流量統計後台都是可以看到網站頁面被用戶瀏覽的時間長短,時間越長說明用戶越喜歡這個頁面,說明這篇文章寫得好,用戶喜歡看,然後具體針對這些文章來作分析,看看這些文章的主題內容,看看究竟是哪裡在吸引用戶,再與其他的頁面對比一下,看看兩者之間的區別,找到原因之後,制定相對應的方案來解決這些問題。 最後、網站流量來路 網站流量來源莫過於兩個方面,那就是關鍵詞和直接輸入網址的流量,也就是通過關鍵詞排名和推廣的流量,有效的比較這兩方面的數據,看看網站流量從哪個平台來的比較多,則說明在這個方面做得相對較好,比如說網站通過關鍵詞搜索來的流量有80%,那麼就可以說明你的網站的重點是做關鍵詞排名來引流,而不是很重視推廣,這樣我們就應該在推廣上多下些工夫,反之亦然。
⑵ 如何看待中小企業經營困難與統計數據之間的反差
1、中小企業的經營風險沒能在官方統計數據中得以充分暴露,使經濟管理部門無法及時做出應對
從今年起,納入統計局規模以上工業統計的企業起點標准已由以往的主營業務收入達到500萬元提升到2000萬元。這意味著工業統計調查更多是向以國有企業為代表的大型企業傾斜,有可能導致中小企業所面臨的現實經營困境,無法在統計中得到充分體現,甚至有被人為忽視的風險,大部分為民營企業的中小企業雖不能在工業產值和經營利潤等指標上與大型企業相比擬,但作為吸納就業的支柱,其所創造的社會效益不僅不應在工業統計調查中被忽略和抹殺,反而應該給予更多的重視。
2、銀行對中小企業貸款極其「吝嗇」
央行貨幣政策在有效抑制流動性過剩的同時,也加大了企業資金壓力,小企業獲取銀行貸款難度加大。通過調查研究發現,中小企業獲取銀行貸款的綜合成本上升幅度至少在13%以上,遠遠高於一年期貸款基準利率。資源環境約束強化,要素保障壓力加大也是困難之一。電力供應「淡季不淡」,電力供應緊張趨勢較上年往往提前出現,面對經營壓力,小企業積極尋求出路,但融資難卻是攔路虎。調研發現,部分小企業擬通過產業升級提高經濟效益,應對成本壓力。如購置新的機器設備或提高生產自動化來降低人力的支出等。但進行這種產業升級需要大量的資金支持,小企業自有資金不足以滿足這樣的支出和擴張。而銀行對小企業貸款的壞賬容忍度極其有限,使小企業資金時時處於緊綳狀態,造成經營困難。
3、統計報表未能反映原材料庫存周期等重要指標
原材料的庫存大小、庫存周期、季節性原材料物品、原材料的運輸距離這些情況沒有在統計數據上進行體現,而他們又是直接關系企業生存命脈的重要指標。經過調研,比如我縣的牛寨鄉黃瓜罐頭廠等企業,原材料屬於季節性物品,庫存較大,導致資金鏈緊張,企業經營困難。在中小企業貸款難、資金相對緊張的情況下,降低存貨成本逐漸成為企業的「第三利潤源泉」,對中小企業而言,顯得尤為重要。中小企業只有找出適合自己的庫存管理策略,才能在市場上求生存、謀發展。所以中小企業管理部門要深入貫徹落實科學發展觀,切實履行職責,進一步強化服務意識,主動上門,深入困難企業了解情況,及時發現解決傾向性、苗頭性問題,高度重視企業穩定工作。要主動與相關部門溝通,加強協調配合,及時解決企業實際問題。要急事急辦,特事特辦,提高效率。要積極發揮行業協會等社會中介組織的作用,促進中小企業穩定健康發展。要加強對中小企業運行監測預警分析,適時發布產品供應、生產能力、在建規模、發展趨勢、價格變化等信息,為中小企業做好信息服務,引導社會投資,採取各種有效措施緩解中小企業經營困難與統計數據之間的反差。
⑶ 統計資料庫中存在何種特殊的安全性問題
統計資料庫中存在何種特殊的安全性問題? 答:統計資料庫允許用戶查詢聚集類型的信息,如合計、平 答:統計資料庫允許用戶查詢聚集類型的信息,如合計、 均值、最大值、最小值等,不允許查詢單個記錄信息。但是, 均值、最大值、最小值等,不允許查詢單個記錄信息。但是, 人們可以從合法的查詢中推導出不合法的信息,即可能存在 人們可以從合法的查詢中推導出不合法的信息, 隱蔽的信息通道,這是統計資料庫要研究和解決的特殊的安 隱蔽的信息通道, 全性問題。
⑷ 八省聯考,分數段數據統計,反映出了哪些問題
高考生在這段時間的學習壓力是非常緊張的,因為眼看著已經3月了,即將到來的6月還會遠嗎?因此對於這些高中生來說,在這個期間也是沖刺的階段,不僅要在各個學科都能夠取到一個比較穩定的成績,而且也會對於自己的一些薄弱科目進行相應的一個提高升級。才能夠讓自己在高考的時候能夠取得一個比較滿意的成績,所以在不到100天的時間里,很多網友們也比較擔心這些孩子們他們的學習壓力是否太大,或者是他們能否在這個高考中去取得一個自己比較滿意的成績。
所以在網路的推動下,很多家長和一些老師也會對於這個分數段感覺到特別的上心。從這次考試來看根據這些分數段的統計也能夠感受到各個地區的學習情況,或者是學生的水平也是不一樣的。但是從某些方面來看的話,他們的閱捲尺度也是不一樣的,畢竟不是在同一個地區進行閱卷,老師們的改卷的尺度可能也會有一些偏差。因此孩子們的成績在最後的統計下也會有一些不一樣的情況,從這個數據來看的話,江蘇省的成績也要領先。所以也讓很多江蘇的學子們感覺到非常的有信心,但是對比於其他的幾個城市,也會感覺到有一些緊張。但是現在乾坤未定,大家只要在這段時間好好的努力,相信在高考的時候一定會取得一個非常滿意的成績。
⑸ 在2021年,離婚登記人數大降43%,數據暴露出了哪些問題
離婚數據大降百分之四十三暴露了人們不敢離婚的心態,隨著社會經濟發展,離婚的成本也不再像上個世紀一樣,目前離婚的成本要遠遠比結婚的成本高出很多。離婚不僅會增加雙方之間的生活成本,並且還會帶來諸多麻煩。其中最主要的原因便是子女,子女總是父母放不下的心頭肉,離婚之後對子女的傷害是最大的。
一、離婚成本增加。
有關部門統計的數據,在我看來是是非常准確的。由於疫情的原因很多夫妻根本找不到適合的工作,若是這時候離婚,那麼便會增加離婚的成本,加重每一個人的負擔,所以為了能夠將就很多夫妻,即便感情不和睦也會選擇將就。此外除了疫情的原因便是房價以及物價的飛漲,夫妻之間一旦離婚,那麼不僅僅要支付生活成本以外,對子女的撫養金也是一筆重擔。
⑹ 數據分析中常犯的統計學錯誤有哪些
1. 變數之間關系可以分為兩類
函數關系:反映了事物之間某種確定性關系。
相關關系:兩個變數之間存在某種依存關系,但二者並不是一一對應的;反映了事務間不完全確定關系;
2. 為什麼要對相關系數進行顯著性檢驗?
實際上完全沒有關系的變數,在利用樣本數據進行計算時也可能得到一個較大的相關系數值(尤其是時間序列數值)。當樣本數較少,相關系數就很大。當樣本量從100減少到40後,相關系數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關系數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標准化處理,不會影響相關系數;我們計算的相關系數是線性相關系數,只能反映兩者是否具備線性關系。相關系數高是線性模型擬合程度高的前提;此外相關系數反映兩個變數之間的相關性,多個變數之間的相關性可以通過復相關系數來衡量。
3. 增加變數個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小。
4. 多重共線性與統計假設檢驗傻傻分不清?
多重共線性與統計假設沒有直接關聯,但是對於解釋多元回歸的結果非常重要。相關系數反應兩個變數之間的相關性;回歸系數是假設其他變數不變,自變數變化一個單位,對因變數的影響,而存在多重共線性(變數之間相關系數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變數進行相關系數分析,初步判定是否滿足前提---多重共線性。
關於數據分析中常犯的統計學錯誤有哪些,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑺ 數據分析中要注意的統計學問題
一、均值的計算
在處理數據時,經常會遇到對相同采樣或相同實驗條件下同一隨機變數的多個不同取值進行統計處理的問題。此時,往往我們會不假思索地直接給出算術平均值和標准差。顯然,這種做法是不嚴謹的。
這是因為作為描述隨機變數總體大小特徵的統計量有算術平均值、幾何平均值和中位數等多個。至於該採用哪種均值,不能根據主觀意願隨意確定,而要根據隨機變數的分布特徵確定。
反映隨機變數總體大小特徵的統計量是數學期望,而在隨機變數的分布服從正態分布時,其數學期望就是其算術平均值。此時,可用算術平均值描述隨機變數的大小特徵;如果所研究的隨機變數不服從正態分布,則算術平均值不能准確反映該變數的大小特徵。在這種情況下,可通過假設檢驗來判斷隨機變數是否服從對數正態分布。如果服從對數正態分布,則幾何平均值就是數學期望的值。此時,就可以計算變數的幾何平均值;如果隨機變數既不服從正態分布也不服從對數正態分布,則按現有的數理統計學知識,尚無合適的統計量描述該變數的大小特徵。此時,可用中位數來描述變數的大小特徵。
因此,我們不能在處理數據的時候一律採用算術平均值,而是要視數據的分布情況而定。
二、直線相關與回歸分析
這兩種分析,說明的問題是不同的,既相互又聯系。在做實際分析的時候,應先做變數的散點圖,確認由線性趨勢後再進行統計分析。一般先做相關分析,只有在相關分析有統計學意義的前提下,求回歸方程才有實際意義。一般來講,有這么兩個問題值得注意:
一定要把回歸和相關的概念搞清楚,要做回歸分析時,不需要報告相關系數;做相關分析的時候,不需要計算回歸方程。
相關分析中,只有對相關系數進行統計檢驗(如t檢驗),P<0.05時,才能一依據r值的大小來說明兩個變數的相關程度。必須注意的是,不能將相關系數的假設檢驗誤認為是相關程度的大小。舉個例子:當樣本數量很小,即使r值較大(如3對數據,r=0.9),也可能得出P>0.05這種無統計學意義的結論;而當樣本量很大,如500,即使r=0.1,也會有P<0.05的結果,但這種相關卻不具有實際意義。因此,要表明相關性,除了要寫出r值外,還應該註明假設檢驗的P值。
三、相關分析和回歸分析之間的區別
相關分析和回歸分析是極為常用的2種數理統計方法,在環境科學及其它研究領域有著廣泛的用途。然而,由於這2種數理統計方法在計算方面存在很多相似之處,因此在應用中我們很容易將二者混淆。
最常見的錯誤是,用回歸分析的結果解釋相關性問題。例如,將“回歸直線(曲線)圖”稱為“相關性圖”或“相關關系圖”;將回歸直線的R2(擬合度,或稱“可決系數”)錯誤地稱為“相關系數”或“相關系數的平方”;根據回歸分析的結果宣稱2個變數之間存在正的或負的相關關系。
相關分析與回歸分析均為研究2個或多個變數間關聯性的方法,但2種方法存在本質的差別。相關分析的目的在於檢驗兩個隨機變數的共變趨勢(即共同變化的程度),回歸分析的目的則在於試圖用自變數來預測因變數的值。
實際上在相關分析中,兩個變數必須都是隨機變數,如果其中的一個變數不是隨機變數,就不能進行相關分析。而回歸分析中,因變數肯定為隨機變數,而自變數則可以是普通變數(有確定的取值)也可以是隨機變數。
很顯然,當自變數為普通變數的時候,這個時候你根本不可能回答相關性的問題;當兩個變數均為隨機變數的時候,鑒於兩個隨機變數客觀上存在“相關性”問題,只是由於回歸分析方法本身不能提供針對自變數和因變數之間相關關系的准確的檢驗手段,因此這又回到了問題二中所講的,如果你要以預測為目的,就不要提相關系數;當你以探索兩者的“共變趨勢”為目的,就不要提回歸方程。
回歸分析中的R2在數學上恰好是Pearson積矩相關系數r的平方。因此我們不能錯誤地理解R2的含義,認為R2就是 “相關系數”或“相關系數的平方”。這是因為,對於自變數是普通變數的時候,2個變數之間的“相關性”概念根本不存在,又談什麼“相關系數”呢?
四、相關分析中的問題
相關分析中,我們很容易犯這么一個錯誤,那就是不考慮兩個隨機變數的分布,直接採用Pearson 積矩相關系數描述這2個隨機變數間的相關關系(此時描述的'是線性相關關系)。
關於相關系數,除有Pearson 積矩相關系數外,還有Spearman秩相關系數和Kendall秩相關系數等。其中,Pearson積矩相關系數可用於描述2個隨機變數的線性相關程度,Spearman或Kendall秩相關系數用來判斷兩個隨機變數在二維和多維空間中是否具有某種共變趨勢。
因此我們必須注意的是,Pearson 積矩相關系數的選擇是由前提的,那就是2個隨機變數均服從正態分布假設。如果數據不服從正態分布,則不能計算Pearson 積矩相關系數,這個時候,我們就因該選擇Spearman或Kendall秩相關系數。
五、t檢驗
用於比較均值的t檢驗可以分成三類:第一類是針對單組設計定量資料的;第二類是針對配對設計定量資料的;第三類則是針對成組設計定量資料的。後兩種設計類型的區別在於事先是否將兩組研究對象按照某一個或幾個方面的特徵相似配成對子。無論哪種類型的t檢驗,都必須在滿足特定的前提條件下應用才是合理的。
若是單組檢驗,必須給出一個標准值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正態分布;若是配對設計,每對數據的差值必須服從正態分布;若是成組設計,個體之間相互獨立,兩組資料均取自正態分布的總體,並滿足方差齊性。之所以需要這些前提條件,是因為必須在這樣的前提下所計算出的t統計量才服從t分布。
t檢驗是目前在科學研究中使用頻率最高的一種假設檢驗方法。t檢驗方法簡單,其結果便於解釋。簡單、熟悉加上外界的要求,促成了t檢驗的流行。但是,由於我們對該方法理解得不全面,導致在應用過程中出現不少問題,有些甚至是非常嚴重的錯誤,直接影響到結論的可靠性。
常見錯誤:不考慮t檢驗的應用前提,對兩組的比較一律用t檢驗;將各種實驗設計類型一律視為多個單因素兩水平設計,多次用t檢驗進行均值之間的兩兩比較。以上兩種情況,均不同程度地增加了得出錯誤結論的風險。而且,在實驗因素的個數大於等於2時,無法研究實驗因素之間的交互作用的大小。
正確做法:當兩樣本均值比較時,如不滿足正態分布和方差齊性,應採用非參檢驗方法(如秩檢驗);兩組以上的均值比較,不能採用t檢驗進行均值之間的兩兩比較。
因此我們必須注意,在使用t檢驗的時候,一定要注意其前提以及研究目的,否則,會得出錯誤的結論。
六、常用統計分析軟體
國際上已開發出的專門用於統計分析的商業軟體很多,比較著名有SPSS(Statistical Package for SocialSciences)、SAS(Statistical AnalysisSystem)、BMDP和STATISTICA等。其中,SPSS是專門為社會科學領域的研究者設計的(但是,此軟體在自然科學領域也得到廣泛應用);BMDP是專門為生物學和醫學領域研究者編制的統計軟體。
當然,excel也能用於統計分析。單擊“工具”菜單中的“數據分析”命令可以瀏覽已有的分析工具。如果在“工具”菜單上沒有“數據分析”命令,應在“工具”菜單上運行“載入宏”命令,在“載入宏”對話框中選擇“分析工具庫”。
特別推薦一款國產軟體——DPS,其界面見附圖。其功能較為強大,除了擁有統計分析功能,如參數分析,非參分析等以外,還專門針對一些專業編寫了專業統計分析模塊,隨機前沿面模型、數據包絡分析(DEA)、顧客滿意指數模型(結構方程模型)、數學生態、生物測定、地理統計、遺傳育種、生存分析、水文頻率分析、量表分析、質量控制圖、ROC曲線分析等內容。有些不是統計分析的功能,如模糊數學方法、灰色系統方法、各種類型的線性規劃、非線性規劃、層次分析法、BP神經網路、徑向基函數(RBF)等,在DPS裡面也可以找到。
⑻ 統計數據的誤差有哪些
眾所周知,統計數據的准確性是統計工作的生命,提高統計數據質量是統計工作的重中之重.然而,對如何評價統計數據質量的統計誤差指標,卻是統計部門和統計工作者秘而不宣或者忌諱的問題,甚至在《統計學原理》中都很少討論,廣大群眾對此頗有微詞,筆者認為有必要進行探討並澄清一些事實.
一、統計誤差的分類
顧名思義,誤差是指一個量的觀測值或計算值與其真值之差;統計誤差,即反映某客觀現象的一個量在測量、計算或觀察過程中由於某些錯誤或通常由於某些不可控制的因素的影響而造成的變化偏離標准值或規定值的數量.那麼統計誤差有哪幾種呢?
1.按產生統計誤差的性質來分有:空間誤差、時間誤差、方法誤差和人為誤差四種.
空間誤差是指統計調查范圍所產生的誤差,包括重漏統計調查單位,跨區域統計等;
時間誤差是指統計調查對象因時期或時點界定不準確所產生的誤差.如企業核算時間不能滿足統計部門的報表制度要求而估報所產生的誤差;延長或縮短時期所產生的誤差;時期錯位產生的誤差等.
方法誤差是因使用特定的統計調查方法所產生的誤差.如抽樣調查中的代表性誤差(抽樣平均誤差),它是指採用抽樣調查方法中的隨機樣本(非全面單位)來推算總體所產生的誤差的平均值,不是絕對的統計誤差.對代表性誤差可以根據組織方法和抽取本的容量,一般可以計算其平均誤差,而且通過擴大樣本量或優化調查的組織方法來縮小.又如統計部門因人力、物力和財力等資源不足,致使報送渠道不暢通,統計調查不到位,推算方法不科學、不規范所產生的誤差.
人為誤差是指在統計設計、調查、整理匯總和推算等過程中因人為過錯產生的誤差.人為誤差是統計誤差中產生因素最多的一類,它又分為度量性誤差、知識性誤差、態度性誤差和干擾性誤差.度量性誤差是指統計指標因計量或者從生產量到價值量換算所產生的誤差;知識性誤差是指統計人員因統計知識不夠,對統計指標的涵義不理解或錯誤理解所產生的誤差;態度性誤差是指統計人員因對統計工作不負責而隨意填報統計數據而產生的誤差,包括亂報、漏填或不按規定的計量單位填報等;干擾性誤差是指統計對象或統計部門受某種利益驅動而虛報、漏報或者捏造統計數據所形成的誤差.
2.統計誤差按工作環節來分有:源頭誤差、中間環節誤差和最終誤差三種.源頭誤差是指起報單位或申報者所產生的誤差;中間環節誤差是指統計調查數據在逐級上報過程中所產生的誤差,包括加工整理、匯總和推算等環節;最終誤差是指下級各基層數據匯總數或規范的方法得到的推算數與最終使用數之間的差異值.按工作環節劃分的統計誤差類別是相對的,中間環節誤差在不同的場合有可能是源頭誤差,也可能是最終誤差.源頭誤差在有些場合也叫調查誤差,或叫登記誤差.
二、對統計誤差的幾點認識
1.宏觀統計的誤差是客觀存在的,不以人們意志為轉移的,統計部門的任務就是盡可能縮小統計誤差.如計量誤差,比方人的高度都有早晚不一致的現象存在,不同調查單位因量器質量不同、標准不同也必定產生誤差.再如空間性誤差,在實際統計過程由於社會經濟現象的復雜性無法涵蓋所有的調查單位所產生的誤差.又舉個最通俗的例子,菜販買入100斤菜零售最後加總後可能是98斤,也可能不斷往菜上潑水買出102斤,這就充分說明統計誤差的客觀存在性.
2.當前中國統計基礎薄弱,統計數據質量不可高估,有些統計指標的誤差還相當大.統計部門不要「黃婆買瓜,自買自誇」了,一定要有憂患意識.我記得一位香港統計專家曾指出:「中國統計好比建在沙漠的房子」,言外之意就是基礎不牢.如GDP核算,全國數據與各省匯總數據有不少的差距,由地市匯總的數據與省一級的差距也很大,據說有些省差異率高達30%,如果以「各對50大板」計,其誤差率也達到15%.又如1998年全國GDP的增長率為7.8%,而全國只有個別省低於7.8%,各省加權的平均增長速度近10%,全年新增GDP數值全國與各省的差異率高達25%以上.
3.計劃和各類政績考核對統計數據干擾不可低估.如果有興趣的話,你可以統計一下各地GDP增幅比計劃高或者持平的比率,可能是相當高的,這並不是說明計劃部門的計劃多麼精確合理,而是說明統計數據確實受到干擾,當然干擾數據不一定是各級領導,而是統計部門或者方法不規范所致.再比如我市某鄉鎮若干年上造和下造的水稻播種面積一致,而且與考核指標有驚人的相似.又如有些鄉鎮不再需要村文書報數據,而是給鄉鎮反饋數據.
4.統計工作不是生長在「真空」中,統計數據也受到黨風、社會風氣、法律氛圍和各種秩序的影響,因此統計部門無法完全控制統計誤差.如統計源頭數據或者原始憑證是財務核算或業務核算的數據,在這個環節出現誤差,光靠統計部門是遠遠不夠的.
5.統計誤差與投入的人力、財力密切相關.現在上級統計部門動不動增加統計調查任務,根本不考慮基層的承受能力,導致數據質量嚴重下滑,統計職業道德有「淪喪」的危險,所謂「車到山前必有路」、「越難統計越好做」都說明了這些.
6.在統計工作中應有估計的合法地位.我們在推行抽樣調查過程中,一般都採用點估計,實際是利用樣本均值來推算,這本身就有代表性誤差,應該在誤差控制范圍允許做適當的調整,以保證歷史數據的平滑.在統計守法方面,往往政府統計部門及其統計人員可能是最大的違法者,在日常統計工作中有大量的估計成份,如基層報不齊需要估報,基層數據不符合邏輯需要調整等,這些都得不到統計法律、法規的保障,還好統計部門在守法和執法既是運動員又是裁判員.因此,統計工作中應在科學、規范的基礎上允許進行必要的估計,並在《統計法》上明確給予綜合統計部門這一權利.
7.統計部門要有科學的態度,不能做數字游戲,不要褻瀆《統計法》賦予的「權威」.一是對每一項工作不能敷衍了事,要有求真務實的精神和精品意識,當前普查工作過多過濫的嫌疑,數據質量也不高,基層政府財政苦不堪言,而普查數據對當地經濟建設或者決策的作用卻不大;二是不能在人力、財力和物力不許可的情況下,不能層層布置落實新統計項目,如鄉鎮一級計算國內生產總值;三是要善用抽樣調查,有些地方為考核鄉鎮政績,每一個鄉鎮整群抽取10戶農戶登記(不超過總體1%)計算農民純收入,顯然代表性誤差非常大,人為作假更為方便;四是基層政府統計部門的人員配置只能應付數據採集、處理任務,對社會經濟運行的分析研究不是統計部門的優勢,要揚長避短,不要顧此失彼,如果沒有準確的統計數據,就不可能有高質量的統計分析,若只是數據文字化則本身就是徒勞.
8.要關注「富瞞窮虛」的統計現象.不少富裕地區沒有完善全面反映社會經濟的發展情況,反映總量指標時瞞的成分非常大,美言「留有餘地」,而且在反映增長速度時大搞「橡皮筋」游戲,有很好的伸縮力,想緩速度少報幾個單位,想加快速度多挖潛幾個單位;而窮的、經濟基礎比較薄弱的地區,有強烈的「趕超」意識,千方百計地利用統計上的「盲點」,提高經濟總量及其發展速度.如無法詳盡搜集到統計資料的限額以上工業總產值、農業總產值等大做文章,來料加工產品按全值計算等.
三、統計部門在縮小統計誤差中的應有作為
1.統計設計中必須對登記誤差有要補救措施,建立所謂「測謊」系統.源頭數據質量問題統計部門往往把責任推給受調查者,有無能為力之感.如農業普查採取逐戶登記的辦法進行,農戶往不往不能或不敢如實申報,多數應該是少報,而我們在實際普查過程中,事後質量抽查實質是為了「測謊」,可惜很多普查機構對這一環節重視不夠,面上調查完成後有大功告成的感覺,對這一階段工作敷衍了事,不敢揭露問題,不深入開展工作,往往得到的誤差幾乎為零,使這一環節氣扎扎實實走過場,得到結果可想而知,如農普的畜牧生產情況數據與原來的統計數據甚遠,究竟哪個為准都沒有說服力.在抽樣調查方案設計中,也應建立「測謊」系統,否則調查誤差始終是統計數據質量的「瓶頸」. 「 測謊」系統要建立必要指標體系和評價方法,要廣泛使用數理統計中的假設檢驗方法.
2.必須有完善的指標體系及其計算方法.目前在總結國民經濟核算體系中就速度問題的計算方法重視不夠,五花八門,無所適從.而且到目前為止是繼續採用過去一起沿用的不變價方法,還採用價格指數剔除法都不很明確,甚至專業統計和綜合平衡統計計算方法截然不同,甚至省和市一級的計算方法也不同,公布的速度也不一樣,造成不良的社會影響.
3.在抽樣調查工作中,上下應該採取不同的樣本,對總體單位較少的總體不宜採用抽樣調查.上下採用同一樣本最容易受到人為的干擾,特別是統計部門為了保持數據的延續性所作各種「技術性」調整.抽樣調查在國家一級和省一級大面積推廣積極作用不容質疑,但在地市一級、縣級進行就不是「一抽就靈」, 如某縣在商飲抽樣調查中,抽3-5單位推算全縣的飲食業零售額,其誤差和人為因素就可想而知.因此,統計部門要在對總體分析的基礎分析再選擇調查方法.
4.在統計體制上必須進行徹底的變革.國家、省一級的正常統計任務今後應以三支調查作為其調查骨幹,不應再採取逐級上報的方式.市、縣及以上統計機構的統計任務以為當地黨政領導決策服務為主,統計基本內容可統一,但要賦予更大的主動權.
5.加大統計執法力度,保證源頭數據的准確性.基層統計部門今後應在加強統計信息工程建設的基礎上從數據採集的圈圈中跳出來,重點加大統計執法檢查,對弄虛作假的單位要堅決嚴肅查處,在立法上罰款數額應該大幅增加,以威懾統計違法者,逐步建立全社會的統計誠信體系
⑼ 統計資料庫中存在何種特殊的安全性問題
統計資料庫允許用戶查詢聚集類型的信息,如合計、平均值、最大值、最小值等, 不允許查詢單個記錄信息 但是,人們可以從合法的查詢中推導出不合法的信息,即可能存在 。 隱蔽的信息通道,這是統計資料庫要研究和解決的特殊的安全性問題。