㈠ 什麼是tobit模型
Tobit模型也被稱為樣本選擇模型、受限因變數模型、審查(Censor)模型。是因變數滿足某種約束條件下取值的模型。
Tobit模型不同於離散選擇模型和一般的連續變數選擇模型,它的特點在於因變數是受限變數,模型實際上由兩類方程組成,一是表示約束條件的選擇方程模型;另一種是滿足約束條件下的某連續變數方程模型。主要研究在某些選擇行為下,連續變數如何變化的問題。人們為了紀念Tobin(1958)在研究因變數受限一類問題上的研究,把該類模型稱為Tobit模型。
㈡ 一文看懂tobit模型怎麼做
在某些情況下,被解釋變數Y的取值范圍會受到限制,比如研究家庭醫療保險支出的影響因素時,某此家庭沒有醫療支出即數字全部為0,也或者研究家庭收入水平時,某些樣本家庭完全沒有收入那麼收入就全部為0,也或者數據調查中有一項為收入為10萬以上,那麼10萬以上的具體數據就『截尾』(沒有10萬以上,最多就到10萬),又比如研究存款的影響因素,但是有的樣本存儲為負數(即其為負債非存儲),諸如此類,按常理應該是正常的正態數據,但是其被解釋變數出現『斷層』(刪失),均可使用tobit模型進行研究(而不是常用的ols線性回歸)。
特別提示:
以下介紹使用SPSSAU-在線SPSS分析工具做tobit回歸模型。
當前有一項關於工資影響因素的研究,被解釋變數為ln工資,解釋變數為年齡,是否結婚(數字1代表結婚,數字0代表未結婚),子女數量,受教育年限共4個。被解釋變數ln工資為工資取對數,如果沒有工資則為數字0。明顯的,類似這樣的數據應該使用ols線性回歸,但考慮到數據中有很多工資為0(即沒有工資),此時就可考慮使用tobit模型更加適合。為更加方便的查看被解釋變數的數據分布情況,將ln工資作直方圖如下:
從上圖可以明顯的看到,數字出現刪失,即有一部分數據集中在數字0。當然在分析的時候可考慮篩選出數字大於0的數據再進行ols線性回歸也可(但這樣做會減少樣本利用率),如果說篩選出ln工資大於0後再做直方圖如下:
明顯的可以看到,篩選出ln工資大於0的數據,其明顯的服從正態分布,使用ols線性回歸非常適合。正因為此,tobit目的在於解釋『刪失或受限』的數據情況。本案例使用tobit回歸模型研究年齡,是否結婚,子女數量,受教育年限共4項對於ln工資的影響情況。
Tobit回歸模型用於解決『刪失/受限被解釋變數』這種問題,如果被解釋變數中的數據有出現『刪失/受限』,此時進行ols回歸並不科學。刪失分為兩種,分別是『左刪失leftcensor』和『右刪失rightcensor』,如果說小於等於某個數字的數據『不正常』(左刪失leftcensor),也或者大於等於某個數字的數據『不正常』(右刪失rightcensor),此時均可使用Tobit模型。
本案例操作截圖如下:
本案例中有左刪失數據,且leftcensor為0,因此在『LeftCensored』中輸入數字0,本案例數據並沒有右刪失值,因此不設置『RightCensored』。
SPSSAU共輸出4類表格,分別是Tobit回歸模型似然比檢驗,Censor數據樣本匯總,Tobit回歸分析結果匯總和Tobit回歸分析結果匯總-簡化格式。說明如下:
上表格展示Tobit回歸模型似然比檢驗結果,其一般用於判斷模型是否有意義,原理上Tobit模型使用極大似然法進行計算,因而可對似然比檢驗結果進行關注。從上表可知,似然比檢驗的p值為0.000<0.05,即說明放入4個解釋變數對於模型有幫助,即說明模型構建有意義。
上表格展示刪失數據的分布情況。共有2000個樣本,本案例設定左刪失leftcensor為數字0,上表格展示出共有657個樣本為左刪失數據(即在657個樣本數據小於等於數字0),比例為32.85%,沒有設置右刪失rightcensor,則沒有右刪失數據。
上表格展示出tobit回歸模型擬合結果。模型公式為:ln工資 = -2.808 + 0.052*年齡 + 0.484*是否結婚 + 0.486*子女數量 + 0.115*受教育年限。模型的McFadden R 方為0.064,即意味著4個解釋變數對於工資的解釋力度為6.4%【特別提示:通常情況下對此指標的關注度較低】。
最終具體分析可知:
年齡的回歸系數值為0.052,並且呈現出0.01水平的顯著性(z=9.078,p=0.000<0.01),意味著年齡會對工資產生顯著的正向影響關系,年齡越大工資越高。是否結婚的回歸系數值為0.484,並且呈現出0.01水平的顯著性(z=4.677,p=0.000<0.01),意味著是否結婚會對工資產生顯著的正向影響關系,即相對未婚群體,已婚群體的工資明顯更高。子女數量的回歸系數值為0.486,並且呈現出0.01水平的顯著性(z=15.329,p=0.000<0.01),意味著子女數量會對工資產生顯著的正向影響關系,子女數量越多的群體工資收入越高。受教育年限的回歸系數值為0.115,並且呈現出0.01水平的顯著性(z=7.617,p=0.000<0.01),意味著受教育年限會對工資產生顯著的正向影響關系,即受教育年限越多的群體工資收入會越多。
總結分析可知:年齡, 是否結婚, 子女數量, 受教育年限共4項均會對工資產生顯著的正向影響關系。
上表格展示出Tobit回歸模型的簡化結果表格,該表格列出模型的關鍵信息點,可直接使用。
提示『沒有uncensored數據』,如果設置leftcensored或rightcensored後,導致未刪失數據個數為0,則會出現此提示。
1、Tobit回歸時的模型似然比檢驗不通過,顯示模型無意義?
Tobit回歸模型用於解決有刪失數據的樣本,當然也可考慮使用ols回歸(此時不考慮刪失數據這一問題),與此同時,也可考慮先篩選過濾掉刪失數據,然後再進行ols回歸。建議可對比ols回歸和tobit回歸的結果,綜合進行判斷。
2、McFadden R 方非常低?
Tobit回歸時McFadden R 方的意義相對較小,一般不用過多關注此指標。