由 Pedro Hsieh » 2009 10月 04 (週日) 10:16 am
這裡有一篇類似的文章,可以作為參考:
研究資料的整理
這篇文章的研究方法對碩士論文而言,是不是就是稱為Case study?
該篇文章的重點摘錄:
自變數遺漏資料的填補有很多種方法,有很複雜的,也有很簡單的。最簡單的是填入該變數的樣本平均值,複雜的可以在現有資料中,找出該自變數與其他相關自變數的關係,透過迴歸去預測遺漏值的自變數,再將預測值填入遺漏資料中。
我用的方式還算單純,因為我有七年的資料,而且總樣本中大部分的醫院都有一年以上的資料(也就是有一筆以上,比如A醫院從1997到2003每年都有共七筆,B醫院則有1998、2000、與2003年共三筆資料),大部分的自變數對每一間醫院來說,每年之間的數值差異應該不會太大。如果某個變數中,某家醫院某一年有遺漏值,我先用該醫院在該變數中其他年份的平均值去填補,這樣便又降低不小遺漏率,但還是有遺漏值。最後針對這些遺漏值,我就用樣本平均值填補,並用一個虛擬變數去註明該樣本在某個變數中有接受資料填補。這個虛擬變數在之後的迴歸分析中有兩種作用,一個是檢測該變數的資料填補是否會導致樣本選擇偏差,另一個作用是在迴歸分析中當作控制變數,以校正因資料填補所帶來的樣本選擇偏差。
解決了自變數的遺漏問題,再來是應變數的遺漏值,這部分要比自變數的遺漏值更棘手。因為前面提到的自變數遺漏值填補方法不一定適用在應變數上面。我的應變數是每一間醫院在某一年有沒有開辦居家照護服務,是一個二元變數,遺漏比例相當高,大概佔總樣本的14%。此時不管是醫院的平均值或樣本平均值都派不上用場,更不能用迴歸預測的方式去填補遺漏值。
計量經濟學稱此情況為「被遮掉的資料」(censored data)[1],因為所有樣本的資料都有,只是一部份樣本的應變數資料無法被呈現出來,這是受限應變數的(limited dependent variable)情況之一。就我所知,這時通常是使用Heckman selection model來處理,由於我的應變數是二元變數,所以要用Heckman Probit model。這部分的分析處理有時相當繁複,甚至現有的統計套裝軟體沒有現成的功能可以運用,必須自己寫程式去跑分析。
qui seminant in lacrimis in exultatione metent
那含淚播種的人,必含笑獲享收成;