2018年11月26日 星期一

並不只是世代差異(2)

在<並不只是世代差異>一文出來後,有熱心網友開始提供更多數據,海豹總算不用靠著破爛的兩張圖做破爛的統計,在這邊先謝過這些網友。

以下使用兩個資料。首先是中選會有公布每個行政區的公投票數(見這裡):

理論上這個有公布到各行政區,但由於目前還沒有提供excel檔我只能手動key-in,全部都弄我會手斷掉,加上我的第二個資料目前只有縣市等級,所以請容我就只先用縣市等級的資料處理。

第二筆資料則是中選會提供的各縣市選舉人數,這個有切到各年齡區間(見這裡):

這樣一來,我們就能夠算出每個年齡層在該縣市佔總選舉人數的比例,進而觀察每個縣市的同意票數跟年齡比例之間的關係。順道說明,請不要傻傻一個一個key,這世界是有pdf to excel這種網站的 :)

我用R的stepAIC函數,直接幫我們抓最優的線性模型。跟第一集一樣,我們用第十案來分析。結果如下:


在這邊,迴歸的應變數是該縣市的有效同意票佔全體選舉人的比例,自變數則是各年齡層選舉人佔該縣市全體選舉人的比例,其中r_19是19歲的比例,r_20_29則是20歲到29歲的比例,依此類推。

對於不知道迴歸的朋友們別緊張,這看起來很嚇人,但其實你大致只需要先管兩件事:
  • 首先是Estimate那一行,那行代表的是某個年齡區度的比例上升1%時,平均而言同意票比例會上升幾%。舉例來說,r_19的係數表示,19歲的比例上升1%時,平均而言同意票比例會下降24.8576%。
  • 再來是後面的*數,講簡單一點,*數越多,你對前面那個上升%數的推論就越有把握。
看過去你首先會發現,對同意票數影響最大的,似乎是70-79歲這個年齡區間,平均上升1%,同意票數會上升8.33%。三顆*,所以滿有把握的。

但是第二高的是20-29歲區間啊!平均上升1%,同意票數會上升7.4816%,同時也是兩顆*的把握唷!

如果今天真的是純粹的世代差異,那我們這邊應該要看到r_20_29的係數,會跟r_19一樣是負的。但今天沒有,還正很多。

這意味著,高年齡層跟低年齡層的差異,可能沒有大家想像中的大。

當然,這是個很粗很粗的統計,有一拖拉庫的東西沒有考慮進去。但無論如何,就一個最最最粗步的統計結果來看,真的,並不只是世代差異。

最後,中選會應該之後會在這裡公布更詳細的資料,屆時如果有空我會再進一步研究看看。

沒有留言:

張貼留言