以下使用兩個資料。首先是中選會有公布每個行政區的公投票數(見這裡):
理論上這個有公布到各行政區,但由於目前還沒有提供excel檔我只能手動key-in,全部都弄我會手斷掉,加上我的第二個資料目前只有縣市等級,所以請容我就只先用縣市等級的資料處理。
第二筆資料則是中選會提供的各縣市選舉人數,這個有切到各年齡區間(見這裡):
這樣一來,我們就能夠算出每個年齡層在該縣市佔總選舉人數的比例,進而觀察每個縣市的同意票數跟年齡比例之間的關係。順道說明,請不要傻傻一個一個key,這世界是有pdf to excel這種網站的 :)
我用R的stepAIC函數,直接幫我們抓最優的線性模型。跟第一集一樣,我們用第十案來分析。結果如下:
在這邊,迴歸的應變數是該縣市的有效同意票佔全體選舉人的比例,自變數則是各年齡層選舉人佔該縣市全體選舉人的比例,其中r_19是19歲的比例,r_20_29則是20歲到29歲的比例,依此類推。
對於不知道迴歸的朋友們別緊張,這看起來很嚇人,但其實你大致只需要先管兩件事:
- 首先是Estimate那一行,那行代表的是某個年齡區度的比例上升1%時,平均而言同意票比例會上升幾%。舉例來說,r_19的係數表示,19歲的比例上升1%時,平均而言同意票比例會下降24.8576%。
- 再來是後面的*數,講簡單一點,*數越多,你對前面那個上升%數的推論就越有把握。
看過去你首先會發現,對同意票數影響最大的,似乎是70-79歲這個年齡區間,平均上升1%,同意票數會上升8.33%。三顆*,所以滿有把握的。
但是第二高的是20-29歲區間啊!平均上升1%,同意票數會上升7.4816%,同時也是兩顆*的把握唷!
如果今天真的是純粹的世代差異,那我們這邊應該要看到r_20_29的係數,會跟r_19一樣是負的。但今天沒有,還正很多。
如果今天真的是純粹的世代差異,那我們這邊應該要看到r_20_29的係數,會跟r_19一樣是負的。但今天沒有,還正很多。
這意味著,高年齡層跟低年齡層的差異,可能沒有大家想像中的大。
當然,這是個很粗很粗的統計,有一拖拉庫的東西沒有考慮進去。但無論如何,就一個最最最粗步的統計結果來看,真的,並不只是世代差異。
最後,中選會應該之後會在這裡公布更詳細的資料,屆時如果有空我會再進一步研究看看。