[討論] 民調統計之亂---最終章
小弟看到版上很多人對民調統計很有興趣,
剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下.
如果有錯還請不要見怪.
先講結論:
1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1,
2. 國民黨版本
如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣
那麼民調之中柯侯只要領先侯柯1.34%,
統計上就代表柯侯顯著勝過侯柯
3. 在民眾黨版本中
如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9,
這個r值每份民調都不一樣
那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%,
統計上就代表柯侯顯著勝過侯柯.
這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前,
答媒體問時有提到
從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好,
不過這未必代表他們贏了. 仍要視每份民調的r值而定.
以下請看詳細解說:
--------------------------------------------------
p是支持率, n是樣本數
var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96))
如果只是粗略估計,
一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多).
當n=1068時, 根號(var(p))*1.96 = 3%
比較兩位候選人支持率p1,p2
如果選用p1-p2這個值來做決策,
var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2))
r是大家高中都學過的相關係數-1<r<1
如果粗估p1=p2=p, 那麼var(p1)=var(p2)
var(p1-p2) = 2*var(p) - 2*r*var(p)
(1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0
(1.1) 當r=-1時,
適用情況: 在一對一的選舉中, 一人沒有第三種選項
例如在新加坡, 投票是全民義務, 不能不投票,
可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇
也就是p1和p2完全負相關, r=-1
var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6%
也就是李某要勝過黃某6%才算超過誤差範圍.
(1.2) r約為-0.5
因此如果在台灣, (1.1)的假設就不適用
一個人除了國民黨p1和民進黨p2以外,
還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票.
所以台灣選舉的r約等於-0.5, 中度負相關.
var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3%
這也就是不少民調專家,政黨操盤手所說,
一對一選舉要贏5%以上才算是贏!
例如以下這篇報導:
國民黨立委提名/現任者民調贏逾5% 才徵召
https://news.ltn.com.tw/news/politics/paper/863837
(2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯
(2.1)當r=0, 也就是p1與p2二者獨立的時候,
如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然.
那麼p1,p2的相關性可能就很低, r接近0.
例如聯合報的這份問卷: Q7和Q8不會問同一個人.
【Q7及Q8隨機呈現】
7.如果郭台銘最後不參選,藍白整合是柯文哲當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)柯文哲搭配侯友宜[柯侯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答
8.如果郭台銘最後不參選,藍白整合是侯友宜當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)侯友宜搭配柯文哲[侯柯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答
當r約為0時,
var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2%
也就是柯侯要贏過侯柯4.2%才算柯侯贏
有人會問(2.1)和(1.1)有什麼不同?
(2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0)
然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1
這點滿有趣的, 有興趣的讀者可以自行研究.
(2.2) 承(2.1) 0.8<r<1
民調公司也可能設計以下問卷
以下是美麗島十月國政民調的問卷:
[Q15與Q16由電腦隨機排序]
15、請問,如果明年大選只有2組參選,1組是
國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6%
16、請問,如果明年大選只有2組參選,1組是
民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1%
如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯
因此p1和p2是高度正相關, r=0.8以上
如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p)
var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了
當n=1068時, 這個誤差是3*0.65 = 2%左右,
這個含意是:
"如果柯侯和侯柯的正相關性高達0.8,
那麼民調之中柯侯只要領先侯柯2%,
統計上就代表柯侯顯著勝過侯柯"
(2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外.
var(p1-p2) = 2*var(p) - 2*r*var(p) = 0
誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%,
那麼柯侯統計上就顯著勝過侯柯
問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯.
因此, 總言之, r越是接近1, 誤差就越接近0
柯侯需要領先侯柯的%數就越低.
但結果仍需視每份民調不同的r值而定.
備註1. 11/17號民眾黨曾經發布一個消息,
在談判當天晚上六點以前要上傳原始資料,
目的很可能就是要對各家民調的相關性r進行檢查.
備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說
"變異值很高, 讓3%已經很多"之類的話,
黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%"
記者當然聽不懂.
她們就是在說明本文中(r=0.9)的情況.
把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96
根號(0.2*0.5^2/1086)*1.96
算出來剛好是1.34% 正是黃珊珊口中"1.3幾"
我沒有政治立場, 不過以我的統計學專長,
我認為民眾黨還是懂統計的.
參考資料:
1.Mathematical Statistics, Rice 3rd 11.3
2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891
--
智菡報氣象的 應該有學統計
蔡正元就講了誤差的誤差很小
這幾個還要點臉的不會硬拗科學
問題是民調有年齡市話手機會加權過
人真好 幫忙治療失眠
跟國民黨合 就是不爽啊
感謝兩個小丑提升國民的統計學
這個明明很基礎的統計學啊 怎麼一堆人不
會?
兩題互比 卻一直拿單一題的抽樣誤差來當
誤差
今天如果是 一題「侯 VS 柯 」做1068份
才是正負3%
你今天是
第一題:侯柯 vs 賴蕭
第二題:柯侯 vs 賴蕭
然後 第一題 vs 第二題 那就不會是3%了
在兩題高度相關的狀況下
(第一題選賴蕭的 到了第二題多數還是繼
續賴蕭)
(第一題選候柯的 到了第二題多數繼續柯
侯)
高度正相關 誤差只會縮小
樓上, 那要看原始問卷而定,你看聯合報的r=0
用相關性下去 會計博士會跟你說心中有
大我就夠了
嘖嘖嘖
問題是協議寫那3位專家判斷啊
樓上, 法律問題我不懂, 我只懂統計問題.
其實,這幾天民調會不準的最大原因,
就是綠營反串仔的比例根本無從計算
侯柯跟柯侯兩題出現,綠的一定都投賴
?要確定捏,那2020年韓國瑜,跟2018
洪秀柱的黨內初選民調,怎麼選可能出
現成功5成數據,最後陰溝翻車
所以要預估到底要讓幾趴才是安全消除
反串仔的干預?這個就真好吵了
連美麗島都放棄上周五的民調公佈了
kh749 其實一般人只想知 誰才是對的。
沒結論,有多少會統計...
我還看到另一種直接抓柯侯侯柯出來
互比,扣掉賴蕭樣本數,再算誤差範
圍,那侯柯就贏麻了,這是正確的嗎
?
這一個統計題,最有趣的是沒有學校老師背書
是題目太難了嗎?
其實不用那麼複雜, 一般人認知就是指兩個
數值去比, 然後看這份民調誤差範圍多少就
是多少, 柯贏超過才算贏. 結束
一堆人被朱帶風向... 掛著會計學博士
結果做這麼惡劣的事,悲哀
柯侯侯柯互比也是3:3啊
你要兩個數值去比,就只能做一題叫侯
柯、柯侯你比較支持誰,不能出現賴,
這才是真正讓3%,但沒民調公司做這題
反正現在怎麼合都已經會讓某一邊的基
本盤崩掉,寧願不投甚至投賴教訓另外
一邊
塔綠班:…………欸嗯…… 朱立倫說沒有
讓6%這事情!!
柯文哲毀約啦 不管啦!!
朱立倫話能信 就跟塔綠班最愛國一樣可笑
auAK3c2YzHS
樓上,那篇文章就是我本人寫的,經過yt網友
的指正,今天寫了個進階版,應該也是最終版
的。
推 。你明早去侯場子踢館
政黑綠跟草包侯表示..我們意見一致不認同
講那麼多你覺得三個專家都是傻子==?
推
正確
如果你說的是對的,那代表柯贏定了不是
嗎?所以是柯不相信科學還是柯根本不想
合?那柯簽了一張期約會選跟龐式騙局的
契約做什麼?
綠粉不懂啦
是不懂,為何明明靠科學就可以順利柯侯
配卻在那邊哭哭情勒不放棄加翻供說自己
簽了張期約賄選的文件,真心不懂求開釋.
推 你是統計系?
你說最終就最終啊?你誰啊?
推 雖然沒學過統計 但是推理過程合理
國民黨老費講得很好 反正極端值最多就是
讓4% 真的算大概2%左右 柯其實還多讓了
感謝解說
8樓講的蠻有道理的
推這篇,朱式統計學本來就在亂算,不同
的問題還誤差一個+3%,一個-3%,擺明就
是想翻桌而已。
好奇統計誤差很小 但每個卻都不一樣
結果 跟現實也不完全相同
如果候柯不等於柯候那正相關值會一
樣嗎
雖然我相信還是3:3 單純論統計的
差異
對你說的都對 快去跟三位專家講
整篇都中文,但是臥沒有立場
專業推
爆
Re: [新聞] 堅決否認要柯讓6% 國民黨:這絕對是認知作剛剛看到某些論壇 還真的有些人 以為雙方都在誤差範圍內 以為柯侯、侯柯都差不多 XDDDD 民調不是這樣解讀的爆
Re: [爆卦] 科普:願某人念博時少學點話術多學點統計我覺得原文有很多錯誤,恕刪 首先,我必須要說一開始談成的條件就不合理,就統計而言 我可以理解誤差範圍內侯柯配的做法,這一開始也是柯提出的 這做法的概念在於,把侯柯當成虛無假設(預設值的概念),只有在對柯侯能表現較好有信 心的時候才選柯侯(否定虛無假設)33
Re: [新聞] 協商有強調是「正負」 朱立倫:柯文哲一: : 朱立倫表示,他有點教授性格,他把統計誤差與公式,都背給大家聽,1068份樣本數,誤 : 差範圍是正負3個百分點;2000份樣本是正負2.2個百分點,3000份就是正負1.75個百分點 : ;若要到柯所主張的正負1.5個百分點,那要4250份。現在統統不要講百分之幾,全部回 : 到統計誤差,每份民調都有很明確的統計誤差。31
Re: [問卦] 有沒有三方的統計學都超級爛的八卦首先 抽樣誤差是在統計學上本來就會有的限制 只是用機率的形式來展現 拿抽樣誤差3%6%來說要讓幾% 根本就在亂用 到底指的是民調數字讓3%?讓抽樣誤差? 還是只要沒有統計上的顯著差異就讓?25
Re: [討論] 到現在還在凹6%柯侯對賴時 柯侯的民調數字是 A, A 的誤差值平方是 sigma 賴的民調數字是 B, B 的誤差值平方是 sigma 侯柯對賴時 侯柯的民調數字是 C, C 的誤差值平方是 sigma26
[黑特] 統計誤差 根本兩黨都在亂講首先 抽樣誤差是在統計學上本來就會有的限制 只是用機率的形式來展現 拿抽樣誤差3%6%來說要讓幾% 根本就在亂用 到底指的是民調數字讓3%?讓抽樣誤差? 還是只要沒有統計上的顯著差異就讓?8
[討論] 懶人包-不用再討論簽字跟誤差 沒有意義先總結 真的不用再討論11/15簽字或誤差範圍 因為那4位都不是統計專業,簽出來的東西沒意義 詳述如下: 1、簽字內容沒釐清統計誤差是什麼誤差6
Re: [爆卦] 黃揚明(剝雞)民眾黨說法及民調結果看這張整理蠻有趣的 1. 如果看的是「柯侯對賴蕭的差距&侯柯對賴蕭的差距的相減」與「各自調查的統計誤差 範圍」,那就是侯柯對柯侯3:3 2. 如果看的是「柯侯對賴蕭的差距&侯柯對賴蕭的差距的相減」與「各自調查統計誤差範 圍,上下都要算x2」,那就是侯柯對柯侯 4:25
Re: [爆卦] 科普:願某人念博時少學點話術多學點統計看系上教授討論完了(?) 用自己理解的話出來野人獻曝一下 3% or 6%都不對 但錯了也沒有很丟臉 因為要把這問題處理好很麻煩 硬要說是0-4.2% 甚至更嚴格來講 這也不是很精準 只是再估很麻煩- 根據目前看到的資料,統計誤差會隨著民調樣本數的提高而逐漸下降,所以不是什麼所謂的讓3%那麼簡單。 民調的原始數據會根據統計誤差而有一個誤差範圍。KMT所謂的統計誤差範圍,就是指柯侯的極小值要比侯柯的極大值還大,才算超出統計誤差範圍。 以匯流的民調舉例(統計誤差為2.17%): 原始數據: 柯侯:48.3%
17
[討論] 台胞證就是中國公民證件19
[討論] lono你知道台胞證需要用中華民國護照辦郵21
[討論] 洪申翰當部長也能吹嗎?33
Re: [黑特] 藍白居然不擋兩岸人民關係條例修法耶49
[討論] 洪申翰是史上第一位高中學位的部長嗎?5
[黑特] 幹麼不找賴香伶掌勞務部門?X
[討論] 死人還在壓案的黃國昌憑什麼還在當立委6
[討論] 館長:我應該當總統18
[討論] 狂賀!王義川補上立委啦!5
[討論] 死人都在壓案的黃國昌都能當立委了8
[討論] 民進黨真的讓我大開眼界…4
[討論] 賴清德真的用人也太誇張了吧16
[黑特] 洪申翰還沒當部長就先幫宜容太后吃案6
[討論] 起碼洪不用擔心論文抄襲問題吧?!6
[討論] 揚州萬達廣場 每日獻忠任務(1/1)6
[討論] 哪一個比較諷刺?6
[討論] 有沒有洪申翰的八卦?1
[討論] 民進黨什麼時候開始用一堆低學歷份子?3
[討論] 黃捷雞排妹適合哪個職位16
[討論] 王義川上位了?好期待3
[討論] 有一說一 40%真的覺得今晚的人事案ok嗎?4
[黑特] 謊國蔥 閃兵的咪咪3
[討論] 洪申翰當部長誰最崩潰?2
[討論] Skylion: 王義川具有搞死民進黨的特質4
[討論] 謝宜蓉是橘系比較不肥的!12
[討論] 爽!!美國準備要取消中國貿易最惠國待遇了1
Re: [討論] 民進黨什麼時候開始用一堆低學歷份子?6
[討論] 抹人吃案9天 再用吃案9個月的當部長X
[討論] 找到為何謝宜容狂被貼綠標籤的原因?3
[討論] 洪申翰是台灣史上第一年輕的部長嗎?