PTT評價

[討論] 民調統計之亂---最終章

看板HatePolitics標題[討論] 民調統計之亂---最終章作者
kh749
(ReturnTo)
時間推噓26 推:29 噓:3 →:70

小弟看到版上很多人對民調統計很有興趣,
剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下.
如果有錯還請不要見怪.

先講結論:
1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1,

2. 國民黨版本
如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣
那麼民調之中柯侯只要領先侯柯1.34%,
統計上就代表柯侯顯著勝過侯柯

3. 在民眾黨版本中
如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9,
這個r值每份民調都不一樣
那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%,
統計上就代表柯侯顯著勝過侯柯.
這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前,
答媒體問時有提到

從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好,
不過這未必代表他們贏了. 仍要視每份民調的r值而定.

以下請看詳細解說:
--------------------------------------------------
p是支持率, n是樣本數
var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96))

如果只是粗略估計,
一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多).
當n=1068時, 根號(var(p))*1.96 = 3%

比較兩位候選人支持率p1,p2
如果選用p1-p2這個值來做決策,

var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2))
r是大家高中都學過的相關係數-1<r<1

如果粗估p1=p2=p, 那麼var(p1)=var(p2)
var(p1-p2) = 2*var(p) - 2*r*var(p)

(1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0
(1.1) 當r=-1時,
適用情況: 在一對一的選舉中, 一人沒有第三種選項
例如在新加坡, 投票是全民義務, 不能不投票,
可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇

也就是p1和p2完全負相關, r=-1
var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6%
也就是李某要勝過黃某6%才算超過誤差範圍.

(1.2) r約為-0.5
因此如果在台灣, (1.1)的假設就不適用
一個人除了國民黨p1和民進黨p2以外,
還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票.

所以台灣選舉的r約等於-0.5, 中度負相關.
var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3%
這也就是不少民調專家,政黨操盤手所說,
一對一選舉要贏5%以上才算是贏!
例如以下這篇報導:
國民黨立委提名/現任者民調贏逾5% 才徵召
https://news.ltn.com.tw/news/politics/paper/863837


(2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯
(2.1)當r=0, 也就是p1與p2二者獨立的時候,
如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然.
那麼p1,p2的相關性可能就很低, r接近0.

例如聯合報的這份問卷: Q7和Q8不會問同一個人.
【Q7及Q8隨機呈現】
7.如果郭台銘最後不參選,藍白整合是柯文哲當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)柯文哲搭配侯友宜[柯侯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答

8.如果郭台銘最後不參選,藍白整合是侯友宜當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)侯友宜搭配柯文哲[侯柯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答

當r約為0時,
var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2%
也就是柯侯要贏過侯柯4.2%才算柯侯贏

有人會問(2.1)和(1.1)有什麼不同?
(2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0)
然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1
這點滿有趣的, 有興趣的讀者可以自行研究.


(2.2) 承(2.1) 0.8<r<1
民調公司也可能設計以下問卷

以下是美麗島十月國政民調的問卷:
[Q15與Q16由電腦隨機排序]
15、請問,如果明年大選只有2組參選,1組是
國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6%

16、請問,如果明年大選只有2組參選,1組是
民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1%

如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯
因此p1和p2是高度正相關, r=0.8以上
如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p)
var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了
當n=1068時, 這個誤差是3*0.65 = 2%左右,

這個含意是:
"如果柯侯和侯柯的正相關性高達0.8,
那麼民調之中柯侯只要領先侯柯2%,
統計上就代表柯侯顯著勝過侯柯"

(2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外.
var(p1-p2) = 2*var(p) - 2*r*var(p) = 0
誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%,
那麼柯侯統計上就顯著勝過侯柯
問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯.

因此, 總言之, r越是接近1, 誤差就越接近0
柯侯需要領先侯柯的%數就越低.
但結果仍需視每份民調不同的r值而定.

備註1. 11/17號民眾黨曾經發布一個消息,
在談判當天晚上六點以前要上傳原始資料,
目的很可能就是要對各家民調的相關性r進行檢查.

備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說
"變異值很高, 讓3%已經很多"之類的話,
黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%"
記者當然聽不懂.
她們就是在說明本文中(r=0.9)的情況.
把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96
根號(0.2*0.5^2/1086)*1.96
算出來剛好是1.34% 正是黃珊珊口中"1.3幾"

我沒有政治立場, 不過以我的統計學專長,
我認為民眾黨還是懂統計的.

參考資料:
1.Mathematical Statistics, Rice 3rd 11.3
2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣)
PTT 網址

Supasizeit 11/22 02:27智菡報氣象的 應該有學統計

Greatgenius 11/22 02:29蔡正元就講了誤差的誤差很小

Greatgenius 11/22 02:30這幾個還要點臉的不會硬拗科學

henryliao 11/22 02:32問題是民調有年齡市話手機會加權過

miha80425 11/22 02:35人真好 幫忙治療失眠

ILoveKMT 11/22 02:43跟國民黨合 就是不爽啊

BlackAndWhit 11/22 02:52感謝兩個小丑提升國民的統計學

※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 02:59:39

partsex 11/22 03:02這個明明很基礎的統計學啊 怎麼一堆人不

partsex 11/22 03:02會?

partsex 11/22 03:02兩題互比 卻一直拿單一題的抽樣誤差來當

partsex 11/22 03:02誤差

partsex 11/22 03:04今天如果是 一題「侯 VS 柯 」做1068份

partsex 11/22 03:04才是正負3%

partsex 11/22 03:04你今天是

partsex 11/22 03:04第一題:侯柯 vs 賴蕭

partsex 11/22 03:04第二題:柯侯 vs 賴蕭

partsex 11/22 03:04然後 第一題 vs 第二題 那就不會是3%了

partsex 11/22 03:11在兩題高度相關的狀況下

partsex 11/22 03:11(第一題選賴蕭的 到了第二題多數還是繼

partsex 11/22 03:11續賴蕭)

partsex 11/22 03:11(第一題選候柯的 到了第二題多數繼續柯

partsex 11/22 03:11侯)

partsex 11/22 03:11高度正相關 誤差只會縮小

※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 03:15:57

kh749 11/22 03:19樓上, 那要看原始問卷而定,你看聯合報的r=0

gino12456 11/22 03:22用相關性下去 會計博士會跟你說心中有

gino12456 11/22 03:22大我就夠了

nhk123871192 11/22 03:38嘖嘖嘖

forb9823018 11/22 03:39問題是協議寫那3位專家判斷啊

forb9823018 11/22 03:40https://i.imgur.com/5P1Pw9E.jpg

kh749 11/22 03:44樓上, 法律問題我不懂, 我只懂統計問題.

diyaworld 11/22 03:52其實,這幾天民調會不準的最大原因,

diyaworld 11/22 03:52就是綠營反串仔的比例根本無從計算

diyaworld 11/22 03:52侯柯跟柯侯兩題出現,綠的一定都投賴

diyaworld 11/22 03:52?要確定捏,那2020年韓國瑜,跟2018

diyaworld 11/22 03:52洪秀柱的黨內初選民調,怎麼選可能出

diyaworld 11/22 03:52現成功5成數據,最後陰溝翻車

diyaworld 11/22 03:54所以要預估到底要讓幾趴才是安全消除

diyaworld 11/22 03:54反串仔的干預?這個就真好吵了

diyaworld 11/22 03:54連美麗島都放棄上周五的民調公佈了

afjp 11/22 03:59kh749 其實一般人只想知 誰才是對的。

afjp 11/22 03:59沒結論,有多少會統計...

SuNnyMooN89 11/22 04:04我還看到另一種直接抓柯侯侯柯出來

SuNnyMooN89 11/22 04:04互比,扣掉賴蕭樣本數,再算誤差範

SuNnyMooN89 11/22 04:04圍,那侯柯就贏麻了,這是正確的嗎

SuNnyMooN89 11/22 04:04

afjp 11/22 04:06這一個統計題,最有趣的是沒有學校老師背書

afjp 11/22 04:06是題目太難了嗎?

berryc 11/22 04:26其實不用那麼複雜, 一般人認知就是指兩個

berryc 11/22 04:26數值去比, 然後看這份民調誤差範圍多少就

berryc 11/22 04:26是多少, 柯贏超過才算贏. 結束

berryc 11/22 04:27一堆人被朱帶風向... 掛著會計學博士

berryc 11/22 04:27結果做這麼惡劣的事,悲哀

berryc 11/22 04:30柯侯侯柯互比也是3:3啊

diyaworld 11/22 04:53你要兩個數值去比,就只能做一題叫侯

diyaworld 11/22 04:53柯、柯侯你比較支持誰,不能出現賴,

diyaworld 11/22 04:53這才是真正讓3%,但沒民調公司做這題

diyaworld 11/22 04:56反正現在怎麼合都已經會讓某一邊的基

diyaworld 11/22 04:56本盤崩掉,寧願不投甚至投賴教訓另外

diyaworld 11/22 04:56一邊

bakuman 11/22 05:03塔綠班:…………欸嗯…… 朱立倫說沒有

bakuman 11/22 05:03讓6%這事情!!

bakuman 11/22 05:03柯文哲毀約啦 不管啦!!

bakuman 11/22 05:03朱立倫話能信 就跟塔綠班最愛國一樣可笑

bakuman 11/22 05:11https://i.imgur.com/awEkG7i.jpg

bakuman 11/22 05:12auAK3c2YzHS

bakuman 11/22 05:18https://i.imgur.com/DRPySAP.jpg

kh749 11/22 05:57樓上,那篇文章就是我本人寫的,經過yt網友

kh749 11/22 05:57的指正,今天寫了個進階版,應該也是最終版

kh749 11/22 05:57的。

simata 11/22 06:08推 。你明早去侯場子踢館

dream99 11/22 06:12政黑綠跟草包侯表示..我們意見一致不認同

※ 編輯: kh749 (36.224.220.216 臺灣), 11/22/2023 06:32:33

cvsi04236 11/22 06:34講那麼多你覺得三個專家都是傻子==?

helixc 11/22 06:40

lono 11/22 06:46正確

wiliyss 11/22 06:50如果你說的是對的,那代表柯贏定了不是

wiliyss 11/22 06:50嗎?所以是柯不相信科學還是柯根本不想

wiliyss 11/22 06:50合?那柯簽了一張期約會選跟龐式騙局的

wiliyss 11/22 06:50契約做什麼?

HinaTomo 11/22 07:08綠粉不懂啦

wiliyss 11/22 07:16是不懂,為何明明靠科學就可以順利柯侯

wiliyss 11/22 07:16配卻在那邊哭哭情勒不放棄加翻供說自己

wiliyss 11/22 07:16簽了張期約賄選的文件,真心不懂求開釋.

KH8019 11/22 07:34推 你是統計系?

RiverMan1 11/22 07:44你說最終就最終啊?你誰啊?

z010529 11/22 08:12推 雖然沒學過統計 但是推理過程合理

kuniok 11/22 08:14國民黨老費講得很好 反正極端值最多就是

kuniok 11/22 08:14讓4% 真的算大概2%左右 柯其實還多讓了

a19851106 11/22 08:16感謝解說

a19851106 11/22 08:178樓講的蠻有道理的

a2379928 11/22 08:25推這篇,朱式統計學本來就在亂算,不同

a2379928 11/22 08:25的問題還誤差一個+3%,一個-3%,擺明就

a2379928 11/22 08:25是想翻桌而已。

tomandnico 11/22 08:30好奇統計誤差很小 但每個卻都不一樣

tomandnico 11/22 08:30結果 跟現實也不完全相同

deniro143368 11/22 08:47如果候柯不等於柯候那正相關值會一

deniro143368 11/22 08:47樣嗎

deniro143368 11/22 08:51雖然我相信還是3:3 單純論統計的

deniro143368 11/22 08:51差異

kkjjrtlym 11/22 09:45對你說的都對 快去跟三位專家講

formice 11/22 11:36整篇都中文,但是臥沒有立場

felixgene 11/22 11:51專業推