PTT評價

[討論] YT民調資料查詢工具-加入電訪資料

看板HatePolitics標題[討論] YT民調資料查詢工具-加入電訪資料作者
Tpintrts
(Tt.梅梗)
時間推噓14 推:20 噓:6 →:83

https://www.aweb.tpin.idv.tw/president2024/
這個是先前提過可以查詢YT街訪民調的工具,
你可以透過篩選條件來查詢影片和統計資料。

原本做這個工具主要是想研究YT影片為何做出來的結果與電訪民調的差異那麼大,
第一個想到的當然就是抽樣問題,但隨著研究他們的樣本分佈,我漸漸覺得,
會不會其實街訪和電訪根本是調查著兩個特徵完全不同的族群呢?
而這個特徵(我不知道是何種特徵)正好與是否為柯文哲的支持者正相關,
因為另外兩位候選人在街訪與電訪的結果並沒有像柯文哲那樣大的差異,
正因為如此,過去電訪可以一定程度的「代表」全台,但這次可能不行了。

基於這個假設,不得不設法加入電訪民調的內容,
正好TVBS的民調提供的公開資料中,有足夠的資訊可以反推年齡層的樣本數。
同時TVBS的民調資料,也會成為街訪民調的「對照組」,
讓我們看看街訪民調的取樣分佈比起電訪民調的取樣分佈,
是不是真的糟到不堪使用的地步。

以下TVBS的報告用以下這個為例:
https://reurl.cc/Oj4oYA

我們就以版上對關注度最高似乎也比較「有系統和計劃的」在做民調的木炭為例吧。

這是木炭目前影片的年齡分佈,
請把60~69歲及70歲以上合計為30.2%,我國合計為30.5%,
其他年齡層的樣本分佈也大致與國家分佈相同。

https://i.imgur.com/03QyJjc.png


這是TVBS的年齡層分佈,基本上與國家分佈也沒有差很多,
60~69歲那組請視為60歲以上,因為報告中是採用這個刻度。

https://i.imgur.com/vkMFpjm.png


這裡我們可以知道,木炭的年齡隨機性並沒有比TVBS的電訪民調差,
分佈上大致符合國人情況。

至於地區取樣,木炭是各縣市做100票,
這部份雖然地區分佈平均(人口分佈問題後面談),
但會被質疑「抽樣太少」的問題,
這部份就要談到「信賴水準」和「抽樣誤差」
我們常常會看到傳統民調中的這段話
「95%信心水準下,抽樣誤差為±XX 個百分點以內」,
這東西是怎麼算出來的呢?
可以參考這個網頁工具,裡面也有公式介紹:
https://zh.surveymonkey.com/mp/margin-of-error-calculator/

單縣市只抽100人的話,以雲林縣為例,出來的結果會是:

https://i.imgur.com/fZEiLf5.png


560853為雲林縣人口,所以單抽一百人的話會是
「95%信心水準下,抽樣誤差為±5 個百分點以內」
通常民調公司都會壓在±2.5,所以就單縣市來說,這個樣本太少沒有錯。

但TVBS總共只抽千餘位,平均一個縣市差不多50人,單縣市就不會樣本太少嗎?
所以他們分層不是單縣市。

https://i.imgur.com/WDCNmvo.png


我原本是這樣以為的,但當我計算樣本時發現也不對,
這個例子裡有效樣本數為1273位,15%為191位,雲嘉南總投票人口為2769467,
放進公式算:

https://i.imgur.com/yucGzws.png


TVBS誤差範圍是±3.5%,
反而木炭做300人,誤差範圍是±3%,

所以到頭來那個「95%信心水準下,抽樣誤差為±2.7 個百分點以內」
是以總樣本數對應總投票人口算出來的,所以如果木炭真的22縣市做完,共計2200人,
他們算出來會是:

https://i.imgur.com/Qt8m9mE.png


「95%信心水準下,抽樣誤差為±1 個百分點以內」

這裡要說的並不是木炭的抽樣誤差有多小,而是這東西反正你就套公式進去算,
就像分層用雲嘉南,如果他雲林訪了150個,嘉南訪41個,合計也是191人,15%,
TVBS報告裡面你也看不出來。

所以就這部份來說,木炭的街訪的樣本也沒有比較差。

再來是加權問題,
同樣抽100人,連江縣的100人和台北市的100人,
如果要推估全台灣的投票人口母群體,就不能把它們各視為「100票」,
因為台北市的投票人口是連江的173倍左右,推估全台支持度的話,
都算成一票是有問題的,
因此如果木炭他們把不同縣市的票數未經加權就合計,然後做比較,
這樣是不行的,但他們也沒有那麼做。

講到這裡,我們至少可以知道木炭街訪的樣本品質沒有差到不堪使用,
至少在地區和年齡的處理上,並沒有比民調公司的差太多。

所以,我們應該可以運用這些樣本來做處理。

那麼接下來的問題就是,假設市話手機民調與街訪其實是三個族群,
那他們的比例應該是多少,

根據這份關於市話使用情況的報告

https://reurl.cc/V41oq5

這份報告詳盡的介紹了研究方法,也提供了原始樣本,
可信度應該很高,
從中我們可以知道有51%左右的人已經完全不使用市話,
剩下的市話用戶裡還有約27%左右為企業用戶,也就是說,
還在使用市話的個人用戶可能只剩全部人口的33%,
我們可以認為這33%就是市話民調的「母群體」,
那剩下的67%人口,是市話民調調查不到的人,
調查不到就是調查不到,再怎麼加權也沒有意義,
那我們假設手機調查的群體也和市話一樣33%,剩下的就是街訪了。
這是我的比重推測,當然這部份也是大家爭議最多的地方,
雖然我預設電訪佔65%,但網頁中這部份大家可以自由設定,你也可以設定100%。

接下來要談的圖表,都是以木炭有年齡資料的影片和TVBS的民調的調查,
電訪比重:65%、電訪平均投票率:75%

https://i.imgur.com/D52Kzei.png


我們可以看到在原始樣本無加權的情況下
賴37.2%、侯27.2%、柯35.78%

https://i.imgur.com/xteUnYq.png


我們對縣市口加權,但假設投票率為100%時

只有街訪的話是
賴35.32%、侯19.02%、柯45.65%

街訪併電訪
賴36.83%、侯25.49%、柯37.68%

https://i.imgur.com/phE9sBy.png


這裡對縣市人口加權的方法,舉例來說:
候選人共獲得該次100票中的50票,調查的縣市為連江縣,其總人口數為12118,則此候選人在此次調查中會被加權為6059票。
併電訪時,則是依照上面的方式得到票數後,再乘上權重。

接下來我們把年齡層的投票率考慮進去:
網頁中提供了以2020年齡投票率為基礎的高投票率
還有以2016年齡投票率為基礎的低投票率,這裡就只講2020的為例

只有街訪的話是
賴35.95%、侯19.58%、柯44.47%

街訪併電訪
賴37.05%、侯25.69%、柯37.26%

https://i.imgur.com/etg8tdZ.png


計算方式為舉例來說:
候選人在20-29歲年齡層共獲得該次100票中的20票,而2020年總統大選20-29歲的投票率約71%,連江縣總人口為12118,則投票率100%時該候選人可以獲得20-29歲約2424票,但投票率此時假設為71%,因此加權後計為1720票。
電訪的情況下,因為沒有辦法得知單一縣市的年齡層分佈情況,所以要人口併年齡加權有困難,所以其投票率設定為75%,此為2020年總統大選的平均投票率。
這裡可能有人認為,報告中特別強調只調查「有投票意願」者,這裡怎麼還要有投票率,這是因為人只加權的情況,即使只記載「有投票意願」者,人口總數中仍然會有「無投票意願」者,他們沒有在報告中被記載,但人口加權時還是要先排除掉這些人。

每種加權方式的重要假設都寫在表中,其統計結果會有多少參考性就自行評估了

https://i.imgur.com/Kp264nF.png


到這裡說明完樣本加權的方法與結果,有興趣的人也可以試試別種篩選條件。

我認為,街訪就是比較容易做出柯文哲領先是不爭的事實,
而市話使用人口剩下約33%也是有根據的,
與其一直說其中一邊不準是假的,
或許應該考慮怎麼做才能獲得一點真實性。

美麗島民調執著在市話民調是一件很奇怪的事,
確實市話有著能準確知道對方地點的好處,
問題用的人就是變少了,我不免覺得是因為花大錢系統建在那邊了,
如今要改也是累,就繼續用吧的感覺。
街訪民調也有其限制和缺陷,但直接說成沒有用,也是不太合理,
畢竟實地訪問是很常見統計調查方式,難道那些研究收集的樣本都沒用嗎?

另外,用選舉結果衡量民調準不準是不公平的,
你現在調查我,我說我要投A,因為我很討厭C,
結果後來看一看B好像比較會上,為了幹掉C我就投了B
我能說你的調查「不準」嗎?在那個當下還是準的吧?
既然有「棄保」這種東西,民調註定會和選舉結果有落差,
只能求當下是貼近現實的,
讓民眾能有效決定投票策略,候選人能準確知道努力方向,
所以追求「真實」的民調還是很重要,
那我們就需要知道民調的細節,才能考慮他可能哪些地方會與現實有落差。

最後提一個人口加權重要性的例子,
剛好「五星司機艾倫」目前做出來的結果是個好例子

他所有影片只做了新北市和台北市,沒有年齡資料,

在沒有縣市人口加權的情況下是:
賴40.35%、侯16.99%、柯42.66%

https://i.imgur.com/3y7SSIi.png


不過人口加權後就驚人的逆轉了:
賴45.15%、侯23.86%、柯30.99%

https://i.imgur.com/undefined.png


這是為什麼呢?加權方式有問題?作弊?
其實不是,我們觀察他台北市和新北市的訪查的樣本數

https://i.imgur.com/uRUGevO.png


https://i.imgur.com/EP9W0C1.png

會發現賴清德在新北壓勝,柯文哲則在台北大勝,
但台北投票人口為209萬,新北則為340萬,
較多的樣本數並不會影響人口總數和得票比例,
人口加權之後,反而賴在新北的樣本就變大很多,於是結果就不同了。
至於他兩個縣市的調查分佈可能有點問題,這裡就略過不談了。

其實不管街訪多麼不嚴謹,他們都至少讓另一種聲音能被注意到,
也讓民調公司有一些壓力,讓人們開始會想探討樣本與統計方法,
而不是只是一直談立場,講「機構效應」之類的東西。

另外,有些人喜歡用YT出片時,影片結果是誰領先來講對方風向變了或是別有用心,
這裡統計了各YT頻道各候選人領先時的影片數,相信對測風向有點幫助,

https://i.imgur.com/iu3q6da.png


我們可以發現桃園孫先生每個候選人領先的影片數都差不多,
賴領先的影片還相對較多,
但我想並不會有太多人(包括他自己)覺得他支持民進黨吧?


--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.145.178 (臺灣)
PTT 網址

seraphimm 09/26 00:22該睡了,人獸交民調

zeuswell 09/26 00:22幫推,但太長我看不下

※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 00:24:22

aling1205 09/26 00:28辛苦的認真分析,不過某些族群會不開

aling1205 09/26 00:28

etset 09/26 00:32師父穩了

如果你有看內容,你得到的結論應該是師父很不穩。 沒有棄保很難當選。

VANNN 09/26 00:34鬼扯,,光隨機性就差很多了

我已經證明了至少年齡分佈符合國人年齡分佈,縣市分佈也是各縣都抽, 如果你這樣還認為我未能「證實」有相當的隨機性,但也請「證偽」, 這樣的隨機性為何不足?

VANNN 09/26 00:35市話安裝比例還有7成,

sam7207 09/26 00:35...為什麼可以這麼認真..他公式一開始就.

VANNN 09/26 00:36什麼叫做不知道人口分佈

我猜你是看錯了,我是指TVBS的調查中沒辦法知道單縣市人口與年齡支持度分佈的情況, 所以沒辦法用各縣市人口去加權,只好用總體去算。全國人口分佈當然知道, 第一段就在談人口分佈了。

sam7207 09/26 00:36用錯啊..怎麼會用平均數的信賴區間估計..

謝謝你,其實人家給我的連結,我以為是相同的東西,這樣那段就留著給大家笑吧。

VANNN 09/26 00:36就滿口胡言亂算

sam7207 09/26 00:36什麼 撫慰人心的網頁 包含在5000萬裡面嗎

個人研究而已。

VANNN 09/26 00:37十個月做2200百份,,你告訴我抽樣誤差正負

VANNN 09/26 00:372.5 拿去任何一家正統民調公司都會被笑死

sam7207 09/26 00:38https://imgur.com/YfkfoU6

sam7207 09/26 00:38那個不懂統計學沒關係..上網找也要找正確

scratch01 09/26 00:38光街訪的偽隨機就無效問卷了

以某些YT的情況確實如此,最後面也舉了反例了。 但前幾段就是在證明至少木炭民調的隨機性並沒有特別差。

sam7207 09/26 00:39什麼抽樣阿 隨機性阿..真的不要這樣比

VANNN 09/26 00:39隨便問一個統計老師說要用街頭民調代表隨機

sam7207 09/26 00:39那個便利抽樣 跟 隨機抽樣 先搞懂一下

好哦。我去查了兩者,街訪民調確實更接近「便利抽樣」,不過我比較在意的是, 我查到的「分層隨機抽樣」是這樣解釋的: 分層抽樣是從幾個子群裡面隨機選出個體來形成最終樣本。假設研究人員想了解美國成年 人的意見,除了任意選出 500 名成年人以外,也可以在 50 個州當中各取 10 名成人, 以此做為「隨機」樣本。如果每個子群的標準差 (誤差率) 都低於整體,那麼就能全面降 低誤差範圍。 如果用他的例子來講: 木炭想了解台灣成年人的意見,除了任意選出2200名成年人之外, 也可以在22個縣市中各取100名成年人,以此做為「隨機」樣本。 如果每個子群的標準差 (誤差率) 都低於整體,那麼就能全面降 低誤差範圍。 聽起來木炭的問題主要只是他的誤差範圍無法評估吧?可能高誤差,也可能低誤差?

VANNN 09/26 00:39性抽樣就會被打零分了吧

VANNN 09/26 00:39電訪用的叫 分層隨機抽樣...街頭用的是便

sam7207 09/26 00:40https://imgur.com/QY3J8lC

VANNN 09/26 00:40利抽樣+立意抽樣,,,你說有做系統抽樣還準一

VANNN 09/26 00:40

sam7207 09/26 00:42鐵了心要洗YT街訪屌打傳統民調公司..QQ

你這話就不對了,整篇文章表達的並不是傳統民調不準, 而是它們可能已經不像從前那樣可以代表整個族群了, 同時街訪民調也沒有那麼不具參考性,如果他們觸及了完全不同的族群, 是不是應該兩邊都要參照呢?

VANNN 09/26 00:42應是民眾堂要 抹街頭抽樣民是準的那掛

VANNN 09/26 00:43韓國瑜當年敗像已露就開始洗 不看民調只看

VANNN 09/26 00:43造勢大會,民調大家蓋牌

sam7207 09/26 00:44民調可以做出表象 但是你拿一個更啦嘰的

sam7207 09/26 00:44這真的太誇張

sam7207 09/26 00:44我相信民調公司 跟 政黨內部一定有真實

VANNN 09/26 00:45newbrain 被封了,,,柯粉再接再勵

sam7207 09/26 00:45內部參考民調啦 只是不會給外人知道

sam7207 09/26 00:45簡單問就是 你民眾黨內參用YT街訪 我也認

sam7207 09/26 00:45了....

學習中,兩位統計學大師讓我有所獲益。我這篇文章只是提出想法, 和論證過程,正例反例對照例都有舉, 並沒有打算帶什麼風向,暗示哪個候選人比較高支持度, 這樣預設我的立場我也沒有辦法。

andy199113 09/26 00:46好酷喔

VANNN 09/26 00:46當年韓國瑜韓粉智障到由電話==>街頭==>網路

VANNN 09/26 00:47==>看yt 觀看人數,,就知道完了

VANNN 09/26 00:47前面全輸,,,只好蓋牌

BDG 09/26 00:47garbage in garbage out

sam7207 09/26 00:48真的是 嘎逼居 硬

boogieman 09/26 00:56你是新新腦嗎?

sheng319 09/26 00:56首先街坊的問題每個人都不太一樣,雖然

sheng319 09/26 00:56大意一樣卻也會造成引導,電訪同樣可以

sheng319 09/26 00:56在問題上引導但是能保障每個人問的問題

sheng319 09/26 00:56是一樣的,光是這點街坊就沒有統計性了

sheng319 09/26 00:59再來把每個不同的街坊摻在一起做統計分

sheng319 09/26 00:59析更是可笑,以為是撒尿牛丸可以這樣參

sheng319 09/26 00:59雜的嗎?

老實說,這次街訪只有「一個題目」,反而可以不用考慮問卷設計的問題, 是相對單純的狀態,台灣民意基金會也有公開他們的報告, 只是他們的問題極為複雜,到沒有辦法像TVBS那樣,與街訪的資料一起格式化。

sheng319 09/26 01:00統計真沒想像的簡單,要嚴謹一點從問卷

sheng319 09/26 01:00設計,統計方式都要考慮,不是抓抓數據

sheng319 09/26 01:00有在信賴區間就是對的

sam7207 09/26 01:00總之 是個撫慰人心的民調 對吧?

文章大概太長了。

sheng319 09/26 01:03民調就參考看看就好,所以民調有機構效

sheng319 09/26 01:03應不要太意外

skbb2553 09/26 01:07只能說大大的統計學觀念還需要再加強

我是在學習中沒錯,所以問題很多,沒講出來給大家炮一下, 自己想自己對也不太好。無知並不可恥,可恥的是昧於無知對吧!

iamdota 09/26 01:11就是新新聞的兒子,新新腦

※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 01:35:54 ※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 01:41:55

bloodyiris 09/26 01:57還有時間軸問題 選前跟十個月前拿來一

bloodyiris 09/26 01:57起平均也沒什麼用

時間這確實是硬傷,不過並沒有用平均的方式。所有的樣本都是被累積的。 所以基本假設是,人們的投票意願並不會因為時間而改變, 我知道這個假設很有問題,不過街訪就是沒辦法短時間拿到足夠多的樣本, 但這方面反而炮的人比較少。

※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 02:10:46 ※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 02:21:50 ※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 02:25:30

miha80425 09/26 02:55街頭民調並不是大量取樣的好辦法

miha80425 09/26 02:57個體戶容易滯後 但市話民調差不多要淘

miha80425 09/26 02:57汰了 用戶少到一定程度就容易偏差

sc024500 09/26 06:29樣本隨機性時間性都是問題 問卷方法也是

sc024500 09/26 06:29問題

VANNN 09/26 06:31光是你那200份代表台北 在那個"行政區"抽樣

sc024500 09/26 06:31更何況有些街坊甚至是拿白板貼貼紙的 這

sc024500 09/26 06:31不會影響調查?

VANNN 09/26 06:31就有很大問題,,電訪是盡量將台北市各區抽的

VANNN 09/26 06:32機率一致,,避免樣本的"同質性" 木炭的鬼扯

VANNN 09/26 06:32民調 20-50份在同一區,, 根本就視隨機性為

VANNN 09/26 06:33無誤,,其它就別再鬼扯了

VANNN 09/26 06:33還不只同一個"行政區" 甚至是同一個里,你用

VANNN 09/26 06:34一個里代表大安區的民意???回去重讀統計

VANNN 09/26 06:35最最基本的 統計推估原理全錯了,還煞有其事

VANNN 09/26 06:35在研究????? 木炭的作法 自己去查什麼叫PPS

木炭是所有YT裡面缺陷相對少的頻道,所以才以他為例。 破綻很大的,像「桃園孫先生」、「街頭麥克風」、「五星司機艾倫」等等, 即使用文中的標準去檢視,他們樣本參考性也是很低的, 特定年齡調查的特別多或只調幾個特徵同質性高的地點偏等等, 我也不否認很多街訪單獨看意義不大。

VANNN 09/26 06:36抽樣 還有道理一些

chu 09/26 08:30桃園孫先生也太扯了吧 7部有6部都靠他抓猴

其實記錄他的資料時是有點痛苦的,因為他從頭到尾只拍白板, 開場也不拍具體地點,有時只靠光線甚至難以確定是白天還是晚上, 還好他大部份標題都會寫,只是這就有點失去了街訪資訊透明的特點, 雖然我是這次想研究這個,才知道這個人, 不過他的名氣,似乎已經到了他有些街訪的定點是 「攤位老闆分一塊」給他在那裡做的程度, 看地面能拍到的一小角背景(對面的箱子之類的) 感覺不少地方是重複出現的,加上他的白板極具特徵, 他的調查極可能發生大部份的人在批評的情況: 「我知道你的立場和我相同所以我才去投票」, 而他做的時間密集但地點少,加上名氣大到當地攤商會借他位子的地步, 很難保證不會有一些人其實重複被調查了, 他可能本身的調查就具有同溫層集合的效果。

chu 09/26 08:53認真文 看完了

sariel0322 09/26 09:54他們沒有說你要表達傳統民調不準啊,

sariel0322 09/26 09:54但就是要告訴你街訪對於全國總統選舉

sariel0322 09/26 09:54民調就是幾乎沒有參考性。講不好聽一

sariel0322 09/26 09:54點,撿了一堆垃圾當寶,辛苦了

mazznia 09/26 11:09柯糞看完感覺舒服多了

mazznia 09/26 11:11其實這種硬要帶風向的文章,投完票就是

mazznia 09/26 11:11一次倒,例如你文末提到的孫先生,建議

mazznia 09/26 11:11你可以去找找以前2020蔡韓街坊,韓贏的

mazznia 09/26 11:11比例有多高

mazznia 09/26 11:11如果可信且公正,現在總統就是韓導而不

mazznia 09/26 11:11是蔡

mazznia 09/26 11:13不管你信不信這邊大都是準備看好戲開完

mazznia 09/26 11:13票再來一個一個點名街坊做柯贏的

有時候,只是在探索一個現象「為什麼」會發生而已。 「孫先生的街訪很多問題不可信,所以街訪都不可信」 就好像在說 「匯流傳統民調偏向特定立場不可信,所以傳統民調都不可信」 但版上一些人即使不相信匯流民調,還是相信美麗島吧? 同理,某些YT街訪做得不夠好,但有些YT還是可以研究一下吧? 哪怕最後研究主軸變成「YT街訪偏差性情況之研究」也無妨吧? 至於看戲的部份,就...每個人興趣不同,關注的事就不同。

deffejfr 09/26 13:10一般人會覺得這認真文,就算有什麼技術

deffejfr 09/26 13:10性問題,至少人家是有查資料有努力的,

deffejfr 09/26 13:10頂多是大家討論做修正得出更正確的結論

deffejfr 09/26 13:10但對某族群來說他們只會把你打成異教徒

deffejfr 09/26 13:10,請不要拿異端邪說褻瀆我們的信仰

※ 編輯: Tpintrts (59.115.187.162 臺灣), 09/26/2023 13:52:39 ※ 編輯: Tpintrts (59.115.187.162 臺灣), 09/26/2023 13:55:00 ※ 編輯: Tpintrts (59.115.187.162 臺灣), 09/26/2023 14:07:24 ※ 編輯: Tpintrts (59.115.187.162 臺灣), 09/26/2023 14:11:31

mazznia 09/26 18:39三立跟自由我也不信呀,匯流就是色違版

mazznia 09/26 18:39三立自由,你民調好好公正做像是tvbs雖

mazznia 09/26 18:39然大家都知道他藍,但不分藍綠大家都會

mazznia 09/26 18:39相信他

mazznia 09/26 18:41整天像是孫先生只想操作某位侯選人贏,

mazznia 09/26 18:41爽也只能爽到2020開票當天,你看看這次

mazznia 09/26 18:41誰還會信他街坊民調

mazznia 09/26 18:43所以啊,你木炭還是三小一些街坊可以繼

mazznia 09/26 18:43續多做柯贏影片,投票當天大家都等著看

mazznia 09/26 18:43笑話打落水狗