PTT評價

Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?

看板Gossiping標題Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?作者
Imotucc
(建築師巴布)
時間推噓23 推:24 噓:1 →:63

認真回

這篇文章在講的事情是error propagation
如果我有兩個實驗數據
這兩個數據是獨立量測的
那我測到的第一組是A+/-a
第二組是B+/-b
假設你的實驗量總是常態分佈
有統計顯著意義應該是要
|A-B|>sqrt(a^2+b^2)

舉例來說 如果A=40 B=44 a=b=3
他認為統計顯著意義應該要是
|40-44|>sqrt(3^2+3^2)=4.26
但這條沒有成立 所以沒有統計顯著意義


那比較confidence interval的意義是甚麼呢
就是當我們設定95%信心水準樣本數1000
母體數很大的時候不太重要 但我們可以假設個一千萬
那對應的confidence interval大約是3%
也就是說我做無限次調查的時候
有95%的結果我可以肯定
支持某個選項的比例跟某個數值A的差距在3%之內
那在某些社會科學(有些自然科學好像也是)的慣例中
在誤差範圍內=在誤差範圍外的相反
甚麼是在誤差範圍外
就是我可以肯定我量測到的數值跟A的差距不是誤差導致的

換句話說就是
在誤差範圍內=A跟B的差距有可能是誤差導致的
但你可能會問這樣的機率很小怎麼辦
這就是為甚麼一開始要設定95%信心水準
當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍
接著再來比較這95%情況下有沒有可能(有沒有一種母體)
抽樣調查有可能測到A也有可能測到B
如果有可能 就是在誤差範圍內
如果不可能 就是在誤差範圍外

舉例來說 調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡
母體可能是
100011111000 支持率是41%
也可能是
110011111000 支持率是58%
也可能是
110000000000 支持率是17%
...
但你調查的時候只抽3個
你抽到 010 所以喜歡比例是33%
但有沒有誤差值? 有 95%信心下 誤差大概是50%
在這95%的母體中
有沒有可能有一個母體的真實支持率是60%? 有
有沒有可能有母體的真實支持率是90%? 沒有
(根據你的實驗結果 這樣的母體存在的機率不到5%)

為甚麼可以用實驗結果反推母體?
這也很簡單 因為你測到110
所以有沒有可能有母體是 000000000000?
不可能 所以實驗結果是可以反推可能的母體 跟他對應的比例的
所以統計觀念就進來了
95%信心水準下誤差50%的意思是
真實母體的支持率跟33%有沒有可能差超過50%
有可能 例如111111111110
但這種母體存在的比例不到5%


接著問題來了
現在有一間星巳克
你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別
所以你做了一樣的調查
結果呢你一樣抽三個 這次抽到111 喜歡比例是100%
接著你問根據這樣的實驗結果
有沒有可能出現一種母體 消費者對星巴克跟星巳克的喜歡是一樣的
答案是有 而且還蠻常見的 大約有9成的母體容許這種實驗結果
舉例來說 母體可能是
111000000001
111100000001
111110000001
.....
如果你支持3% 你可能會覺得奇怪
支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體

但是但是 這些都是假設信心95%的情況下
95%只是常用的標準
你可以說 我想要誤差0.001%可不可以
當然可以 如果你的信心只有1% 誤差就會很小
換句話說 你做了一個測量
你只要求母體實際支持率跟你量到的差距在0.001%內
那你就只會撈到可能1%左右的母體
那用這個基礎進行討論你就可以說
你有不到1%的信心 消費者喜歡星巳克多於星巴克

當然這是極端的例子 也許你會有80%的信心可以下這種結論
但通常習慣是用95%90%之類的就是了

回過頭來講
要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值
你的平行世界就只有一個
不會有這種背後有不同母體不同情況的可能性
而因為誤差 你實際做測量的時候的測量值大約是常態分佈
至於喜好調查這種東西呢
當你只抽樣調查 你是不會知道背後母體真實長的樣子的
所以你只能討論眾多可能性中 在某種給定條件的各種可能性下的結果

我知道風向不對
但科學精神就是這樣
如果你說我錯 你要講出我哪裡錯
如果你提出一個說法
這個說法要有可以被證明是錯的可能性(不一定錯 但要有可證偽性)

※ 引述《Popechiou (是我)》之銘言:
: https://i.imgur.com/XpDyyD8.jpg

: 剛剛在友版問問題,有朋友回應我這張圖,我看不懂,我只知道投降輸一半,不懂統計,: 這張圖好像很厲害,請問有卦嗎?


--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國)
PTT 網址
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04

JC910 11/19 05:43https://i.imgur.com/aJyPVrU.jpg

s9234032 11/19 05:47一場 選舉 全民上統計課 這畫面好美

doohan01 11/19 05:48前提是兩組獨立數據

沒有錯 如果數據不是獨立就要考慮相關性 第一種常態分佈的例子中誤差有可能修正 至於是變大還是變小要看兩者是正相關還是負相關 回到統計的例子 基本上你是星巴克星巳克分開問的 所以你得到的兩個對於母體推論基本上是獨立的

ShockHo222 11/19 05:49台灣人真可憐,一會兒要懂疫苗,一會

ShockHo222 11/19 05:49兒要懂統計

ok66 11/19 05:56你假設錯了啊 柯侯跟侯柯就有相關性 而且是

ewing 11/19 05:57如有天命 需要讓票?

ok66 11/19 05:57正的 所以會比你估的小

我沒有在討論那個例子 你可以說這個假設下的論述不適用某個例子 而不是你假設錯了 再回來相關性這件事 首先你要放相關性進來考慮的就是第一個例子 假設有一個上帝知道的真實數值而不是有各種可能的母體 那確實正相關會使誤差傳遞比原本的誤差傳遞小 但問題來了 請問你如何知道cov(A,B)是多少呢?

ok66 11/19 06:04看民調有沒有計算這項啊 我怎知==

民調當然沒有這項 因為通常計算covariance的時候是第一種例子 你在做實驗量測 量測一個數值 而不是做民調 調查支持比例 事情是這樣的

https://imgur.com/4zQ7Ztp

這是covariance 如果假設支持算1不支持算0 讓x_i要嘛1要嘛0 可能可以算至於能不能用我持保留態度 畢竟第一種常態分佈的狀況假設的是常態分佈 但0跟1顯然不是常態分佈 總之退一萬步我們用0跟1做個估計好了 但只是估計所以實際計算結果也許跟估計不一樣 總之 甚麼時候會得到最高的負相關呢 就是同一個人喜歡星巴克就不喜歡星巳克 甚麼時候會得到最高的正相關呢 就是同一個人喜歡星巴克就喜歡星巳克 的確正相關會讓誤差變小 但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人 高度正相關基本上是否定這個看法 因為高度正相關代表的是多數人兩個都一樣喜歡

sofaly 11/19 06:11請問什麼是越位

brian900530 11/19 06:15正解就是沒有raw data都算不出來啦

brian900530 11/19 06:16沒有原始數據要怎麼知道共變異數XD

brian900530 11/19 06:16DD

wen17 11/19 06:329成的母體 你是假設各種母體機率均等吧

概念是這樣的 首先我們知道做了測量之後各種母體存在的機率就不均等了 舉例來說你測到111 母體就不可能是00000 所以一般來說我們看的是把9成5的母體挑出來 看能不能排除某種情況 換句話說 能不能挑9成6的母體出來 且這些母體實際支持率跟測量的小於3%呢? 答案是不能 一旦你做了1000份問卷 這種可能性就被排除了 至於挑出來的9成5的母體裡面各種比例是多高? 這跟誤差範圍內是兩件事 因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多 但10成母體統計誤差是100% 所以有兩個不同的問題 1.我能不能猜哪個母體最有可能 答案是可以 而且你八成會猜是你量到的那個 可是這時候你猜錯母體的機率也很高 2.我可不可以降低猜錯母體的機率 並在這個基礎上排除某事件發生的機會 可以 這就是統計誤差

wen17 11/19 06:33也就是0 1都50% 這樣能maximize interval

wen17 11/19 06:33我不是很確定同時比兩組數據這樣公平嗎

wen17 11/19 06:34而且實際上因為有賴 所以其實不論柯或侯

wen17 11/19 06:34母體比率應該都<<0.5 直接用0.5估

wen17 11/19 06:34然後要求interval不能疊 怪怪der

wen17 11/19 06:35這例子不太像星巴克 but anyway

wen17 11/19 06:35為什麼智商157還有統計學博士簽的約

wen17 11/19 06:35可以不清不楚 定義都沒定義好

pc011630 11/19 06:45學生時代的惡魔又回來了

tn368 11/19 06:55我知道的是重點在如果你要比較兩組有差異

tn368 11/19 06:55的數據是不是有顯著差異你會設定一個P值,

tn368 11/19 06:55就是當你的假說是真的時候,你的結果出現

tn368 11/19 06:55極端情形的機率(例如常態分佈單雙尾的5% 9

tn368 11/19 06:555%,P value=0.05), 你去計算你要比較數據

tn368 11/19 06:56的p value是不是低於設定值你才會知道是不

tn368 11/19 06:56是有統計上有顯著差距的意義

你說的沒錯 這就是第一種常態分佈的狀況 如果你在測量一個數值的時候 例如全班體重 我們會假設體重分布是常態分佈 再根據常態分佈各數值出現的機率去設定p value的閥值 至於問卷這種問題呢 基本上就是1跟0 畫成圖就是兩條bar 基本上不是常態分佈 並且處理的問題也不一樣 常態分佈是假設宇宙有個真實的值和真實的分布 這個分布就是常態分佈 所以他不用處裡母體的問題 也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了 (這跟P value的5%是不太一樣的概念) 因為你的"母體"就只會是常態分佈 至於問卷呢 我們要做的事情是在95%的母體中 討論某事件發生的機會有沒有可能完全被排除

wen17 11/19 06:56不是 我是指 假設母體有10個 你測2個

wen17 11/19 06:56排除掉不可能發生的 剩下的用2選1 0/1去湊

wen17 11/19 06:58猜0.5的好處是能CI啊XD 你單純要檢定一個

wen17 11/19 06:58我覺得max CI很合理 CI最大都能跑出去

wen17 11/19 06:59肯定能跑出去了 但如果想玩兩個CI不重疊

wen17 11/19 06:59我不知道這樣做合不合適就是了

wen17 11/19 07:00不過我覺得你的排除在今天的例子不太重要?

wen17 11/19 07:00因為選民人數遠遠比民調樣本多

母體=全體選民 民調=樣本 在沒選舉之前我們做民調得到得結果呢 可以有N種對應的母體 換句話說有N種可能的選民結構 可以讓我們做出今天的民調 但是呢 我能不能猜真的選舉的時候支持率會怎樣呢 可以 你會用你做的民調結果估計 但是呢 因為你的樣本數遠小於母體 所以真實的選舉結果跟你的民調結果大概不會一樣 差距有多大呢? 你做1000份民調 真實結果跟民調結果差距在3%以內的 有95%的可能性 差距在2%以內的 有80%的可能性 有沒有沒有誤差的 有可能性很接近0 OK 讓我們再回到相關性跟常態分佈的討論 你如果問說 今天做了一個民調 我能不能用常態分佈那一套來處理 我只能說我持保留態度 但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套 1.0跟1不是常態分佈 所以假設只可能是一種近似 2.常態分佈是對母體的一種假設 當你要排除某種可能性的時候 基本上是盡可能做越少假設越好 畢竟沒有人有好的理由說服別人 為甚麼真實母體應該是常態分佈 有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈 為甚麼我是持保留態不而不是否定 是因為統計這個東西基本上還是共識決 你說你要95%信心 我可不可以說要30%就好了 可以啊 你也可以說1%信心那你誤差就不見了 或者說要99.99%信心 那你誤差可能就大到快100% 95%這個共識基本上是因為好用 但甚麼是好用 怎樣定義好用? 這都是人決定的 所以你要用常態分佈行不行 也許吧 如果你覺得很好用的話 我只能說 一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈 我想再補充一點 雖然這裡應該沒有人會看 為甚麼常態分佈這麼棒呢? 這是因為大部分時候我們定義"距離"的時候都是用L2 norm 舉例來說 X = {x1,x2,...} Y = {y1,y2,...} 如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm 基本上差距 誤差這種東西就是距離 如果我們是這樣定義距離的 那你要找到一個"正確"的分布 使得該分布跟所有可能分布的距離最小的話 那這個分布就是常態分佈 如果距離不再是L2 norm了 那這個分布就不會再是常態分佈

xru03 11/19 07:28

intointo 11/19 07:35已經上了一天的統計學了

wen17 11/19 07:35懂你的意思了 謝謝

wen17 11/19 07:38但我沒有假設是常態分佈吧?

wen17 11/19 07:38data當然不是常態分佈

wen17 11/19 07:39但你抽出來的樣本參數 與平行世界比 會是

wen17 11/19 07:39比方說你抽出來這次mean=0.42

wen17 11/19 07:40假定母體mean=0.5 (最大化區間)

wen17 11/19 07:40可以下去估如果你抽了很多次

wen17 11/19 07:40這些mean的std 是這樣嗎?

抱歉我不確定你有沒有再講常態分佈的事 主要是因為我回的那篇文在講的是常態分佈的統計 所以我話癆就多講了一點 針對你這個問題 估計總是可以的 但估計會估錯 統計誤差範圍處理的問題是給定信心水準我不要我估錯 我要確定可以排除是誤差導致或是說不能排除誤差影響 換言之 估計做的是是說"很有可能" 但不能告訴你多有可能 統計誤差要說的是"哪些不可能" 事情是這樣子的 只做民調我們"可能"活在各種各式各樣的平行宇宙中 但歸根究柢 我們只活在其中一個 舉例來說 我們抽到111 母體有可能是111111 也有可能是111110 你問我有沒有可能知道我再做一次民調會出現甚麼狀況呢? 如果我要有100%信心 答案是不能 如果我有5%信心可不可以 可以 因為我有5%信心真實母體一定是111111 所以抽到0的機會就是0 但5%信心夠不夠? 別人可能質疑你說那111110你怎麼不說? 所以問題基本上就是這樣 如果你認為母體是某個樣子 理論上你應該只能有5%信心 如果你要有95%信心那你必須容許某些母體而不是一個母體 並且最後你知道你只活在其中一個 但即便是這樣你還是能排除某些狀況 因為在這些母體中還是有某些狀況是不可能發生的 只要這些可能性不能排除 基本上就是在誤差範圍內

wen17 11/19 07:41也就說 你會有mean1 mean2 mean3..mean1000

RiverMan1 11/19 07:41是需要多懂?叫你讓就讓,不然自己出錢

wen17 11/19 07:42考慮這些mean的分布,會是常態分佈?

womanloveme 11/19 07:42一早起來上統計,傷痛都回來了

abiggun 11/19 07:43統計學答案不重要 國民黨就是要正的

bmjack 11/19 07:48推~~可以跟我說一下,民調結果就以你們專

bmjack 11/19 07:48家來看,猴猴是立論是正確的嗎?柯翻桌有

bmjack 11/19 07:48理嗎? 若你是柯,以當初協議來看這結果,

bmjack 11/19 07:48你也會翻桌嗎?謝謝。

不要說以你們專家來看 我不是研究統計學的 我只是常常會要用 如果你說以我看是怎樣 我只能說

https://imgur.com/Pmt6KOh

這張圖的情況出現的時候是不能排除"社會科學普遍使用的"統計誤差的 但我再講一次 統計這種東西基本上是共識決 你常常要放一些假設 假設是人放的 你可以堅持不用別人常用的假設 我想沒有人可以反對

※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 08:01:44

xm32 11/19 07:58謝謝您的解釋,但我仍聽不懂

Imotucc 11/19 08:01至於我會不會翻桌

Imotucc 11/19 08:02如果是我 我根本不會簽那張

Imotucc 11/19 08:02因為規則設定本來就沒什麼勝算

Imotucc 11/19 08:03舉個極端例子 每個民調只採取一個人

Imotucc 11/19 08:03看N份記點

Imotucc 11/19 08:03統計誤差內算A贏

Imotucc 11/19 08:04那不管你用哪種定義A都會贏

playdoom 11/19 08:04理論還是跟現實,有一段差距,所以誤差

Imotucc 11/19 08:04根本不用管實際支持率幾%

playdoom 11/19 08:04就是統計的美

Imotucc 11/19 08:05還有啦 常常是這樣

Imotucc 11/19 08:06你可以不用多數人用的定義

Imotucc 11/19 08:06總是可以 你絕對可以重新定義3

Imotucc 11/19 08:06或者是把2跟3互換

Imotucc 11/19 08:07變成1+1=3; 3+1=2

Imotucc 11/19 08:07這是定義問題 基本上愛怎麼訂怎麼訂

Imotucc 11/19 08:07但人跟人互動通常還是用常用的

Imotucc 11/19 08:08除非現在出現一個以前人沒有意識到的問題

Imotucc 11/19 08:08讓你主張換一個定義更好用

tanjau 11/19 08:25吵一個晚上 統計上都沒有共識阿 有共識的

tanjau 11/19 08:26只有柯就是碾壓侯 之前不敢比 現在比下去

tanjau 11/19 08:26褲子都沒了

a032100 11/19 08:26這不是人跟人互動問題也不是什麼常用問題

a032100 11/19 08:26 完全是解釋問題 所以那麼簡單草率的簽

a032100 11/19 08:26名不用負責?

a032100 11/19 08:27在當下你沒有發現問題的能力那就是你的

a032100 11/19 08:29問題

kujoukk 11/19 09:18

UOG7 11/19 09:19上完之後每個人都值1.5個博士嗎

audi1005 11/19 09:41意思是母體未知時 誤差值可以隨人定義?

誤差越小信心越低 如果你可以接受0%信心的話確實誤差要多大都可以 但你設定了信心水準 根據你的樣本數 誤差就是確定的

※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 09:45:36