[心得] 社會菁英必備的數學素養
【書名】:社會菁英必備的數學素養
【作者】:奧利佛強森
【譯者】:劉懷仁
【出版】:天下文化
#podcast: https://open.firstory.me/story/clu4q4xzh00p701undyfb57uq/platforms
這本書的起源來自於疫情期間,作者以數學家的角度,
在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,
我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
統計數字怎麼看?
為什麼要做統計? 因為現實中,我們不可能拿到每個真實數字,
所以我們利用一個小樣本的結果來推算總體的結果,
前提是這些小樣本要有足夠的隨機性與代表性,
這也是為什麼街頭的民調結果與真實結果相距甚遠,
因為街頭的訪問雖然隨機,但隨機的路人並無法代表台灣的人口組成,
自然就無法以這個小樣本的數據推算最後的結果。
既然是推算的結果,一定存在與真實數字的差距,
所以一個有效的統計報告通常會這麼說:
「信賴區間 95 %,誤差範圍 +- 3%」,
什麼是「信賴區間」與「誤差範圍」呢?
誤差範圍比較好理解,如果說統計結果是「某候選人支持度40%,誤差範圍 3%」,
就代表真實的數字可能介於43(40+3)% ~ 37(40-3)% ,
而信賴區間則是代表一個信心值,
因為統計樣本有隨機性,不同的抽樣,有可能得到不同的統計結果,
而信賴區間代表的是如果重複這個統計好幾回,有多少機率會包含真實結果,
如果信賴區間 95%,代表有 95%的機率包含真實結果。
信賴區間與誤差範圍會互相影響,
假設我們設定很大的誤差範圍,例如+- 10%,
我們當然會有極高的信賴區間包含真實結果,
但這樣的統計數字就沒有意義,
因為即使知道候選人的真實支持度有100%的機率落在30%-50%之間,
我們還是很難推測真實數字為何。
相反的,如果我們設定很小的誤差範圍,例如+-1%,但信賴區間只有50%,
代表有五成的機率39%-41%的範圍沒有包含真實數字,
這樣的統計數字一樣沒有幫助,
所以以後看新聞,如果看到一些聳動的統計數字,先別著急,
先看看這些數字後面的信賴區間為何。
疫苗到底有沒有用
我們用疫苗的例子來說明統計學的「虛無假設」。
新藥可不可以上市,來自於新藥的臨床統計數字,
假設我們已知 70 歲以上男人每年有1%的機率會死亡,
現在疫苗公司將新藥試用在 1000 名隨機挑選的 70 歲以上男人上,
發現僅有 5 人死亡,我們是否該核准該藥上市呢?
如果光看數字,原本根據統計,應該有10人會死亡,
現在使用新藥後降成一半,看來新藥效果很顯著,
但另一方面,我們知道 1%只是統計結果,不代表每年一定會死 10 人,
所以 5 人可能只是一個隨機的結果。
要怎麼判斷呢?統計學有個很重要的理論「虛無假設」,
意思是我們應預設新藥是沒有效的,
除非結果顯著不同,該結果產生的機率低於隨機產生的機率,
我們才足以推翻原本「新藥無效」的假設,
在統計學上,我們將該機率稱為 p 值,
當 p 值越小,就代表該結果越不可能發生,
如果真的發生了,就是我們假設錯誤,也就是我們可以推翻原本的虛無假設。
習慣上, 我們常把 p 值設為 5 %,
如果低於 5%,我們就足以認為該結果不是隨機產生,而是有意義的數據。
回到新藥的例子,每年有1%死亡機率,1000 人中有 5 人死亡的隨機機率為6.6%,
還未低於 5%,因此代表我們的測試結果 5 人死亡很有可能只是一次幸運的隨機結果,
不一定是新藥帶來的作用,
然而 5% 的閥值沒有數學意義,只是約定俗成,
因此也不表示新藥一定無效,只是還未達到統計的顯著性。
普篩到底有沒有用?
讓我們試著用統計學來討論疫情期間大家爭論不休的一個題目:「要不要普篩?」
我們知道所有的檢測方式都不是100%準確,
我們用「特異度」來表示「沒有染病的人檢測結果正確」的機率,
用「敏感度」來表示「有染病的人檢測結果正確」的機率,
PCR 是疫情期間最可靠的檢測方式,
根據統計,PCR的檢測敏感度為 80%,特異度是 99.5%,
假設我們對 1000 名隨機受試者普篩,假設染病率為1%,
因此我們預期 1000 名受試者有 10 人確實染病,
因為敏感度為80%,所以有8人會被正確檢測出陽性,而2人錯誤檢測出陰性。
在未染病的 990 人中,正確檢測出陰性有 99.5% 的機率,
人數為 985 人,而錯誤檢測出陽性的機率則為 5 人,
所以我們會得到 13 個陽性結果,而真正染病的機率是 8/ 13 = 62,
這顯示在隨機普篩的結果下,即使是像 PCR 這麼可靠的檢測方式,
也會得出不可信任的陽性結果,僅僅六成而已,
因此我們應該可以理解為什麼當初政府一直沒有做大規模普篩,
因為錯誤的檢測結果會加重醫療系統的負荷,使真正需要醫療的人無法獲得幫助。
當時的政策是如果你有出現咳嗽發燒的症狀,再去做篩檢,
讓我們同樣用統計學來看看這麼做會帶來什麼結果。
我們假設有症狀的人,每 11 人有 1 人是真正染病的人,機率大約是9%,
因為只有出現症狀的人才會去做檢測,我們同樣假設是1000名受試者,
但現在染病的機率從原本隨機的1%變成有出現症狀的9%,
如果再一次計算檢測出陽性,且真的染病的機率會大大提升成93.5%,
這個方法得以上讓真正需要醫療的人獲得幫助。
檢視兩個方法最大的差別在於染病率,在大規模的隨機試驗中,染病率是可能不到1%,
而出現症狀的人染病率會大幅提升,
當染病率越高,就能讓檢測出陽性,且真的染病的機率大大提升,
所以普篩不是不能做,但前提是我們已知該病的染病率非常高,
檢測出陽性且正確的機率很高,
只要檢出陽性,我們就強迫病人隔離,限制病人活動是防疫的有效方法,
但政府在防疫的同時,也要考慮這些被迫隔離的人,無法工作,
將會損失收入,對社會經濟造成影響,
所以「要不要普篩」不只是一個統計問題,還是一個取捨問題。
要在全民健康與經濟損失中做個取捨。
感想
我們一路從小學開始學數學,一路學到大學,
可能有不少人覺得出了學校,這些數學根本用不上呀。
我覺得那是因為我們學數學的時候,很少跟現實的例子結合,
例如我們都學過斜率,給我幾個點,可以算出連結這些點的斜率,
但算這個要做什麼用呢?放到現實中,斜率可能代表感染速度,
根據斜率,我們就可以推算出未來的感染人數。
這本書不是在講數學理論,而是想要培養一個普通人的對數字的感覺,
難怪書名叫作「數學素養」,
看來以後我們不只需要文學素養,音樂素養,也需要來點數學素養了。
--
統計學入門
1F…..
書名翻譯實在糟糕 從中文翻譯回去 英語讀者八成以為作者
是法西斯分子 「菁英」在歐美民主社會是很不好的字眼
其實高中數學學得夠好這本可以省下來
如果內容只是這些頻率學派的東東 真的別浪費錢了
信心水準 = 信賴區間包含母體參數的機率
看標題就知道要講的是統計 一看內文果然是
我也覺得這個書名不妥 這是大家都需要建立的觀念
不分階級
另外統計學的觀念 是不是就等於 數學素養
我覺得這也有待商榷
爆
[爆卦] 民調計算全詳解--------------------更新一下結論啦---------------------- 有推文說兩種問題是分開的,一個受訪者只會被問一個問題,所以把這種情況的結果也更 新一下: 柯侯對賴其中一項民調變不顯著:爆
Re: [爆卦] 科普:願某人念博時少學點話術多學點統計我覺得原文有很多錯誤,恕刪 首先,我必須要說一開始談成的條件就不合理,就統計而言 我可以理解誤差範圍內侯柯配的做法,這一開始也是柯提出的 這做法的概念在於,把侯柯當成虛無假設(預設值的概念),只有在對柯侯能表現較好有信 心的時候才選柯侯(否定虛無假設)63
[爆卦] 科普一下可以吧...那個老師教的統計誤差科普一下統計的區間估計 一般來說區間估計都會有一個信心水準 意思是母體真值落在這個區間的信心 (不是機率...因為信賴區間是「事後」的概念,因為是已經抽樣完了...不過在這裡不影 響理解)33
Re: [新聞] 協商有強調是「正負」 朱立倫:柯文哲一: : 朱立倫表示,他有點教授性格,他把統計誤差與公式,都背給大家聽,1068份樣本數,誤 : 差範圍是正負3個百分點;2000份樣本是正負2.2個百分點,3000份就是正負1.75個百分點 : ;若要到柯所主張的正負1.5個百分點,那要4250份。現在統統不要講百分之幾,全部回 : 到統計誤差,每份民調都有很明確的統計誤差。18
[討論] 咱來嘮一嘮真正的統計學 讓你對愚蠢免疫讓我來說一下真正的統計學 不知 母數 信賴區間率 不知 正負 3% 其實是 上下3% 你只會越看越茫 被名嘴政客感染愚蠢 民調就是去探測真正的支持度(母數)6
Re: [問卦] 台清交統計學權威教授不要再躲了統計就是參數未知,由抽樣的樣本去推估 參數就是最後真正的得票率等等 真正的參數就只有上帝才知道答案 比如侯柯配的真用得票率,只有上帝知道, 我們不是上帝,只能用有限樣本去推估15
Re: [閒聊] 機率與統計你的敘述讓人聽起來就像是: 「有一個神秘的科學神明,當有人連續躑硬幣10次都出現正面,他就會改變硬幣的結構、 重力場等等,讓硬幣出現的反面的機率上升,直到硬幣正反面出現的機率會歸到1/2。」 我希望你是敘述能力欠佳所以表達有點偏誤, 所謂的大數法則、做無窮次的試驗機率會回歸,6
Re: [問卦] 現在想學統計學,有推薦的書或課程嗎?統計就是參數未知,由抽樣的樣本去推估 參數就是最後真正的得票率等等 真正的參數就只有上帝玉皇大帝才知道答案 比如侯柯配的最後真用得票率,只有上帝知道, 我們不是上帝,只能用有限樣本去推估6
Re: [黑特] 今天最大的問題是讓6%沒辦法說服選民吧可是,統計誤差不是倫倫說了算 「兩人民調在統計誤差範圍內」轉化成統計的語言,應為: 兩人民調實質上相同的情況下,民調差距 > 『統計誤差』的機率極低(5%),因此若民 調差距超過『統計誤差』,難以相信兩人民調實質上相同。 反之,若差距小於『統計誤差』,就當作是隨機性造成的民調差距2
Re: [閒聊] 統計學這個是正確的信賴區間解讀方式沒有問題 : 你問我這兩個有什麼差?我也不知道 : 但我以前老師說絕對不能這樣解讀 : 好像是因為p-hat跟p都是真值沒有機率可言吧? 這邊就稍微有點問題了,