[心得] 《數據的假象》拿數據來一臉正經鬼扯
我們身處一個非使用數據不可的資訊時代
太多書在介紹數據分析與資料科學有多厲害又多重要
《數據的假象》反而是一本帶領我們遍覽數據鬼扯的書、充滿「亂用數據」的案例分享
我將在這則筆記寫下到底這世上為什麼數據鬼扯如此氾濫
認識數據鬼扯的成因、我們才更知道該如何避免自己也成為拿數據鬼扯的人
部落格好讀版:
https://haosquare.com/calling-bullshit/
---
## 不易被打敗的數據鬼扯
如果用華麗詞藻堆砌出的是我們印象中的典型鬼扯,那麼透過數字、圖表、或者統計學包裝出的假資訊,可以說是現代的新型鬼扯。駭人的是,新型鬼扯加上數據後,莫名變得貌似很有說服力,讓一般人反而變得不敢輕易質疑。
來試試看,看到以下這句話,你的想法是什麼呢?
> 「愛貓人士比愛狗人士更有賺錢頭腦!」
如果你是熱愛狗的狗派,肯定會跳出來、馬上生出各種理由反擊,像是:愛狗的人都比較熱情,熱情與善於交流都是投資與創業的重要特質,賺錢腦袋怎麼可能輸給貓派!
但要是,剛剛那句話變成:
> 「利用台北市政府公開資料,我們控制重要人口變因後、依照職業別進行顯著水準 5%的假設檢定,60 種職業類別的其中 21 種,有飼養貓的平均年薪顯著高於有飼養狗人士的平均年薪。」
這段話光是能耐心看完就已經是奇蹟了,哪有力氣反駁它的論點?更別說要探究它的統計分析方法到底有沒有道理。人們通常只會濃縮成一句過度簡化的結論:從它說的數據看起來,愛貓的人好像真的比較會賺錢。(本例純屬虛構)
---
驗證數據的真實性並不容易,因此數據鬼扯不易被打敗。《數據的假象》在書中整理出了以下的定律:
> 反駁鬼扯所需的力氣,是製造鬼扯所需力氣的十倍
> 布蘭多里尼定律 - 義大利軟體工程師 Alberto Brandolini
我認為因果關係就是一個容易被鬼扯、又很難推翻的典型例子。如果你在新聞標題上看到「研究顯示,罹患自閉症與注射麻疹疫苗有關」,你心中會不會偷偷下個結論:「我不敢再打麻疹疫苗了!」?但是,這則標題並沒有寫出具體而言相關性是透過什麼數據計算出來的、不知道相關性有多強,此外,標題也只寫了相關性、它並不代表疫苗造成自閉症的因果關係!
延伸閱讀:科學家如何分析因果關係?
https://haosquare.com/causal-inference-intro/
寫出容易令人誤會的新聞標題很簡單,而光是要想該懷疑什麼數據就已經很費力了,更別說要勞心勞力動手驗證數據的真偽。更恐怖的是,隨口說出一句跟數據有關的鬼扯根本不需要什麼腦袋,但要反駁這句鬼扯,卻需要很多聰明人用科學方法才能達成!
> 一個蠢蛋能扯出的鬼話,超過你希望能夠駁斥的量
> 法內利定律 - 義大利部落客 Ureil Fanelli
---
## 鬼扯傳得比真相快多了
數據鬼扯很好產生、又難以被打敗,它還很容易傳播!
> 假話秒傳千里,真相姍姍來遲
> 諷刺文學作家 Jonathan Swift
數據的鬼扯與假消息,可以飛快地滲透普及到全世界。在 Facebook、Dcard、Instagram這些社群媒體平台蓬勃發展的時代,全球各個角落發生的每則奇聞軼事,都會毫無延遲地呈現在你眼前,也正是因為取得與散播資訊太過容易,一天有幾千則消息映入眼簾,我們怎麼可能費力氣去懷疑、怎麼可能花時間想哪則消息是真、哪則消息是假呢?
《數據的假象》用「殭屍統計數據」來描述上述這種現象:沒人知道數據從何而來。被引用的資訊或統計數據,有可能從一開始就是捏造、不實的,但因為沒有人去追究真偽、只是跟風不斷引用,所以這些數據會一直存活在我們眼前不會消失!引用了數據卻不追究來源與真實性,這項資訊是死是活搞不清楚、根本就像是殭屍一樣!
就算人們不是惡意地,社群媒體的確助長假資訊與數據鬼扯的快速傳播。想像一下,你是社群的小編或是新聞記者的話,要是要求你每則消息都要求證 100% 正確無誤才能轉貼分享,那你分享消息的速度可能永遠都要比其他人晚三、四個月囉。為了跟上社群媒體飛快變化的腳步,我們都可能會(無意間)成為殭屍統計數據的傳播者。
Facebook 也確實從他們的貼文資料庫檢視過鬼扯快速傳播的現象:不實資訊比證實過正確的資訊傳播得更久。網路上的鬼扯即使被有公信力的單位戳破為不實資訊,依然會繼續被轉發分享,被戳破的不實資訊只是比較可能被刪除而已,但被刪除的速度仍跟不上被分享的速度,鬼扯還是在擴大傳播。
> 當謊言都蹦蹦跳跳繞世界大半圈了,真理還來不及穿好褲子哩
> 美國羅斯福總統任內的國務卿 Cordell Hull
## 為達到目的而鬼扯
> 當測量成為目標,它就不再是個好的測量標準
> 古德哈特定律 - 人類學家 Marilyn Strathern (轉述)
只要人們看到有機會獲得獎賞的機會,就會開始操弄遊戲規則,原本為了評估而設計的數據測量,反而失去衡量成效的原始目的。
我讀到這段,馬上就想到經濟學課本一定會提到的 代理人問題(Agency Problem)。有些企業會把股價當作衡量執行長(CEO)經營表現的指標,並直接根據股價來支付 CEO 的薪資。企業希望 CEO 幫助公司恆久成長,但是,CEO 的表現是被股價衡量的,而 CEO 想提升股價,並不只有對公司有益的手段而已,CEO 可以選擇到處誇大公司表現、吸引大眾投資來炒高股價;也可以選擇刪減公司長期投資計畫、把錢都投資在眼前的短期生意,讓
CEO 在位期間經營表現都超好、股價節節上升,但實際上對公司長期經營則是種傷害。企業經營的代理人問題,就是古德哈特定律的典型範例。
除了代理人問題,假論文的市場也反映了為達到衡量目的而鬼扯的現象、是我在《數據的假象》學到最有趣的數據鬼扯之一。對許多科學家而言,比起金錢,自己在科學界的聲望是他們更渴望的報酬,出版論文就是累積聲望的主要方式,要在舉足輕重的期刊發表論文需要經過嚴格的同儕審查機制,如果你的論文能通過知名學者的審閱、自然也會受到全世界其他學者的認可。然而,科學家會用論文發表的數量來評斷彼此的能力,這反而造就了假論文市場的產生,有一種論文出版商會採用極度鬆散的同儕審查機制,即使水準不高的學者,也能通過形同虛設的審閱、在這個出版商發表論文。最後,論文發表的數量變成一個可以透過不可靠論文來濫竽充數的數字,不只成為一個對科學家能力無效的衡量,還助長了低品質論文在科學界流竄!
## 結語:對抗數據鬼扯!
《數據的假象》這本書介紹了數據鬼扯滿天飛的成因:
* 製造鬼扯所需的力氣與智力比清除還少
* 鬼扯傳播的速度比清除的速度快
* 用數據來衡量目標,人們會為達到利益而用數據鬼扯
我們有必要認識這些數據鬼扯的形成,就是因為它是對抗數據鬼扯的第一步!
> 在任何時候,你得應付的主要鬼扯消息來源就是你自己
> 美國作家與教育家 Neil Postman
這世界充斥著數據的鬼扯,而且沒有教育制度、法律、或者酷炫的科技(例如貌似萬能的人工智慧?)可以立即解決數據鬼扯流竄的問題,我們只能從自己做起。我們不需要是統計學專家,只要用一點邏輯思考就能做到,即使偵測還有清除數據鬼扯十分費力,只要我們分享任何資訊之前,多一分思考、多一點謹慎,就是對更健全的人類資訊體系莫大的貢獻!
--
爆
[問卦] 我們的國家真的沒有救了?無論鄉民怎麼講醫材公司怎麼剝削台灣民眾 無論體制上下 沒有一個新聞記者有那個勇氣去揭發 只要看得懂數字就知道 民眾用十倍的價格買低成本低技術的爆
[討論] 空有亮眼數據,但不能轉化為勝利的球員?Reddit NBA相關討論: -- 引言: 不少球員打出了很多不錯的統計數據,例如:得分、籃板、助攻, 但為了獲得這些統計數據,而讓他們的球隊變得更糟糕。爆
[討論] 數據至上?看到板上Clean, Natural, Neutral這篇文底下有人說到有些人對感官描述很排斥 只相信量測數據,數據好的就是比數據差的好 好奇聽音樂最終不就是聲音喜歡就好嗎? 如果一個數據差的器材最後聽起來很悅耳 跟一個數據好的器材但是聽起來不對味或是更慘一點很悲劇86
[爆卦] 南韓疫苗效果數據分享了日本數據,馬上就有人說想看南韓的... 真的有點累了XD 資料來源 取自3.21的定期新聞稿93
[討論] poole的一些數據比較想來想去,還是得跨出去這一步,不然永遠停留在表面階段xDDD 以下盡量不進行太多的解讀,因為我怕解讀錯誤造成困擾,畢竟對很多都還不夠瞭解。 如果有版友對下列數據或球員有見解,跪求跟大家分享一起進步 ORz ---------------------------------------- 最近大家針對poole價值以及續約wiggins的優先次序討論得如火如荼,所以想找一些數據來看看。66
[分享] 用數據說明德保拉到底操不操?昨天德保拉先發投完122球之後,引起很大討論 象板也跟著炸鍋 這時突然想起投手濫用指數這東西 第一次看到這數據,是板上在討論越投越帶勁的迪薩猛時 記得有人貼出他當年數據多誇張19
[討論] 大家來猜猜小奸3點會鬼扯什麼?大家來猜猜小奸3點會鬼扯什麼? 全世界的人都認為他抄襲 他死皮賴臉一兩個月 比沒針還孬種 大家來猜猜小奸3點會鬼扯什麼?10
[心得] 《數據的假象》現代公民的人生必修課《數據的假象》讀後心得:現代公民的人生必修課 深度偽造時代最重要的思辨素養,聰明決策不被操弄 圖文好讀 數位時代最重要的能力之一,或許就是看懂誰在胡說八道。哲學家 John Alexander Smith 曾對牛津大學的新生演講說道:「各位將來在求學過程中學到的,沒有一樣對你將4
[討論] 拿同樣數據,做出一模一樣表格的機率多高昨天我聽黃帝穎在那邊鬼扯說表格會一樣是因為拿一樣的數據。 我就想問,兩個人拿到一樣的數據,做出字體字型、表格長寬比例、小數位數完全一模一樣,一樣到電腦判讀成是duplicate的機率有多高? --