PTT評價

[心得] 《數據的假象》拿數據來一臉正經鬼扯

看板book標題[心得] 《數據的假象》拿數據來一臉正經鬼扯作者
AgileSeptor
(S.Duncan_JB)
時間推噓 1 推:1 噓:0 →:0

我們身處一個非使用數據不可的資訊時代
太多書在介紹數據分析與資料科學有多厲害又多重要
《數據的假象》反而是一本帶領我們遍覽數據鬼扯的書、充滿「亂用數據」的案例分享

我將在這則筆記寫下到底這世上為什麼數據鬼扯如此氾濫
認識數據鬼扯的成因、我們才更知道該如何避免自己也成為拿數據鬼扯的人

部落格好讀版:
https://haosquare.com/calling-bullshit/

---

## 不易被打敗的數據鬼扯

如果用華麗詞藻堆砌出的是我們印象中的典型鬼扯,那麼透過數字、圖表、或者統計學包裝出的假資訊,可以說是現代的新型鬼扯。駭人的是,新型鬼扯加上數據後,莫名變得貌似很有說服力,讓一般人反而變得不敢輕易質疑。

來試試看,看到以下這句話,你的想法是什麼呢?

> 「愛貓人士比愛狗人士更有賺錢頭腦!」

如果你是熱愛狗的狗派,肯定會跳出來、馬上生出各種理由反擊,像是:愛狗的人都比較熱情,熱情與善於交流都是投資與創業的重要特質,賺錢腦袋怎麼可能輸給貓派!

但要是,剛剛那句話變成:

> 「利用台北市政府公開資料,我們控制重要人口變因後、依照職業別進行顯著水準 5%的假設檢定,60 種職業類別的其中 21 種,有飼養貓的平均年薪顯著高於有飼養狗人士的平均年薪。」

這段話光是能耐心看完就已經是奇蹟了,哪有力氣反駁它的論點?更別說要探究它的統計分析方法到底有沒有道理。人們通常只會濃縮成一句過度簡化的結論:從它說的數據看起來,愛貓的人好像真的比較會賺錢。(本例純屬虛構)

---

驗證數據的真實性並不容易,因此數據鬼扯不易被打敗。《數據的假象》在書中整理出了以下的定律:

> 反駁鬼扯所需的力氣,是製造鬼扯所需力氣的十倍
> 布蘭多里尼定律 - 義大利軟體工程師 Alberto Brandolini

我認為因果關係就是一個容易被鬼扯、又很難推翻的典型例子。如果你在新聞標題上看到「研究顯示,罹患自閉症與注射麻疹疫苗有關」,你心中會不會偷偷下個結論:「我不敢再打麻疹疫苗了!」?但是,這則標題並沒有寫出具體而言相關性是透過什麼數據計算出來的、不知道相關性有多強,此外,標題也只寫了相關性、它並不代表疫苗造成自閉症的因果關係!

延伸閱讀:科學家如何分析因果關係?
https://haosquare.com/causal-inference-intro/

寫出容易令人誤會的新聞標題很簡單,而光是要想該懷疑什麼數據就已經很費力了,更別說要勞心勞力動手驗證數據的真偽。更恐怖的是,隨口說出一句跟數據有關的鬼扯根本不需要什麼腦袋,但要反駁這句鬼扯,卻需要很多聰明人用科學方法才能達成!

> 一個蠢蛋能扯出的鬼話,超過你希望能夠駁斥的量
> 法內利定律 - 義大利部落客 Ureil Fanelli

---

## 鬼扯傳得比真相快多了

數據鬼扯很好產生、又難以被打敗,它還很容易傳播!

> 假話秒傳千里,真相姍姍來遲
> 諷刺文學作家 Jonathan Swift

數據的鬼扯與假消息,可以飛快地滲透普及到全世界。在 Facebook、Dcard、Instagram這些社群媒體平台蓬勃發展的時代,全球各個角落發生的每則奇聞軼事,都會毫無延遲地呈現在你眼前,也正是因為取得與散播資訊太過容易,一天有幾千則消息映入眼簾,我們怎麼可能費力氣去懷疑、怎麼可能花時間想哪則消息是真、哪則消息是假呢?

《數據的假象》用「殭屍統計數據」來描述上述這種現象:沒人知道數據從何而來。被引用的資訊或統計數據,有可能從一開始就是捏造、不實的,但因為沒有人去追究真偽、只是跟風不斷引用,所以這些數據會一直存活在我們眼前不會消失!引用了數據卻不追究來源與真實性,這項資訊是死是活搞不清楚、根本就像是殭屍一樣!

就算人們不是惡意地,社群媒體的確助長假資訊與數據鬼扯的快速傳播。想像一下,你是社群的小編或是新聞記者的話,要是要求你每則消息都要求證 100% 正確無誤才能轉貼分享,那你分享消息的速度可能永遠都要比其他人晚三、四個月囉。為了跟上社群媒體飛快變化的腳步,我們都可能會(無意間)成為殭屍統計數據的傳播者。

Facebook 也確實從他們的貼文資料庫檢視過鬼扯快速傳播的現象:不實資訊比證實過正確的資訊傳播得更久。網路上的鬼扯即使被有公信力的單位戳破為不實資訊,依然會繼續被轉發分享,被戳破的不實資訊只是比較可能被刪除而已,但被刪除的速度仍跟不上被分享的速度,鬼扯還是在擴大傳播。

> 當謊言都蹦蹦跳跳繞世界大半圈了,真理還來不及穿好褲子哩
> 美國羅斯福總統任內的國務卿 Cordell Hull

## 為達到目的而鬼扯

> 當測量成為目標,它就不再是個好的測量標準
> 古德哈特定律 - 人類學家 Marilyn Strathern (轉述)

只要人們看到有機會獲得獎賞的機會,就會開始操弄遊戲規則,原本為了評估而設計的數據測量,反而失去衡量成效的原始目的。

我讀到這段,馬上就想到經濟學課本一定會提到的 代理人問題(Agency Problem)。有些企業會把股價當作衡量執行長(CEO)經營表現的指標,並直接根據股價來支付 CEO 的薪資。企業希望 CEO 幫助公司恆久成長,但是,CEO 的表現是被股價衡量的,而 CEO 想提升股價,並不只有對公司有益的手段而已,CEO 可以選擇到處誇大公司表現、吸引大眾投資來炒高股價;也可以選擇刪減公司長期投資計畫、把錢都投資在眼前的短期生意,讓
CEO 在位期間經營表現都超好、股價節節上升,但實際上對公司長期經營則是種傷害。企業經營的代理人問題,就是古德哈特定律的典型範例。

除了代理人問題,假論文的市場也反映了為達到衡量目的而鬼扯的現象、是我在《數據的假象》學到最有趣的數據鬼扯之一。對許多科學家而言,比起金錢,自己在科學界的聲望是他們更渴望的報酬,出版論文就是累積聲望的主要方式,要在舉足輕重的期刊發表論文需要經過嚴格的同儕審查機制,如果你的論文能通過知名學者的審閱、自然也會受到全世界其他學者的認可。然而,科學家會用論文發表的數量來評斷彼此的能力,這反而造就了假論文市場的產生,有一種論文出版商會採用極度鬆散的同儕審查機制,即使水準不高的學者,也能通過形同虛設的審閱、在這個出版商發表論文。最後,論文發表的數量變成一個可以透過不可靠論文來濫竽充數的數字,不只成為一個對科學家能力無效的衡量,還助長了低品質論文在科學界流竄!

## 結語:對抗數據鬼扯!

《數據的假象》這本書介紹了數據鬼扯滿天飛的成因:
* 製造鬼扯所需的力氣與智力比清除還少
* 鬼扯傳播的速度比清除的速度快
* 用數據來衡量目標,人們會為達到利益而用數據鬼扯

我們有必要認識這些數據鬼扯的形成,就是因為它是對抗數據鬼扯的第一步!

> 在任何時候,你得應付的主要鬼扯消息來源就是你自己
> 美國作家與教育家 Neil Postman

這世界充斥著數據的鬼扯,而且沒有教育制度、法律、或者酷炫的科技(例如貌似萬能的人工智慧?)可以立即解決數據鬼扯流竄的問題,我們只能從自己做起。我們不需要是統計學專家,只要用一點邏輯思考就能做到,即使偵測還有清除數據鬼扯十分費力,只要我們分享任何資訊之前,多一分思考、多一點謹慎,就是對更健全的人類資訊體系莫大的貢獻!

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.4.172 (臺灣)
PTT 網址

skyhawkptt11/16 00:10感謝介紹及推薦