[閒聊] 進階數據RAPM簡介(一): PER
常常看到球迷引用進階數據分析球員
但往往都是直接拿數字來比大小
較少人會針對背後的數學公式/模型進行討論
因此想來介紹個在進階數據中鼎鼎大名的RAPM
要介紹進階數據之前要談一下進階數據老祖宗Player Efficiency Rating (PER)
基本上就是把box score一大串數據透過公式變成uPER(unadjusted PER)
再透過pacing調整(adjusted PER, aPER)避免打得快的球隊洗數據
最後把聯盟平均設在15來調整並計算出最後的PER
詳細計算過程
https://reurl.cc/Mk4x4X
PER會有其歷史定位有兩個原因
第一個是方便且一目了然,可以用一個數字代表球員的表現
另一個原因則在於發明者John Hollinger很懂推廣手法
透過調整公式讓
球星PER落在30左右
普通球員大概15附近
比較差的球員則是個位數
這個數字大小跟場均得分很像,因此大家看到數字比較容易有連結感
不過PER雖然有其歷史意義,但在數據分析的角度是一蹋糊塗
接下來就來簡單說明PER的缺陷
1. 只看box score鼓勵刷數據,無法反應對球隊的影響。
球員戰術執行 卡位 防守輪轉這種影響比賽結果的細節都不會反映在PER
2. 只有固定公式,無法隨不同時代球風變化調整
3. 過度重視長人。
由於發明的時代長人比較吃香
因此PER重視的數據如籃板和低失誤率都是對長人有利對後衛不利
4. 未針對對手強度優化。
球員去打二陣或三陣虐菜數據就是比打一陣漂亮
最明顯的例子就是Boban Marjanovic每年都繳出LBJ等級的鬼神PER
5. 未針對角色定位優化。
一個中鋒整場投進1顆三分還行。但球隊專職射手一場1顆三分不ok
6. 過度重攻輕守,且對於防守評價有很大問題,只看火鍋和抄截。
專職防守者洗不到數據,因此PER普遍低落
另外預先卡死傳球線,黏死對手不讓對手運球無法顯現在PER
反之愛賭博性防守會亂站位亂抄球對球亂揮
反而比較容易洗到數據(ex. Isaiah Jackson)。
這些其實對公式修正一下就好
最嚴重的是John Hollinger沒有數據分析背景,因此研究方法有明顯的問題
正確的作法:
Step 1 找出一個想要解釋的現象 (ex 怎樣的球員會讓球隊贏球機率增加)
Step 2 試圖創造一個假說/模型解釋這個現象
Step 3 套入數據到驗證資料,透過誤差平方和大小求出模型效度以及信度
Step 4 根據觀察到的現象修正模型
John Hollinger的作法:
Step 1 我想知道誰比較強
Step 2 把box score混一混做成撒尿丸公式
Step 3 沒了
事實上PER是進階數據中信度和效度最差的,且雜訊相當強沒啥統計意義
業界已經沒人在用了,大概只剩球迷拿來論戰。
既然PER無法反映出特定球員對於球隊獲勝機率的影響,就有人提出正負值相關的作法。這部分就下回待續了。
延伸閱讀
https://reurl.cc/XlqYZ3
https://reurl.cc/emL4Gb
--
推
推
PER本來就問題多多 但也沒有到沒人用
與其說是沒人用 不如說現在各家都想推自己的數據
前陣子有人訪問NBA業內29位總管/數據分析主管
沒有人視PER為有效指標
現在業界主流是建立模型而非固定公式
並透過ridge regression 優化模型結果
PER多半只用在跟自己比
現在只剩下
PTT還是很愛用這個
推
推
推
爆
Re: [外絮] LBJ與龜龜同時在場時的正負值為-87,於單純比正負值會有很多雜訊。以這個題目為例: 團隊NetRtg 上場時間min LBJ on & 龜 on: -1.55 1,225 LBJ on & 龜 off: -3.00 620 LBJ off & 龜 on: -5.15 1,07573
[情報] 用公式估算自由球員價值:龜龜值1734萬消息來源: John Hollinger 應該不用多介紹: PER 和 Game Score 數據的發明人,早期投入籃球分析的專家, 之前也被灰熊找去當制服組7年左右(主要是Grid'n'Grind時期) 現在在The Athletic寫專欄。36
Re: [情報] 美媒:KD跟咖哩誰的歷史定位更高?大家好,這邊我整理一下咖喱和KD兩人在組隊之前,究竟誰在季後賽的表現比較好? ——————————————— 以下分成傳統數據和進階數據兩類。 傳統數據: Name:PTS-REB-AST-TO-BLK-STL-MIN-FG%-3PFG%-FT%5X
[情報] 季後賽五大進階數據 - 史上前十數據來源:30
Re: [討論] 這季第一中鋒是阿肥了嗎?Jokic從新秀賽季就是全聯盟中鋒RPM第一了,一直連霸到現在。不過是不是第一中鋒,我 就有點保留惹,附上他新秀賽季到現在的中鋒進階數據數據。順帶一提,我PO那年新秀榜 時就覺得他未來會是巨星,因為當時他的進階數據都很猛,而且也不是那種上場一下下而 已的 補充:數據都是從ESPN網站找的,因為PER跟RPM看ESPN最準,而ESPN把Anthony Davis擺在28
[專欄] 明星賽入選球員討論_以BPM進階數據切入Box Plus / Minus,(版本2.0(BPM))是基於籃球得分的度量標準,用於估計籃球運動員 在場上對球隊的貢獻。 該數據詳細解釋如下 BPM使用球員的得分資訊,位置和球隊的整體表現來估算球員的貢獻(以每100次回合的聯2X
[討論] 台灣粉絲是不是不看進階數據?看了某NBA YTers 他在自己頻道舉辦一個誰是最被高估的球員 結果居然是 VC 27% Kobe 9%9
[閒聊] 進階數據RAPM簡介(末): RAPMRegularized Adjusted Plus-Minus (RAPM) 由於APM只用誤差最小平方法進行估算 若有球員表現呈高度相關性 則會出現多重共線性的問題 導致不同球員估算的正負值有劇烈的浮動6
[討論] Statmuse 數據網站分享各位版友好,想跟大家分享Statmuse這個網站,相信很多版友對他不陌生。 其統計了各式各樣的數據(如得分、投籃命中率、+/-等等), 比如說,發「今日」系列的文章,就常引用其Twitter以及網站內容。