[閒聊] 進階數據RAPM簡介(末): RAPM
Regularized Adjusted Plus-Minus (RAPM)
由於APM只用誤差最小平方法進行估算
若有球員表現呈高度相關性
則會出現多重共線性的問題
導致不同球員估算的正負值有劇烈的浮動
有的絕對值十分巨大 有的則趨近於0
此時可以在誤差最小平方合的矩陣外
額外加入λx正負值反矩陣x正負值矩陣
(可以想像成λx正負值平方和)
利用懲罰項λ讓正負值不會出現絕對值異常大的情況
這種作法稱為嶺回歸(ridge regression)
這也是RAPM以及許多新的籃球數據模型的基本方式
除了ridge regression之外
還可以加入幸運值的影響(luck-adjusted RAPM)
舉例來說隊友和對手罰球命中率不會受個別球員能力影響
但不同的命中率會影響球員的正負值
這個也能透過luck-adjust調整
小結
自從PER問世以來 進階數據已隨著資料科學的進步蓬勃發展。
除了引用基本數據做為公式之外
新的進階數據更像是透過新數據不斷修正的模型
有的主打動態數據 有的加入幸運值 有的則是能預測未來發展
甚至還有利用機器學習建立的模型
今天介紹的RAPM是很多先進模型會引用的
其實進階數據背後有很多數學以及原理
若能稍加研究
就能推斷出各個數據的優缺點以及適用範圍
個人覺得比起純粹比數字大小有趣多了XD
延伸閱讀
RAPM介紹
https://reurl.cc/Mk4Qyp
Ridge Regression (youtube 影片)
https://reurl.cc/V5NxNy
Luck-adjusted ratings
https://reurl.cc/OkGNGy
--
推~
推,雖然門外漢只能模糊看懂個大概
嚴格來說線性迴歸的迴歸係數才幾個,根本不是overfitting.
會有很大預測誤差是因為共線性下符合最小平方的解不止一組
沒有新的資料測試前根本不知道哪個預測效果較好。
ridge ression的重要是盡可能選出小的迴歸係數。
避免掉太大的迴歸係數造成過大的預測誤差。
樓上專業
線性迴歸的確是想辦法讓MSE壓到最小
而不是把所有值硬fit出來
Ridge則是收斂用的
我再修正一下文章
感謝V大提醒~
感謝f大一直以來的用心分享諸多好文章
push
感謝分享
push
好文推
推
爆
Re: [外絮] LBJ與龜龜同時在場時的正負值為-87,於單純比正負值會有很多雜訊。以這個題目為例: 團隊NetRtg 上場時間min LBJ on & 龜 on: -1.55 1,225 LBJ on & 龜 off: -3.00 620 LBJ off & 龜 on: -5.15 1,07534
[討論] 用 D-LEBRON 算出年度防守隊伍來分享BBall Index 的新數據:LEBRON Luck-adjusted player Estimate using a Box prior Regularized33
Re: [情報] 本季各位置ORPM、DRPM、RPM前五名ESPN的RPM在Jerry Engelmann 2019年去了獨行俠後,後面2.0版就爛了 2.0主導者Brian Macdonald花了近兩年結果爛尾,承諾的新版解析文沒寫完就離職,夾著尾巴躲回學界去了。後續換誰上我沒有追蹤 總之現在RPM在數據圈的地位低落,大概就跟看TPA差不多 所以等到Kevin Pelton跟Zach Lowe願意再度頻繁引用自家的RPM時,再來重新評價吧 NBA從業人員最偏好的正負值進階數據?28
[專欄] 明星賽入選球員討論_以BPM進階數據切入Box Plus / Minus,(版本2.0(BPM))是基於籃球得分的度量標準,用於估計籃球運動員 在場上對球隊的貢獻。 該數據詳細解釋如下 BPM使用球員的得分資訊,位置和球隊的整體表現來估算球員的貢獻(以每100次回合的聯15
Re: [心得] 認識正負值(Plus/Minus)- RAPTOR這篇的介紹大概有30%是錯的, 但錯的還蠻關鍵的 : 正負值(+/-)可說是籃球數據界的殿堂名駒,現今你能拿來直接做球員比對的all in one數據,多帶有正負值血統。其血統表如下: : ・第一代「原始數據」:正負值(+/-)、官網RTG系列 RTG不是+/-系列數據, RTG是基於Points Produced的進階數據 : ・第二代「迴歸分析修正」:APM → RAPM13
Re: [情報] 東西區最具影響力的球員有新的圖, 是全聯盟的的 Jokic 仍然是遙遙領先。11
[情報] 本季團隊隊內新秀貢獻排行資料來源: 根據LEBRON這項進階數據 特性:初階數據混合正負值 聲稱唯一有將角色定位、穩定性與幸運值混入權重的進階數據 在之前報導中被許多業界從業人員認為是有效的數據指標8
Re: [心得] 認識正負值(Plus/Minus)- RAPTOR用百回合量化方式呈現的數據很多 但是否屬於+/-系列數據, 跟用百回合量化毫無關係 事實上原始的+/-數據就不是百回合量化 : : 關於ESPM RPM : 以下是沒有放上來的原文內容8
[閒聊] 進階數據RAPM簡介(一): PER常常看到球迷引用進階數據分析球員 但往往都是直接拿數字來比大小 較少人會針對背後的數學公式/模型進行討論 因此想來介紹個在進階數據中鼎鼎大名的RAPM 要介紹進階數據之前要談一下進階數據老祖宗Player Efficiency Rating (PER)2
Re: [心得] 認識正負值(Plus/Minus)- RAPTOR官網的RTG系列是把球員在場上時,球隊的得失分做百回合量化,跟+/-值一樣屬於結果數據,因此我把他們放在同一個類型下。 : 關於ESPM RPM 以下是沒有放上來的原文內容 正負值的核心問題是樣本不足的情況下準確度很差。RAPM具效性的樣本通說是三年起跳;也因此半季不到就能產出內容的正負值數據中,公開資料都是以高比例的BPM為基底,否則無法有效反應球員的當季表現。RPM雖為黑盒子,但普遍認為ESPN也是以相同的方式產出數據。 RPM對於box score的使用相當吃重是公認的,當然不一定是像RAPTOR這樣直接BPM系跟RAPM系兩組數據調比重混合出結果,但我個人不覺得只靠RAPM基底調參數就能讓結果敏感反應,特別在你2.0 matchup又多了更多小樣本參數的框框下。