Re: [討論] 2023 NBA歷史百大球員排行
假設想要設計一個好的模型應該是:
找到你的Y,Y應該是「球員排名」
換言之沒有先透過一個大規模問卷
或是多個問卷進行meta analysis的話
很難有一個有統計意義的公式
接下來要找到一堆x
這部分我覺得原PO的設計概念就會有很大幫助
不過要靠觀球的經驗法則做一個Empirical model太難了
我想用簡單的logit(實際分析可以order logit)
下面用原本的公式當作X假想實驗
※ 引述《kuiyy (kuiyy)》之銘言:
: 請注意,本排名僅為實驗性質,嘗試以單一公式量化球員生涯成就,並不一定真實反應: 球員歷史地位與排名。
: 本年度公式異動幅度較大,變更及說明部分以綠色標示。
: 主要變更:
MVP直接設定成「有無MVP」為一個dummy variable
再設定一個「MVP數量」
然後放一個交互項「有無MVP*MVP數量」
如果這邊觀察不到顯著效果有可能是「有沒有連拿兩次」這個因子
也可以設定為一個dummy variabe
: 1.雙MVP積分降回前年標準:MVP調整至40,FMVP調整至28,去年調升主要是為提高
: 冠軍成就比例,但因比例問題同步提高MVP積分導致收效甚微,且冠軍成就過分獨尊
: FMVP之問題依然未解決,今年將雙MVP積分降回,改以其他方式(下列2)改善。
數據部分我想拆分成季賽、季後賽兩項
基本上就能觀測且解決原文的一些權重問題
: 2.新增主力冠軍貢獻積分:以奪冠隊伍整體季後賽Win Shares為基準,
: 第一名10分、第二名6分、第三名3分,詳細積分列表中以W1、2、3標註。
: 變更後總冠軍成就除FMVP外增加第二切入點,冠軍賽季Win Shares排名,如為毫無
: 爭議的球隊第一人可獲得FMVP(28)+W1(10)合計38分,以常見爭議的2015賽季為例,
: 原本只有小AI獲得FMVP(35),新版小AI獲得FMVP(28)+W3(3),Curry也得到W1(10),
: 一定程度修正FMVP如含金量不足所造成的積分不公平問題,對球隊奪冠有重大貢獻的
: 二、三號球員也能獲得更多積分,而非獨尊FMVP一人。
: 再舉例2008賽爾提克,原本除基本總冠軍積分之外,只有PP拿到FMVP(35),
: 而新制:PP FMVP(28)+W3(3),KG W1(10),雷槍W2(6),應較舊制合理。
: 修正過後冠軍隊伍主力排名上升,只有年度MVP而無冠軍的球員積分下滑較為明顯。
: 新增主力冠軍貢獻積分後,FMVP比重稀釋,相對適合跨時代比較。
: 本年度排名漲跌是與2022年調整後數據相較,2022年新版排名附於文後。
: 排名積分分為三大部分:1.冠軍成就 2.賽季榮譽 3.生涯累積
我覺得這部設計是我最看不太懂根據的
透過回歸設計直接控制「冠軍有無」、「冠軍有無*季後賽數據」的交互項
跑出來看共變量就一翻兩瞪眼知道哪些因子重要
: 1.冠軍成就:
: 總冠軍積分:該季季後賽PER*出賽時間/48*出賽比例
: 分區冠軍積分:該季季後賽PER*出賽時間/48*出賽比例/4
: 主力冠軍貢獻積分:該季季後賽WS 第一名:10 第二名:6 第三名3 (本年度新增)
: FMVP積分:28(年度MVP7成) (舊版35)
: CFMVP積分:7(FMVP 1/4)
: 冠軍成就積分以年度MVP為比較基礎,以盡量符合多種主流價值觀的方式,為冠軍成就: 積分提供一定程度的比較基礎。
: 率隊奪冠高於年度MVP:此處以相關冠軍積分加FMVP約60分的方式,高於年度MVP40分
: 年度MVP高於FMVP:年度MVP40分高於FMVP28分
: 冠軍為團隊榮譽:以效率值乘上上場時間及出賽比例,使所有有做出貢獻的球員: 都能以相同標準獲取相對應的積分。
: 2.賽季榮譽:
: 年度MVP積分 MVP:40 第二名:10 第三名:5 (舊版MVP50)
: 年度最佳陣容積分 一陣:10 二陣:6 三陣:3
: DPOY積分:3
: 最佳防守陣容積分 一陣:1 二陣:0.5
: 單項數據王積分 得分:1 籃板:0.5 助攻:0.5 抄截:0.5 阻攻:0.5
: 明星賽積分:3
: 例行賽榮譽以MVP、年度陣容及明星賽為主,防守陣容及單項數據王僅為加分項目。
: 年度MVP前三名及年度陣容、明星賽皆為攻防兩端數據及戰績全面考量之榮譽,本身已: 包含防守及單項表現,為避免防守陣容及單項數據王相對不合理的重複獎勵,是以整體: 考量的榮譽為主,此舉並非認為防守成就或單項數據王不重要,請理解知悉。
: 3.生涯累積:
: 例行賽PER積分:例行賽PER*出賽時間/48*出賽數/500
: 季後賽PER積分:季後賽PER*出賽時間/48*出賽數/250
: 例行賽WS積分:例行賽Win Shares/4
: 季後賽WS積分:季後賽Win Shares/2
: 生涯累積以Win Shares為基準,PER積分加權至與Win Shares積分相當。
: 設計方式以賽季榮譽為基礎,訂好各榮譽積分後,再調整冠軍成就及生涯累積之比例,: 使三項積分之間比例盡量趨於合理。
: 新版
: 冠軍成就 賽季榮譽 生涯累積 總 分
: 平均值:65.8(25.3%) 117.6(45.3%) 76.4(29.4%) 259.8
: 中位數:48.2 81.3 71.5 194.3
: 舊版
: 冠軍成就 賽季榮譽 生涯累積 總 分
: 平均值:56.6(22.0%) 123.5(48.1%) 76.2(29.7%) 256.9
: 中位數:37.9 83.3 71.5 192.2
: 聯盟早期無FMVP或年度陣容第三陣等榮譽,視作彌補早期規模較小,總冠軍及其他榮譽: 取得較為容易之自然平衡機制,不強行做調整。
: 本表包含ABA數據,但以NBA為主,僅列生涯一半以上在NBA出賽之球員,考量規模,積分
: 折半計算,並以季後賽MVP代替FMVP,不計算分區冠軍積分(因比同期NBA少打一輪)。
: 極少數BAA(NBA前身)缺失數據以該球員生涯平均值代替,考量數據缺失時期多為球員巔: 峰,以平均值代替僅為一定程度彌補,不至於虛高,雖有失真之慮,但仍較欠缺為佳。: 本表包含MVP Shares排名前百大、年度陣容次數前百大、明星賽次數前百大、例行賽、: 季後賽Win Shares前百大,3冠以上球員,扣除重複約270名球員加入評比。
:
除了數據面控制外,把薪資也納入控制因子應該也會更準確
總而言之,先以投票結果導出一個模型
爾後再進行微調,當然模型選擇也需要很多驗證
以目前的資料量跟一堆不同人的百大排名
應該有不少公司有一套機器學習下的模型
ESPN那套勝率預測應該也是這個設計脈絡(?
所以說要直接捏出一個歷史排名公式幾乎辦不到
提出一套研究設計分享一下
最近沒空玩資料整理資料
如果剛好手頭有資料整理好的人我試想可以用ologit(stata)跑跑看歷史排名每升一名那些因子會有什麼變化
--
MVP直接有無就是2019最初的版本…
後續才追加第二第三的積分
只有看到2022的版本拍謝 但主要是從問卷結果回推的係數會比較準 交互項會解決滿多問題
你要看歷史排名升一名對變量的影響不是order regr
ession….
排名本身是有序列的類別變項 用這個回歸應該沒問題 多跑一個邊際效果就會有我說的那個結果解釋了
薪資就更無關了 直接受到簽約年份的上限影響
除了MJ搞超越限制以外…
薪資對等的是對於球員成長高度的期待 年度也會控制一大部分這個問題 我有說是控制因子 會排除所謂角色球員或是球星的問題 少數底薪爆發可以當作outlier
但其實我覺得這方法還是比原本那個好 原本那個充滿
一堆主觀偏見 當然你這樣做的問題是肯定還有其他你
沒分析到的因子會成為你的殘差
我自己的話可能會做多一點強韌度檢驗 來回幾次應該準確度就會蠻高 但用機器學習瘋狂跑資料應該最棒 殘差會很低
老巴就開玩笑過 要跟自己老媽說 為什麼不晚幾年生
我,也說過羅素爺跟賈霸都比自己強 但自己拿的薪資
更多
數學本身是科學的 但公式制定的權重就充滿私貨 如果
你認為的歷史百大重視攻守俱佳 只要把防守獎項相關
配比提高 就能輕易得出賈霸才是歷史第二的結果
我覺得是這樣的,榮譽這東西讓人著迷,可是多得是在
場貢獻不低但卻拿不到冠軍的球員
所以我覺得明星賽、MVP、FMVP這些獎項第一名給的太
多,二三名太少
因為MVP就是個有跟沒有差很多的東西 做為球員個人
的最大獎項/最高榮譽,它就值特別高分啊
假設A只強一年 拿了MVP,B只有多年MVP前五,有實際
拿到大獎成就高分的當然還是前者,但B的強度會反映
在其他一陣、明星賽上,這部分的積分也足以讓最終
評價不輸A
你的正確的Y在哪
球員排名啊,用其他排名來做模型再寫出關係式
每個人看法不同 不要自己主觀假裝成大多數客觀就好
全部變數整一整丟xgboost就好了啦
問卷定Y根本不可靠,當地人支持當地球星;外國人支
持大城市球星。何況大多數人10個就列不出來了,11~
100全是印象派,估計每次填出來答案都不同;有人
NBA只看10年,有的人10年前開始不看,這問卷做出來
的結果一定要再戰一輪。
每年都在吵裁判吵投票吵對手強弱吵傷兵吵組大團,然
後現在又要無視這些直接套公式排名,這麼多不公平不
客觀的因素在那邊還討論的跟真的一樣,我覺得隨便排
排自爽就好了啦
何況每年的全明星結果,就可以當成問卷結果,倒不如
研究怎樣做一個時間維度的meta-analysis
之前就說過年度隊跟MVP拿投票分數來分配還比較準
不過原PO大概是懶得弄 也只有BR的免費數據 不然什
麼年代了還在用PER
但mvp投票 也是會有m.jackson亂投這種 即便次數不
高 但就還是略有影響
garbage in garbage out 都知道獎項是人治比較多了
那這樣再怎麼分析都很難球員真正的地位在哪
廢話 真正的地位當然是在你心中
不然即時公信力足夠 只
要不是你喜歡的名字你就
是會為反而反阿
*即使
「大規模問卷」也會有一樣的問題,抽樣的州比例、
年齡、人種、國籍……等等 就變成循環論證了
爆
首Po請注意,本排名僅為實驗性質,嘗試以單一公式量化球員生涯成就,並不一定真實反應 球員歷史地位與排名。 本年度公式異動幅度較大,變更及說明部分以綠色標示。 主要變更: 1.雙MVP積分降回前年標準:MVP調整至40,FMVP調整至28,去年調升主要是為提高9
我不是統計專業,好奇發問 : 假設想要設計一個好的模型應該是: : 找到你的Y,Y應該是「球員排名」 : 換言之沒有先透過一個大規模問卷 : 或是多個問卷進行meta analysis的話1X
不喜歡KI,但歷史排名,不至於要靠今年積分+7才有辦法擠進去TOP 100 : 98 ▲ Alonzo Mourning 1992 C 3.6 61.0 53.3 117.9 : 97 ▼ Jimmy Butler 2011 SF 16.5 36.0 65.6 118.1 +26.7 NEW : 96 ▲ Ed Macauley 1949 C 12.8 57.0 48.9 118.7 : 95 ▼ Damian Lillard 2012 PG 0 61.0 58.9 119.9 +10.5 NEW
爆
[討論] 2022 NBA歷史百大球員排行請注意,本排名僅為實驗性質,嘗試以單一公式量化球員生涯成就,並不一定真實反應 球員歷史地位與排名。 本年度公式異動幅度較大,變更及說明部分以綠色標示。 主要變更: 1.拉高雙MVP積分:增加MVP級球星與普通球星之差距,MVP調整至50,FMVP調整至35。爆
Re: [討論] 2021 NBA歷史百大球員排行原Po可歌可泣的公式設計,其實就是一些小地方要改一下 1. 累計數據、個人獎項、冠軍成就的相對權重 原Po採取的是三者都一樣,直接加總 而我認為這很不妥,為什麼呢? 其一,冠軍代表你的球隊是當季最強爆
[討論] 2020 NBA歷史百大球員排行請注意,本排名僅為實驗性質,嘗試以單一公式量化球員生涯成就,並不一定真實反應 球員歷史地位與排名。 排名積分分為三大部分:1.冠軍成就 2.賽季榮譽 3.生涯累積 1.冠軍成就: 總冠軍積分:該季季後賽PER*出賽時間/48*出賽比例爆
[外絮] 用機器學習模型預測MVP得主今天早上在reddit看到的文章,覺得挺有趣,轉過來跟版友們分享。 小弟不是學資料科學的,如果內文有誤也請不吝指正 原文: 懶人包: 作者(u/robmoo_re)利用了過去38年的NBA的球員資料以及MVP票選結果(包含排名及票數)爆
[討論] NBA歷史百大球員排行(2019修正版)請注意,本排名僅為實驗性質,嘗試以單一公式量化球員生涯成就,並不一定真實反應 球員歷史地位與排名。 新版排名新增MVP第二及第三名積分,以更精準反映準MVP級別球員影響力,考量非正式 榮譽,斟酌給予四分之一及八分之一的MVP積分。 去年即有版友建議納入MVP Shares,但MVP Shares公式到1980才固定,無法跨時代比較,57
Re: [討論] 2022 NBA歷史百大球員排行說到底 今天如果討論的範圍只限定於前10大甚至前15大 最優先看的還是 冠軍 MVP 第一陣 這三個榮譽拿的不夠多, 你連進10大的資格都沒 這時什麼明星賽 得分王 FMVP 又或者是有人覺得很該值得驕傲的分區冠都沒啥意義.40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型6
Re: [討論] 2022 NBA歷史百大球員排行其實打這種文 你要先有"邏輯" 首先要先定義"強" 什麼是"強"? "強"有分兩種: 1. 個人強10
Re: [討論] 2021 NBA歷史百大球員排行首Po賺個P幣 個人對Learning to rank略有接觸,想說從一個不同的角度切入百大排名這件。 首先找到一組權重去對球員排名本身就是非常困難的問題。像前面版友講的,有人會說得分王重要乘以2,有人會說強分區要加權,還是不是要考慮DPOY/正負值/季後賽勝率/明星賽次數...要考慮的特徵排列組合非常非常多,還要幫每個特徵選出一個權重。 所以從資料科學的角度,常用的方式就是用監督式機器學習從現有的資料裡學出權重,這種方式必須要標記的資料。舉個例子: 大家都把自己的百大排名打在下方,這樣我們可能就得到了一些樣本可以去建立回歸模型。