Re: [外絮] 用機器學習模型預測MVP得主

y800122155 發表於 2021/4/30 下午1:33:16

看板NBA標題Re: [外絮] 用機器學習模型預測MVP得主作者

y800122155

(@@)時間Apr 30 13:33:16 2021推噓40 推:43 噓:3 →:51

PTT評價

大略看了一下原文

提供我的一點淺見

首先

使用機器學習處理問題

是假設實際存在一個真實的模型

接著透過資料訓練出一個模型盡可能接近真實的模型

然後我們就可以拿訓練出來的模型對新的資料做預測

但是在這個問題上面

MVP票選並不是一個固定的模型

投票的人不一樣投票的思維也不一樣

即便是同一批人重新投一次票結果可能也不會一樣

因此

在這種問題上使用機器學習

甚至是各種資料科學的方法都可能存在不小的問題

資料的選取也很奇怪

作者的目的是建構一個預測MVP得主的模型

但實際上

他建構的是預測MVP得票排序的模型

作者為了讓訓練資料更多

把資料做了一個特別的調整

將原本的單一年度單一球員的資料(features)+是否為MVP(label)

調整成整個MVP票選結果排序中任意兩兩一組+誰的票多

具體詳細做法也沒有揭露

這樣的做法存在非常大的問題

因為同類型的球員會有分票效應

你不會知道把第一名的球員抽出之後

原本投給他的票會如何地分配給後面的球員

整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果

但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料

然後最重要的是模型訓練方式跟模型評估

除了揭示使用了 XGBoost與LambdaMART 外

其他所有重要資訊都沒有揭露

我們無法得知所有的38年之中

哪些年份被拿來做為訓練資料

或是每個年份中哪些兩兩成對的組合是訓練資料

當然更不會知道訓練出來的模型評估結果好或壞

也不無可能作者把訓練資料跟測試資料反覆做各種分切

最後選取一種最滿意的切法做最後的建模

這樣做就會造成 data leakage 的問題

大概先這樣

---

如果有太複雜的ML問題

建議寄站內信給前站長 CharlieL

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.26 (臺灣)

※ PTT 網址

※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 13:35:15

→

mirror0103 04/30 13:39推

推

MrSatan 04/30 13:39箭頭

推

jerry86 04/30 13:41箭頭

→

ziggyzzz 04/30 13:43推

推

LeehomLee 04/30 13:45懂歐推

→

shifa 04/30 13:46原來他不是用38年來的所有球員數據去跑的喔

推

timmyen 04/30 13:46推XD

推

renna038766 04/30 13:46文組聽不懂

→

kkb512sk 04/30 13:47你把濤哥放那?

推

somanyee 04/30 13:47身為外行人，這篇是不是說原始方法看起來有點問題

→

somanyee 04/30 13:47，就算是32/38猜中，可能是湊？

→

shifa 04/30 13:50簡單說這篇提出的疑問是訓練的方法有問題。

→

shifa 04/30 13:50但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD

推

ykshih 04/30 13:53他應該是把 38 年來的全丟進去跑然後用個普普的模型

→

ykshih 04/30 13:53所以不會 overfitting，但這種跑法根本沒意義

→

Chris5566 04/30 13:53上一篇根本秀下限

→

ykshih 04/30 13:53只能說有幾年的評分標準稍微不一樣而已

→

ykshih 04/30 13:54和偷不偷根本沒啥關係

推

jonathan890704/30 13:57你放心鄉民看不懂還是會繼續吵繼續酸

推

NPLNT 04/30 14:00推

推

handfox 04/30 14:02認真了，大家只是需要找個可以吵起來的理由

推

GeeBen 04/30 14:04投票的人才是真的

→

GeeBen 04/30 14:04中肯

→

SpursTony09 04/30 14:11簡直亂做一通我只信濤哥

推

eggy1018 04/30 14:12合理推

推

wpd 04/30 14:13算力乖乖拿去挖礦好嗎??

→

nask 04/30 14:13不過就是因為不是固定模型才要機器學習阿不然excel

→

nask 04/30 14:13數據列一列就好了

這樣的說法是完全錯誤的幾千筆資料，幾十個欄位，excel是要隨便弄個回歸交差嗎?

推

SwissMiniGun04/30 14:14有做有話題

推

callTM 04/30 14:16他的sample size 就不夠大要怎麼train?

→

yowhatsupsli04/30 14:19恩恩跟我想的一樣

推

edward0811 04/30 14:24反正程式數據小改，改到高興的人不就好了

推

k7626773 04/30 14:24專業推，很多留言不知道為什麼一直跳針32/38。看懂

→

k7626773 04/30 14:24model怎麼出來的比其他事情重要多了…

推

hannah5269 04/30 14:24終於有人講公道話

推

NLchu 04/30 14:26就統計而已30左右的樣本數跟沒有一樣

你對樣本的認知有很大偏誤，並不是一整個年度作為一個樣本

→

NLchu 04/30 14:26頂多就是算個趣味給大家看一下打發時間而已

推

chh1470 04/30 14:28推

推

yellowbooky 04/30 14:35其實量化分析樣本數最少30這是學術界公認的，30不會

→

yellowbooky 04/30 14:35不準

統計學上，以30或25個樣本作為足夠大的樣本來近似常態分佈，並以常態性假設進行後續分析工作。但是機器學習需要的資料量跟前述工作完全是兩回事，不可混淆。

推

midnamelee 04/30 14:36我文組先道歉

→

shifa 04/30 14:36要發戰文其實也用不到機器學習來跑，鄉民拿幾個指

→

shifa 04/30 14:36標配上自己愛的權重去給分數，分數最高的就當MVP。

→

shifa 04/30 14:36這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上

→

shifa 04/30 14:36有看過類似的。原文那樣子應該比較像是拿NBA數據來

→

shifa 04/30 14:36當練習的成果發表吧？

推

YouGot5566 04/30 14:37乾整篇都看不懂搞那麼複雜XD

推

andy78714 04/30 14:46推

推

sunnyyoung 04/30 14:52XD 這種類型的模型好像蠻適合當學校的課程專案的

推

pheather 04/30 14:52Comments from Reviewer #1:

→

sunnyyoung 04/30 14:52台灣應該要有人寫幾個模型來玩啊

→

shifa 04/30 14:54我是覺得這case不太好，因為MVP跟數據表現重疊性

→

shifa 04/30 14:55太高，基本上數據漂亮的球員MVP呼聲就高

→

shifa 04/30 14:57而且原文用了25個指標再做模型，搞不好結果沒有直接

→

shifa 04/30 14:57看PER來得簡單 XD

→

shifa 04/30 14:57*"在"做模型

我覺得你好像誤解了那張 features importance 的圖表，基本上建模不太可能只拿25個指標在建模，一般大概都會用幾十、幾百，甚至更多幾個數量級的數量的指標來建模，然後模型會告訴你哪些是重要的指標，最後把 Top features 畫出那張圖表。

推

swatch44 04/30 14:59以後直接看per就好了啊其他都妖魔鬼怪

推

JoeChang556604/30 15:09雖然我看不是很懂,這篇我也推

推

DemonRing 04/30 15:11我建議採用 Palantir 的服務

→

thunderman 04/30 15:17真實世界問題本來就一堆問題沒人知道是否真有模型

→

thunderman 04/30 15:17像人喜歡看什麼影片真的有模型嗎？only God konws

→

thunderman 04/30 15:17但yt跟Netflix一樣用ML train出東西來推薦影片給你

→

thunderman 04/30 15:17重點應該要放在是跑出來的結果有沒有用

有沒有真實模型確實沒有那麼重要，但是像NBA MVP投票，我覺得甚至是每一年都在浮動，到底適不適合用ML來做，我抱持懷疑的態度，畢竟，非典型MVP真的有那麼不堪嗎? 是否在特定年份我們應該為非典型MVP使用一套非典型的模型來賦予他們這份榮耀呢? 或是過去評估MVP的模型，是否因為新指標的產生而有所改變了? 像是棒球經歷 Money Ball、飛球革命等運動科學的導入，評估球員的指標就有很顯著的差異了，籃球有沒有類似的改變我就比較不瞭解了。

推

VIATOR 04/30 15:17推shifa，配上自己愛的權重去給分數就好了...

推

wang2346581 04/30 15:24很專業唷不過人家也只是隨便玩玩而已吧

推

erosha 04/30 15:25濤哥沒機會秀一把不然一定屌打

推

camelot0603 04/30 15:27濤哥明明就是某隊隊迷在那邊反串小丑，有夠瞎，騙

→

camelot0603 04/30 15:27一堆貪雞排的推文

→

shifa 04/30 15:29#1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係