Re: [外絮] 用機器學習模型預測MVP得主
大略看了一下原文
提供我的一點淺見
首先
使用機器學習處理問題
是假設實際存在一個真實的模型
接著透過資料訓練出一個模型盡可能接近真實的模型
然後我們就可以拿訓練出來的模型對新的資料做預測
但是在這個問題上面
MVP票選並不是一個固定的模型
投票的人不一樣 投票的思維也不一樣
即便是同一批人 重新投一次票結果可能也不會一樣
因此
在這種問題上使用機器學習
甚至是各種資料科學的方法都可能存在不小的問題
資料的選取也很奇怪
作者的目的是建構一個預測MVP得主的模型
但實際上
他建構的是預測MVP得票排序的模型
作者為了讓訓練資料更多
把資料做了一個特別的調整
將原本的單一年度單一球員的資料(features)+是否為MVP(label)
調整成整個MVP票選結果排序中任意兩兩一組+誰的票多
具體詳細做法也沒有揭露
這樣的做法存在非常大的問題
因為同類型的球員會有分票效應
你不會知道把第一名的球員抽出之後
原本投給他的票會如何地分配給後面的球員
整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果
但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料
然後最重要的是模型訓練方式跟模型評估
除了揭示使用了 XGBoost與LambdaMART 外
其他所有重要資訊都沒有揭露
我們無法得知所有的38年之中
哪些年份被拿來做為訓練資料
或是每個年份中哪些兩兩成對的組合是訓練資料
當然更不會知道訓練出來的模型評估結果好或壞
也不無可能作者把訓練資料跟測試資料反覆做各種分切
最後選取一種最滿意的切法做最後的建模
這樣做就會造成 data leakage 的問題
大概先這樣
---
如果有太複雜的ML問題
建議寄站內信給前站長 CharlieL
XD
--
推
箭頭
箭頭
推
懂歐 推
原來他不是用38年來的所有球員數據去跑的喔
推XD
文組 聽不懂
你把濤哥放那?
身為外行人,這篇是不是說原始方法看起來有點問題
,就算是32/38猜中,可能是湊?
簡單說這篇提出的疑問是訓練的方法有問題。
但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD
他應該是把 38 年來的全丟進去跑然後用個普普的模型
所以不會 overfitting,但這種跑法根本沒意義
上一篇根本秀下限
只能說有幾年的評分標準稍微不一樣而已
和偷不偷根本沒啥關係
你放心 鄉民看不懂還是會繼續吵繼續酸
推
認真了,大家只是需要找個可以吵起來的理由
投票的人才是真的
中肯
簡直亂做一通 我只信濤哥
合理推
算力乖乖拿去挖礦好嗎??
不過就是因為不是固定模型才要機器學習阿 不然excel
數據列一列就好了
這樣的說法是完全錯誤的 幾千筆資料,幾十個欄位,excel是要隨便弄個回歸交差嗎?
有做有話題
他的sample size 就不夠大要怎麼train?
恩恩 跟我想的一樣
反正程式數據小改,改到高興的人不就好了
專業推,很多留言不知道為什麼一直跳針32/38。看懂
model怎麼出來的比其他事情重要多了…
終於有人講公道話
就統計而已30左右的樣本數跟沒有一樣
你對樣本的認知有很大偏誤,並不是一整個年度作為一個樣本
頂多就是算個趣味給大家看一下打發時間而已
推
其實量化分析樣本數最少30這是學術界公認的,30不會
不準
統計學上,以30或25個樣本作為足夠大的樣本來近似常態分佈, 並以常態性假設進行後續分析工作。 但是機器學習需要的資料量跟前述工作完全是兩回事,不可混淆。
我文組先道歉
要發戰文其實也用不到機器學習來跑,鄉民拿幾個指
標配上自己愛的權重去給分數,分數最高的就當MVP。
這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上
有看過類似的。原文那樣子應該比較像是拿NBA數據來
當練習的成果發表吧?
乾 整篇都看不懂 搞那麼複雜XD
推
XD 這種類型的模型好像蠻適合當學校的課程專案的
Comments from Reviewer #1:
台灣應該要有人寫幾個模型來玩啊
我是覺得這case不太好,因為MVP跟數據表現重疊性
太高,基本上數據漂亮的球員MVP呼聲就高
而且原文用了25個指標再做模型,搞不好結果沒有直接
看PER來得簡單 XD
*"在"做模型
我覺得你好像誤解了那張 features importance 的圖表, 基本上建模不太可能只拿25個指標在建模, 一般大概都會用幾十、幾百,甚至更多幾個數量級的數量的指標來建模, 然後模型會告訴你哪些是重要的指標,最後把 Top features 畫出那張圖表。
以後直接看per就好了啊 其他都妖魔鬼怪
雖然我看不是很懂,這篇我也推
我建議採用 Palantir 的服務
真實世界問題本來就一堆問題沒人知道是否真有模型
像人喜歡看什麼影片真的有模型嗎?only God konws
但yt跟Netflix一樣用ML train出東西來推薦影片給你
重點應該要放在是跑出來的結果有沒有用
有沒有真實模型確實沒有那麼重要, 但是像NBA MVP投票,我覺得甚至是每一年都在浮動, 到底適不適合用ML來做,我抱持懷疑的態度, 畢竟,非典型MVP真的有那麼不堪嗎? 是否在特定年份我們應該為非典型MVP使用一套非典型的模型來賦予他們這份榮耀呢? 或是過去評估MVP的模型,是否因為新指標的產生而有所改變了? 像是棒球經歷 Money Ball、飛球革命等運動科學的導入, 評估球員的指標就有很顯著的差異了,籃球有沒有類似的改變我就比較不瞭解了。
推shifa,配上自己愛的權重去給分數就好了...
很專業唷 不過人家也只是隨便玩玩而已吧
濤哥沒機會秀一把 不然一定屌打
濤哥明明就是某隊隊迷在那邊反串小丑,有夠瞎,騙
一堆貪雞排的推文
#1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係
反而統合性數據指標跟MVP的相關性沒那麼好的感覺
原文那一套32/38搞不好還不錯了 XD
大有幫助 推!
推田神
田神每天都會偷偷上站 不能不推 m(_ _)m
原來指標可能比25個還多啊 XD
什麼不是固定模型不能預 多讀點書 多打幾場kaggle
比賽勝負都能預測 股票都能預測 MVP不能預測?
你哪裡看到我說不能預測? 我抱持懷疑的論點是因為模型不斷變動, 最舊的資料是38年前,拿38年前的資料作訓練預測現在的結果,會很不可靠。 您是不是應該先練習中文語文理解呢?
這裡是哪裡
Condorcet voting
這個很常見,一點都不奇怪好嗎....
讚
分組就是為了避免人為權重影響結果
抽掉第一後面就會變,我聽你在唬爛洨
此文該推,分析透徹
這篇的推論根本胡說八道
歡迎你把你的論點闡述清楚,你光是丟一個投票方法, 我資質駑鈍,無法直接了解這樣的投票方式能夠如何地正向投票, 又反向拆解成每一小筆資料,還拿來訓練模型, 既然您這麼厲害,那更應該分享您的論點。
文組不會抱歉
我覺得該弄個爬蟲把網路聲量數據化弄進去
推這篇
我覺得拆成兩兩比較的方法很有趣R 原文就是認為說
不是只有誰真的得票第一這個資訊有意義, 每個排名
誰大於誰也有意義, 所以每一年的資料都可以倆倆拆
這樣訓練集就不只有38個資料點了
真的牽扯到人..就沒辦法用機器完全預測,去年才有人
模擬幾萬次大部份(忘了幾成)都快艇冠軍,結果XD
卡搞哩來
假設實際存在一個真實的模型,看到這句下面就不用
看了
通篇亂講,教一些錯誤觀念
42
Re: [閒聊] AI畫圖是不是大數據拼圖?最近回去念書了,念的programme名字有AI,應該可以發個言ㄅ 新科技需要熱衷的族群做推廣,有推廣才有funding,我才有薪水qq 不過這些族群不一定對科技有正確的認識 這幾天看到一些不精確又容易誤導的解釋真的會中風 想說做點簡單的科普(科普很難我知道qq)27
[心得] 用FB Prophet預測美股未來行情完整文章: Github程式碼: 最近覺得自己美股轉換標的的時機都不是很好, 抄底常抄在半山腰, 就想說來研究一下預4
Re: [外絮] 用機器學習模型預估MVP得主討論這問題先搞懂MVP是啥好嗎? 最有“價值”球員 球員的價值又不是那些數據能完整呈現的 況且這些數據基本都是人為定義 老衲第一年會拿主因就是回歸後作為核心戰績躍升10
Re: [討論] 2021 NBA歷史百大球員排行首Po賺個P幣 個人對Learning to rank略有接觸,想說從一個不同的角度切入百大排名這件。 首先找到一組權重去對球員排名本身就是非常困難的問題。像前面版友講的,有人會說得分王重要乘以2,有人會說強分區要加權,還是不是要考慮DPOY/正負值/季後賽勝率/明星賽次數...要考慮的特徵排列組合非常非常多,還要幫每個特徵選出一個權重。 所以從資料科學的角度,常用的方式就是用監督式機器學習從現有的資料裡學出權重,這種方式必須要標記的資料。舉個例子: 大家都把自己的百大排名打在下方,這樣我們可能就得到了一些樣本可以去建立回歸模型。9
Re: [外絮] 用機器學習模型預估MVP得主其實前幾篇文章有稍微回應機器學習的問題 也提到了nash比較像非典型的MVP 這時候再回頭來看這些輸入訓練的特徵 就會看出問題了 全都是最典型的數據 nash的太陽隊球風確實帶出了不同的NBA視界6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然3
Re: [問卦] 告白時怎麼知道自己成功率多少?這位兄day,你問了一個非常有深度的問題, 要計算出告白成功的機率,我建議採取以下流程: 1. 資料蒐集/資料標記 首先你需要想辦法蒐集到包含下列資料的足夠樣本,我看最少需要個幾千筆, a.人口統計變項:年齡、性別、居住地、職業、年收入、身高、體重、有無房產等。- 我認為要先釐清楚一點,要做AI的模型並非只能透過Python, 大家都用Python原因在於AI套件都已經由國外的大神做好了, 甚至有些套件都事先訓練好資料,提供weight檔案,可以直接使用應用在某些專案, 若只是要用這些AI套件,使用Python非常方便 Python的優點:
- 阿肥外商碼農阿肥啦!認真說,這幾年口說上字幕甚至翻譯,還有有字幕上語音這幾年都獲 得不錯的進展,包含openAI、Google、Amazon、Meta實驗室都有不錯的產出,而且這些都是 依靠當前所謂的多模態零樣本學習的大力進步,很多轉換錯誤或是機器音都減小很多,不 過偶爾還是會有出槌需要人工修正的部分。 所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來
爆
[花邊] Shams:Ingram在G2更衣室內與主帥Green64
[情報] KI談 Dort的防守 以及守SGA時如何不犯規39
[花邊] P.J.Washington在快艇更衣室對面狂放音樂52
[花邊] JDub:有人給我錢打球 很難不開心吧49
[花邊] Trae Young今天現身雷犢G1爆
[情報] 被問到今晚命中率,Luka:Who cares50
[討論] SGA吃T這球有什麼問題嗎?爆
[花邊] Shaq:GOAT討論請加入Kobe19
[花邊] 老巴問狗貝: 兒子取名時 Charles在top5嗎爆
[情報] 77季後賽至今三分球命中率僅22.7%爆
[情報] 窒息防守!雷霆今年季後賽前5場均限制對75
[花邊] Daigneault:這是我們到目前建立的實力7
[花邊] Nick Young:下場比賽我會丟熱敷袋給裁判8
[情報] 明日裁判名單71
[花邊] Tatum 生涯前100場季後賽2300+750+45089
Re: [花邊] 小白六場季後賽投進28顆三分43
[花邊] JDub本場第四節得分和小牛先發一樣