PTT評價

Re: 本來學ML是該轉路還是繼續鑽研

看板Soft_Job標題Re: 本來學ML是該轉路還是繼續鑽研作者
frouscy
(流浪吧。)
時間推噓33 推:33 噓:0 →:24

一個ML應用要落地產生商業價值
在data scientist把model訓練出來之後
還有很長一段路才能真正進到生產環境

ML系統的複雜度其實非常高
從資料收集,特徵處理, 模型訓練, 模型測試, 一直到後面的模型部署,模型監測
真正要落地,上面的每一步都會有相對應的系統來做處理
系統要能自動化 要reliable 要scalable 還要能控制ML流程本身的複雜度
而不是說只要跑個jupyter notebook把模型訓練出來test能過就完事了
關於這個議題還是要大推一下2015年的NIPS paper
Hidden Technical Debt in Machine Learning Systems

所以呢 目前可以看到業界職缺的演化是有以下兩種型態
一種是scientist track
另一種是engineer track

scientist就真的需要比較強的數學理解
要能夠有能力訓練出"符合需求"的模型
但是通常這種人系統及程式能力不會這麼強
所以需要engineer來補足
其實scientist track還可以分成偏研究和偏應用的
簡單來說
偏研究的比較像是增加整體公司的技術力 他們會去發paper 數學要真的好 要有研究能力偏應用的目標則是會更聚焦在商業問題上
他們需要在有限的資源下(時間, 運算資源, etc.)提出解決商業問題的方法
在業界其實大部份搞ML演算法的都比較是這類
工作基本上就是兜兜library套一些現成的演算法
但是也不是說這種人就毫無知識含量
對相關商業domain的深度了解
使他們可以在有限的時間及資源下提出方法解決商業問題
這個就是他們的價值

engineer就比較像是構建最一開始所說的系統的人
做自動化 做scalable feature pipeline 做模型training/testing平台 模型部署
而且真正開始ML落地的公司 線上在跑的很快就不會只有一兩個模型
可能是數十個模型,甚至上百個模型
這就需要專職的engineering team來負責, 包含ML platform dev, 還有MLOps
這樣的工作其實程式和系統的能力會比較重要
比較像是介於傳統data engineer和data scientist之間
也有需要加點一些devops跟backend的技能
做這類工作就不需要對ML演算法及理論有那麼深的理解
知道點high level其實就足以勝任(因為主要是由scientist負責)
但是做這件事軟工的技能就要點得比較高
當然演算法的理解還是會對這個工作有幫助
比如說要做distributed training的系統
那有些ML演算法天生就是是沒辦法平行化
不知道演算法的細節
就可能沒辦法理解天生的限制而最後搞出了不合用的系統
我想說的是 如果數學不好 又想做ML也是可以考慮看看這個方向
隨著ML開始落地的公司愈來愈多 這樣子的職缺也會愈來愈多

如果是剛畢業想走這條路
或許從data engineer開始可能會是可以去嘗試的一條路
可以先沾個邊 在公司裡面再慢慢點上面我說的技能

※ 引述《ckrmpuhv (阿瓜)》之銘言:
: 各位板上大大好
: 小弟是後段國立科大資管碩即將畢業
: 因為一些私人原因是不用當兵
: 所以論文完成後準備開始找工作
: 目前程度:
: 大學學過JAVA
: 網頁跟資料庫也只有課堂學習過沒實際做小專案
: 因為對Ml有興趣
: 在碩階段期間 都是自學ML相關
: 聽過李宏毅老師的課
: 實作過他課程的作業
: Keras的一些神經網路搭建也沒捨問題
: Kaggle只參加過一兩次 排名都很爛
: 大部分的實作和論文都是跟影像辨識相關
: 最近看板上大大各式各樣建議
: 非四大四中 也不是kaggle的佼佼者
: 數學方面 線代沒學 統計學大學學過但也不熟
: 看完覺得自己很爛出去可能沒人要?
: 目前都還在做ml各種模型實作
: 但看完板上很迷茫要往哪些方向學習怕找不到工作非常憂鬱
: 我不清楚該橫向發展拓別的領域
: 像是網頁、App 自己做一些小專案增加作品集
: 還是去補數學 更深入研究Ml
: 又或者先去刷Leetcode打底
: 還請各位大大指教 謝謝
: -----
: Sent from JPTT on my iPhone

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.92.160.251 (美國)
PTT 網址
※ 編輯: frouscy (172.92.160.251 美國), 03/12/2021 18:17:49

aa77a03/12 18:32說得不錯 前一個在蝦七八亂 XD

KingSteven03/12 18:51推!不過台灣稱得上Scientist的職位太少QQ 畢竟沒有FA

KingSteven03/12 18:51ANG那種規模……

KingSteven03/12 18:54可能大多都是把現有ML方法拿來用,而不是開創新的ML

KingSteven03/12 18:54方法

偶爾寫一篇的那種可能還行 但要投錢持續去做純研究產出的單位真的很燒錢 看看下面的例子 deep mind是有google做乾爹 去年虧損六百多萬美金 google爸爸還幫忙付了10億美金的債 open AI也是是有微軟爸爸投資了10億美金 圖靈獎得主Joshua Bengio的研究公司Element AI也是賠到脫褲 好像準備要賤價賣出 有多少資源做多少事 現實就是這樣 我覺得沒什麼好埋怨LOL 隨著模型愈來愈複雜 連拿已經有的演算法來train model都會變成資本遊戲(想想GPT3)

IcecreamHsu03/12 19:00推 寫得很好 MLOps 是趨勢

drajan03/12 19:12歡迎大家加入MLOps 的行列!業界很缺人喔

drajan03/12 19:14開創新的ML模型要有商業價值 目前大多數場景用既有的框架

drajan03/12 19:14就好 真正難度往往是系統落地真正運作在 production上

andy565603/12 19:16推 蠻清楚的

andy565603/12 19:18台灣我看有些公司還是會去發paper 只是可能不多就是了

drajan03/12 19:22如果是真正想研究ML模型 基本一定要有 PhD(或是極出類拔萃

drajan03/12 19:22的master) 以及做的研究業界要用的到才有機會真的進業界做

drajan03/12 19:22ML research. 像我們團隊就跟很多學校鑽研 private ML的學

drajan03/12 19:22者合作 有些團隊成員也是直接從學界加入的 像現在這種 res

drajan03/12 19:22earch scientist職位競爭超級激烈 沒有三兩三連面試機會都

drajan03/12 19:22沒有 所以大家說你做 engineer會簡單很多不是沒道理的

其實競爭激烈有一個原因是 業界並不真的非常需要做純研究的人XD 能解決商業問題讓公司賺進利潤擺脫成本中心才是硬道理 剛從學校畢業的人裡面 眼高手低的人太多 腳踏實地的人太少 再說如果engineer做到很有經驗也是很有價值的 現在有個看得到的趨勢是research paper上 scientist和engineer其實會一起掛名 所以即便沒有PhD 還是有機會可以發paper的 而且其實ML system也開始有自己的conference了

https://mlsys.org

這個就是engineer的主場了

tay251003/12 19:35大推這篇,講得非常貼近目前的ML現實。前一篇有點以偏概

tay251003/12 19:35全,反而容易混淆視聽。同場推2014 NIPS Google的Machine

tay251003/12 19:35 Learning: The High Interest Credit Card of Technical

tay251003/12 19:35 Debt

ckrmpuhv03/12 19:46了解感謝大大 我會在好好琢磨

DarkIllusion03/12 20:10你說的沒錯

robinlee03/12 23:40這篇才是業界真實生態,感謝分享

mmonkeyboyy03/13 01:44這個是比較實在的業界生態 @[email protected]~ 還是要能賺錢先

mmonkeyboyy03/13 01:46前一篇就是那種去面試喜歡沒事問各種名詞的人

mmonkeyboyy03/13 01:46其實學界業界很多這種人@[email protected]~ 目前要的其實是這篇講

mmonkeyboyy03/13 01:47的兩種人混合 可惜的是這種人在業界也沒幾個

mmonkeyboyy03/13 01:48純 ml研究燒錢外效果也不是特別好 只能說海水退了

mmonkeyboyy03/13 01:48就知道誰沒穿褲子 想走ml進隊只能說超難了

mmonkeyboyy03/13 01:52就我自己的團隊跟業界合作伙伴 也是套模型&DE

mmonkeyboyy03/13 01:53但能套到讓一些公司掏錢做就好了啊

bowin03/13 03:55推好文分享

taipoo03/13 04:03推好文

rtoday03/13 04:10

loter03/13 05:39推ML大神廖大!

shiauji03/13 08:54感謝分享

rereterry03/13 09:15推,確實越來越有如此分工的傾向,不過行有餘力,往對

rereterry03/13 09:15方的技能點個一點有深一點的理解對自己的職涯還蠻有幫

rereterry03/13 09:15助的

※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:44:02 ※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:44:26

mmonkeyboyy03/13 09:44裡面還有一個workshop就是 MLOps

※ 編輯: frouscy (172.92.160.251 美國), 03/13/2021 09:54:58

mmonkeyboyy03/13 09:58現在這遊戲就是燒錢 有機器有卡的大聲 看看某學校

mmonkeyboyy03/13 09:59不過真要做成系統除了理論外 還有蠻多"實際"的問題

mmonkeyboyy03/13 09:59這些才是真正讓ml能不能用的關鍵

PHEj03/13 10:02推這篇~~

fig49803/13 11:59感謝大大分享!!

AgileSeptor03/13 12:16

KingSteven03/13 17:00再推一次~感謝原po耐心回覆小弟的推文,講的很好!

blackmaninEE03/14 01:57

lerdor03/14 11:45大學畢業在高雄時才三萬初...

Chita556603/14 15:54講得很好

adrian226603/17 10:09優文推

answerseeker03/18 12:39ElementAI 已經掛了吧 推這篇

meRscliche03/18 23:59推推

keepgoing9903/21 14:32推推

adsl5401010/07 22:05

bymyself01/10 13:30謝謝分享