[討論] 關於 Dcard ML 實習作業
看到下面有篇大神有討論到這次 Dcard ML 實習作業,因為沒有收到團隊的具體反饋
想和大家討論作業的狀況
題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等
來預測發文後 24 小時的愛心數
因為當時是期中,我只大概花了五天約二十個小時來做
我的作法大致如下
首先先用 XGBoost LightGBM 把量化資料做出 baseline
但沒辦法處理最重要的標題資訊
所以就直接拿 Huggingface BERT 來做
直接把資料餵進去的訓練是無法收斂的
後來也嘗試一些 Emsemble 和 training tricks
但也都沒辦法收斂,甚至達不到 baseline 的效果
認為是資料量的問題
到這邊沒什麼特別想法就直接寫報告了
我一直都主要是做 CV ,碩論跑去做 3D
對 NLP 非常不熟悉,不知道是否有漏掉關鍵操作
想請同有拿到作業的大神指點
謝謝
--
你用BERT做了什麼以及什麼東西無法收斂?
任務如文中所述,是迴歸問題,目標是文章發文後24小時的愛心數 因為有中文標題,故直覺想到就是 BERT,將中文標題 tokenize 後 連同其他 feature 一同 concatenate,送入BERT直接 end2end 訓練出愛心數
這邊跪等神人分享 我們實驗室沒有人上
不知道實驗室內有沒有其他效果比較好的解法?
這個案例建議使用LSTM序列
謝謝提供思路,但LSTM的話要如何考慮中文標題? 一樣使用word2vec或tokenizer嗎?
雖然我也沒上,但我自己還有另外萃取出判斷個版跟標題是
否有分類之類的feature,這兩項做關聯度分析,相關性也
不低
謝謝,確實我幾乎沒有做 feature engineering 是否方便請教後續是用什麼方法回歸出愛心數?
你這樣 concatenate bert出來的維度那麼大,變成嚴重主導
預測結果。但實際上
但標題實際上根本不太會影響愛心與評論數。光看這點,就覺
得你沒有從最基本的業務理解business understanding來解了
。
對了,資料量有多打? 資料量少,用複雜的模型根本沒用。
資料量少的話,例如少於幾萬筆,對標題做任何處理可能都沒
太大意義。
這題,愛心數,評論數的特徵,相較於標題,標題絕對是雜訊
。
HuggingFace tokenizer出來的標題維度很大的,只會讓標題
雜訊主導一切。當然沒辦法收斂,很正常。
資料量確實是問題。但人是否會根據標題就評論或點愛心,是
你優先需要思考到的。
謝謝DrTech大的回復,tokenizer出來的embeddings我是有再downsampling的 當時也有考慮到這件事情,我也測試過downsample到4 - 16或其他一些奇淫巧技 也有對tokenizer做regularization等等,但對訓練幫助都不大 至於標題是否影響愛心數,確實實際上不一定 但該資料集提供的特徵數很少,其餘大多都是scalar 相信他們一定希望受試者去分析標題,當然處理整個標題可能不是個好辦法 1-6小時愛心數與24小時愛心數的相關性非常高 故我也在BERT之中嘗試建立使用這些高相關feature的MLP迴歸模型 以及和 XGBoost LightGBM 的 Ensemble 但對訓練並無明顯益處 我在寫這份測驗的時候,並不覺得量化結果會多好,因為僅有約五萬筆資料(文章) 而同時也要展現工程能力,譬如我用 Pytorch-lightning 架構整個 training, monitoring, evaluation pipeline 實作上的能力可能會區分我與其他一部分的面試者 但結果看來可能是有大神直接幹出很好的模型和訓練結果 後續評分項如解題思路、報告呈現和實作能力都沒有被考量了 才很好奇進入面試的大神是怎麼得出很好的預測方法的 感謝您的回覆
※ 編輯: Sixigma (118.171.131.209 臺灣), 05/14/2023 16:03:47我自己對於標題的作法是單純直接用snownlp去做sentiment
polarity 而已,因為我自己認為標題其實只是吸引大家點
進去的機率,但按愛心的數量跟內容比較有相關。我的model
部分,我記得我一開始用xgboost效果不是很好,所以我後
來改用SVR跟一個我自己建的NN模型。但是我那時候也在準
備其他事情,所以好像也沒有fine-tuned 得很好
遇到這種 一定是先做基本的統計分析啊,先看 24小
時愛心數的分佈,然後分成 多愛心數 和 少愛心數的
,然後看哪些特徵 是有用的,最後才建模啊,別在直
接套膜了,不會進步的xdd
謝謝你,長文那麼仔細回應互動喔
直接使用BERT做預測的確是個挑戰,原因有很多就不展
開了,但你可以考慮換個用法,例如把BERT基於文字所
預測的分數當成你主要預測模型的其中一項特徵,這樣
也算是引入文字資訊了。
去鴻海第一年150沒問題
煩不煩哪裡都有鴻海
好奇用哪個BERT Pre-Training的版本?
中文如果沒在你用的bert的tokenizer裡會直接被忽略
喔 確認一下
話一堆時間寫作業還不給回饋 這間很像挺看得起自己的
lul 只能說 沒上是好事
我做法跟h大說的差不多XD 也是至少花了20小時以上時間搞這pr
oject 結果就一封罐頭感謝函 好歹也給個排名吧真的很沒誠意-
_-
根據之前看同學打比賽 我猜可能有人自己去抓dcard的額
外資料來訓練 資料量比一般人多很多的情況下隨便丟個
模型都贏大家
60
[臺聞] 還沒正式合服來源網址: 內容: 【系統】伺服器維護開服公告 各位騎士們,晚安:40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型18
[心得] 彩虹科技 / AmazingTalker Back-end Developer因為在板上收穫良多 想分享心得 或許能幫忙大家 會希望每天分享一兩間 能寫在標題上 希望想知道的人 能在這個版上的可以搜尋到 我希望能分享一些過程 但盡量不揭露到題目 主要是讓大家多了解這些公司 和 面試流程9
[請益] 因疫情實習offer被取消各位前輩好, 小弟目前就讀美東的大學資訊工程碩士一年級,預計2021年五月畢業, 上週 4/16 收到原實習公司 Wayfair 取消offer的通知, 當下非常錯愕,三月初以來不停和HR聯繫, 得到答案都是正面的,甚至雙方簽了offer letter,也甚至公司簽署了文件,協助我辦理CPT。5
Re: [問卦] 寫程式真的很容易寫到自己看不懂嗎?大部份人寫程式到底是真懂還是瞎矇出來? 二十年前網路資訊沒有現在這麼發達 大學程式作業有兩次覺得自己腦子差點燒掉 記憶可能有誤,大致是這樣 第一次是資料結構的作業3
[問題] 紅目猴-黃瑞卿公醫相關資料各位大家好 因為要編輯鹿草鄉類似相關鄉誌的資料 需要紅目猴公醫黃瑞卿相關的資訊 目前在網路上只找到這篇文章 其他完全沒辦法再深入了解1
[請益] 關於TWSE行情資訊傳輸作業手冊請問有人了解證交所的行情資訊傳輸作業手冊的內容嗎? 最近接觸到這個東西 可以從上面抓取資料 但是並不了解該怎麼處理 有人有在利用這個資料嗎?- 請問有人了解證交所的行情資訊傳輸作業手冊的內容嗎? 最近接觸到這個東西 可以從上面抓取資料 但是並不了解該怎麼處理 有人有在利用這個資料嗎?