Re: [討論] 關於 Dcard ML 實習作業
: 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等
: 來預測發文後 24 小時的愛心數
來雲一下我可能會怎麼做
如果假設我沒理解錯誤題目的話,應該基於給予的前六小時的資料,
去預測未來24小時候的愛心數吧?
首先這題目我可能就不會考慮用NLP來做處理,主要是資料量可能不足
再加上中文NLP來做除了麻煩外效果可能也不會太好
想法是有了1~6小時的愛心數跟評論量,預測未來24小時的愛心數
基本上標題文字的意義其實可能就不是那麼重大,有強烈特徵的可能只是一兩個關鍵字
而且有了前六小時的數據,基本上不用標題也能夠推估未來的數字
所以覺得這題比較難的是,你沒有6小時之後的資料,所以很難預估一個趨勢
(除非有給完整趨勢資料)
因此我會將看板資訊轉成單純數字的Label,
或是可以取得與看版相關的人氣值正規化後做代替
將標題做關鍵字提取,並且做文字雲把重複的強烈關鍵字與留言愛心數做對應,
重新建一個特徵值
接下來就有完整的特徵值資料,做一下特徵值的關聯性或是強度分析
挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以)
(應該用LSTM效果比較好)
基本上能簡單做就不會想太複雜處理,單純一個想法也確定可不可行,供大家討論參考
--
那片有座高塔哭著朝北方奔去的天空,是我此刻片尋不著的風景
--
為啥會沒有24小時後的資料,dcard文章不是一大堆,
隨便爬都有啊
我不知道他們題目有沒有說可以拿外部資料,只為了符合遊戲規則而已 如果是我理解這樣,這題目其實比較有點類似工業界的生命預估
我也覺的是這個方向,但關鍵字應該也是重要,但關鍵字如何
提取,應該是dl訓練出來的。我覺的這題關鍵是如何提取關鍵
字,不然有6小時的資料應該很容易預測24小時的愛心數。
而且給time series的資料,應該就是想用transformer
能簡單就比較不會想複雜用,雖然不確定考官想要的方向是什麼
5萬筆資料用transformer 去over-fitting? 資料量那麼少,
模型用那麼複雜,效果好也是運氣
沒有對錯,純個人不同看法。
認同
※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 12:23:10transformer 一般來說要到哪個數量級才勉強及格 ?
如果在NLP感覺至少也要數十萬以上才夠用 但目前的題目是只要抓標題,文本量很少因此我猜五萬筆是足夠的 只是如果今天拿去測外部資料會不會準,就不知道了
我猜現在所有人都在用bert/gpt,找intern應該也是想要延續
公司正在做的,transformer也許不是最適合這題,但可能是
dcard想找的人。只是盲猜,提出來聊聊。面試,考題,機運
蠻重要的。
這種"標題"對"星星"的decoder應該很簡易訓練,反正資料少
的確考量考官想看的差異度會很大,有些考官喜歡看新東西新技術,有些考官喜歡實用性
用BOW就夠了吧
真是懷念XD 但依我原先的想法用BOW應該就是最直接的了
※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 14:01:23挑一個預訓練的中文模型,五萬條fine tune transformer
很夠了... 2023了沒人在train from scratch
你在講什麼 自己改題目? 還沒發文哪來的前六小時?
用transformer,尤其是直接標題放進去train就是準備 over-
fitting啊,ML基本常識。 BERT Embedding+ 下游小模型,我
還覺得稍微有點ML常識。
這吳恩達的deep learning或各種ML經典教科書都有寫吧。資
料量少要用小模型。
或者把 transformer或BERT的layer抽掉幾層成為較小模型也
可。用小模型是為了降低模型的Variance,這基本常識吧。
這就是為什麼原PO用XGBoost LightGBM ,反而效果可能好
這就是很詭異的地方,現在用LLMs,用少少的data fine tune
效果奇異的好。也許LLMs裡的"知識"夠多,adaptation效果
奇佳。在twitter上看到一些專研NLP的學者有點垂頭喪氣,說
以後不用研究了
這也不是今年才這樣 沒人在from scratch了
83
[閒聊] Figure PVC 公仔資料查詢網站我打算做一個收集各處PVC相關資料(販售、徵求、開箱或分析)的網站。 收藏PVC是十多年來的興趣,未來應該還會持續下去,所以這應該會是一個長期項目。 網址: 進入後,在搜尋框輸入關鍵字即可查詢。40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型37
[瑟瑟] 瑟瑟不求人Part3 AI畫馬娘色圖可以嗎?上圖27
[心得] 用FB Prophet預測美股未來行情完整文章: Github程式碼: 最近覺得自己美股轉換標的的時機都不是很好, 抄底常抄在半山腰, 就想說來研究一下預23
[創作] 做了一個用Google Trend查美股趨勢的網站最近做了一個網站去抓美股數千檔公司的網路搜尋趨勢, 並整理成一張大表 & 搜尋趨勢 對應股價的走勢圖 Demo: 網站網址:13
[請益] 玉山NLP挑戰賽先上連結: 玉山跟趨勢合辦的資料分析比賽 蠻多年了 小弟目前資工在學 未來畢業想做資料科學相關 想請問參加這類比賽對履歷有幫助嗎?9
Re: [外絮] 用機器學習模型預估MVP得主其實前幾篇文章有稍微回應機器學習的問題 也提到了nash比較像非典型的MVP 這時候再回頭來看這些輸入訓練的特徵 就會看出問題了 全都是最典型的數據 nash的太陽隊球風確實帶出了不同的NBA視界3
Re: [問卦] 告白時怎麼知道自己成功率多少?這位兄day,你問了一個非常有深度的問題, 要計算出告白成功的機率,我建議採取以下流程: 1. 資料蒐集/資料標記 首先你需要想辦法蒐集到包含下列資料的足夠樣本,我看最少需要個幾千筆, a.人口統計變項:年齡、性別、居住地、職業、年收入、身高、體重、有無房產等。4
Re: [請益] 商城的訂單資料庫設計我並不是工程師, 目前也在自學中, 針對你的問題提供些答案與解決方向, 希望能幫助到原po, 版上的其他前輩們,