Re: [討論] 學弟妹們請以醫牙電資財金為目標(補報告)
既然都有人點名惹 小弟我獻醜一下好惹
不過今天先不要講貝氏 貝氏作圖跟搭配公式講要花很多時間準備
先看看推文有人說到104的資料好惹
美國資料我現在懶得點 我期末考完再看看><
===========================================
做資料科學的步驟第一項就就是資料如何收集
在104圖表下方 他都有寫說資料來源如何來
「
資料來源:104人力銀行履歷資料庫,該學系畢業生(含日/夜間部)填答薪資及職
務特性問卷而來,並由系統逐一檢驗,以確保資料的正確性。 圖表資料固定於每
月第一周更新,剔除超過一年的樣本;以確保資料的時效性。
」
上面是引用自104網站 可是
第一個很大的缺陷應該大家都能看出來
就是樣本數太少
我沒有特別去估算一間學校的畢業生有多少啦
不過抓一下 大係一個年級大概都80~100吧 現在2020 不看最近建立的學校
畢業生的總數至少都有2000左右
那這樣抓的話 他整體人數都只有抓 200人左右 這個是數量非常少的
很難做大樣本分析 不過沒關係 統計如果只會大樣本分析 早就被淘汰了
那接下來第二個步驟 我們要做model
可是 這個網站 的model 方式 只有做order statistic
簡單的說就是大小排序而已
很明顯 從網站給的分佈 我們只知道 幾%的人在哪個區塊
但要如何從樣本推到母體
從我的角度看來是無法啦 畢竟只從order statistic中 很難看出任何的資訊
依目前所學過的 我猜想 poisson 或是 multinomial 可能會好些
不過還是要回頭做一些假設檢定來看看model合不合適啦
===========================================================
除此之外 主張104的統計無用還可以用以下角度
1.統計時有沒有把樣本背景盡力消除
講白一點 就是高中的不變變因有沒有確實處理好
這個可以透過分類方式處理 (這裡很明顯沒有)
或是用大數據的方式來稀釋這些雜訊(這裡也沒有)
因此很可能 薪資跟科系只有相關性 而缺乏因果關係
2.另一個問題是發明民調的人(我忘記叫啥了QQ) 也犯的錯誤
就是他今天搜集的資料 已經是condition在 會使用104找工作填問卷的前提了
這就是很容易出現的資料搜集偏差 可能這些人有共同的某些特質
例如薪水較高的理組 薪水較低的文組等等
都是可能會出現的問題
其他的還有一些關於資料上的問題 就可以連接到貝氏理論了
如果有人想聽下次再打 我要去念期末惹QQ
=======================================
BTW 如果想知道一個科系可以幹嘛 薪水多寡 其實每個係辦都會去統計自己系上同學
你去找係辦都可以比104準喔
--
找到票了!!是同意!!
恭喜我大114校長連任
--
推
推
你以為系上統計的就比較準?
我們系是完整性資料建檔 雖然樣本數也大概只有畢業的1/2~2/3填 可是至少都還沒 做transformation 可以說是原始資料 這是資訊量最多的那種了吧
你可以說104不準,但你也找不到更好的標準
可以說結論嗎?
104沒辦法為原來那篇佐證 資料的歸納能力太糟
推
系上統計肯定比任何求職網準啊
算各有參考性吧,理工科畢業發展前段的不會用104,發展後
段的不會回報系上,一個偏低估一個偏高估。
MT說的貼切.很多發展比較不順的系友不會回報或參加同學會
我們班同學會其中ㄧ餐常是大咖同學請的
1/2~2/3畢業生回報這只有剛畢業那幾年吧?我幫忙過系友召
没那種身分要去買單也會不好意思
集,畢業五年十年後不太有人鳥系辦了,會熱情參與的大概只
有該屆系學會長、榮譽系友的死黨掛。
我是不知道其他科係怎麼樣 不過依照我們科系而言 資料今年線上回報而已 所以很新 因為不記名 所以有放在係上網站公開可以查詢 甚至還有獨立的資訊包含你之後的研究所 畢業年數 工作名稱內容等等 如果有心可以做到 只是看你想不想做
出國先不談,台灣理工科發展好的主要都是大型上市公司,薪
資結構非常死,圈子內都知道行情在哪,這幾年甚至要求公布
我們這種魯蛇系友也不好意思回報系上
員工薪資平均數,打聽或查詢一下就知道了。
而且自己系上的可能好查一點
不是自己系上的就難了
可能你系上的統計比較完整,但很多人是不鳥系辦的
104這種公開資訊已經是算相對準確了
104公開資訊沒錯 可是資料上的缺陷我點名在文章內了 這是明顯錯誤的資訊 你說我雞蛋裡挑骨頭我也沒辦法 不過我先講結論 我認為如果是104這種資料 我寧可不看 推想過程我之後再另外回一篇文好惹 畢竟這篇也只有回應原文章下面的回應 沒有回應到原作者的想法
畢竟他們專門做求職的,樣本來源廣
我看不出來樣本來源廣
除非你能提供更好的統計資料
他們或許拿得到樣本 但他們處理樣本的手法很糟
不然我覺得你只是在雞蛋裡挑骨頭
不看104,請問你看什麼呢?
不是所有系上統計的都很完整哦
而且跨系的又怎麼辦?
這問題請容許我再用一篇文回應 很難用幾句話完只說明
不過現在台灣上市公司有被要求公佈非主管總薪資就是
除一下員工人數可以大概看個輪廓
科技業板好像有人整理過可以看一看
你們連畢業20年的都還有1/2以上回報?這在大系裏滿不可思
思議,先別說混不好的不願意丟臉,光是還能聯絡上那些人就
非常厲害,通常畢業十年就失聯快一半了。
104一定偏低估啦,至少理工業界生態是這樣,拿104當作新人
起薪或後1/4位數可能有一定參考性。
我們科系只有辦十多年 算是小係吧 不過有校友的社團 算活絡 這也是其中一個原因吧
不過不排除104裡面有獵頭的數據
不過這種不透明的東西要客觀精準評估的確很難
人均GDP跟人均所得都不知道差多少了
推
25百分位數跟75百分位數也不知道
很可能得出人類平均一顆蛋蛋的結論
難道你畢業20年還會用104?
104上面還是有主管職啊
原文底下一堆腦殘 推這篇
把少為教的學以致用
超愛少為的 他是個超好的教授
民調先生用電話調查當時美國某地的民眾投票意願 很穩
但是因為當時電話出來沒多久 有錢的人才有電話
所以GGGGG
假設母體有錢人占10% 窮人站90% 而且貧富影養投票意願
這種偏差就讓這民調GG了
爆
Re: [情報] 好食券使用方式 (快速查詢EXCEL)zzzzz真的有夠難查的 簡單處理一下資料弄成excel 原本想弄成網頁的,想想覺得好麻煩還是算了(X Excel實在不熟,不知道該如何弄成一行內可以複合的篩選(?) 所以用了個很蠢的方式協助篩選51
Re: [請益] 想從零開始轉行當AI軟體工程師來用自己的例子勸退一些想跳機器學習的人 首先是數學程度, 我是數學系的,什麼線代,微積分,機率,統計的都很熟其實工作也會用到, 描述一些比較有印象的工作用過的數學, 比較有趣關於微積分的經驗:40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型18
[請益] 每日盤後 raw data 原始數據 如何取得你各位每天看得 App , 各股票網站的各種圖表 例如:分點進出,每天開收盤價,量 等等 都是由台灣證券交易所獲得資料,再利用這些資料做出圖表 我想獲得原始資料,匯入資料庫,自行分析 利用 SQL 自己下條件14
Re: [新聞] 台灣半導體前20大公司薪資排行曝光 台積這個是外部平台的統計資料 而且資料來源不是隨機抽樣 是平台成員自己去填的 先假設大家都填真實資料好了 但平台的知名度跟使用族群也對統計出來的數字有很大影響 比如說看到這篇之前我也沒聽過這個見鬼的平台 剛剛還特地去查一下 然後就發現這個平台根本廢到笑10
Re: [心得] 每個月穩定賠錢是不是找到財富密碼了?你用不同時區的技術指標作為進出的話,那麼首先必須要釐清: 你的主要交易時區在哪裡。比如說我們就以stoch(9,3,3)為例,你總共有: 日kd,周kd,月kd,且你要 日kd 金叉 and 周kd 金叉 and 月kd 金叉, 則次日開盤買入。 那麼這其實是以月kd為主的方式。它的符合條件就很少見了,再用小時區的停損停利5
Re: [新聞] 貧富差距懸殊 2%中國人掌控80%財富看到推文在問台灣的數據,就轉貼國發會網站的數據來給大家「反觀台灣」 資料來源: 5.主要國家所得分配概況 「每人」所得差距:我國所得差距低於韓國、日本、新加坡等鄰近國家 「每戶」所得差距:我國所得差距低於日本、香港及美國3
Re: [問卦] 告白時怎麼知道自己成功率多少?這位兄day,你問了一個非常有深度的問題, 要計算出告白成功的機率,我建議採取以下流程: 1. 資料蒐集/資料標記 首先你需要想辦法蒐集到包含下列資料的足夠樣本,我看最少需要個幾千筆, a.人口統計變項:年齡、性別、居住地、職業、年收入、身高、體重、有無房產等。2
[問題] 班佛定律至少要有3000樣本數是怎麼算的?班佛定律老實說很冷門 我看了1,20本經濟或統計的書也沒啥人引用過 有人說可以用來檢驗選舉或帳目有無人為篡改 條件是隨機資料要有3000筆以上 隨機資料和隨機抽樣意思差不多 就是不能有外部人為干預下自然產生的結果 比如統計樣本至少要有1068才能反應母體 那3000這數字是怎麼得出來的? 若有這限制 也無法用來檢驗選舉作票 因為每投票所的人口不到3000