Re: [問卦] AI大數據分析是不是過譽了？

sxy67230 發表於 2021/10/13 上午9:53:57

看板Gossiping標題Re: [問卦] AI大數據分析是不是過譽了？作者

(charlesgg)時間Oct 13 09:53:57 2021推噓 2 推:2 噓:0 →:3

※ 引述《lpbrother (LP哥(LP = Love & Peace))》之銘言：
: 之前很多學校就喊說大數據分析怎樣的
: 但事實上目前唯一能夠應用的只有
: google 的搜尋分析
: google 就是分析大家搜尋的關鍵字推送最需要的網頁
: 但除此之外，
: 統計學家長期以來都得承認，
: 最困難的是如何證明兩組不同數據之間取得關聯性，
: 要不然就會鬧出類似
: 男人比出OK的手勢的圓圈大小等於他的睪丸大小
: 這種笑話
: 但是這種笑話一樣的數據分析論文到處都是，
: 根本沒有做到所謂的大數據分析的效果，
: AI大數據分析是不是過譽了？
: 有沒有八卦？

所以任何當前的機器學習模型都需要Data scientist來做前置性分析的啦。明星級的DS多半是數學、統計、計算機科學交叉領域的專家，一個好的模型訓練集跟測試集必然存在獨立同分佈，獨立同分佈是為了確保樣本足夠分散各類均勻又能代表真實分佈，因為分散均勻若模型只看了其中8成比例數據必然能泛化剩下的兩成(這邊必然有數學上的驗證，由於有大量數學引理就不贅述，可以從林軒田老師的基石課去找資源，關鍵字VC generalized bound，進一步去找近年DL的學習性研究PAC-Bayes Bound，還有一個私心推薦寫得很好的Paper: Deep Neural Network Approximation Theory，從Information theory角度切入問題的，可以學到很多。)

剩下就是樣本是否代表真實數據的問題，所以DS必然需要了解客戶所謂的真實數據到底是指什麼，再透過敘述性統計跟假設還有EDA確認學習的範圍。

最後一點針對不同分佈(domain)的學習也是近幾年各學者想攻破的，包含主動學習、元學習、表示學習(是否我們還能再把數據透過自監督抽象化給不同領域的問題)、持續學習，這些都是目前正在研究的方向，期望未來能讓機器有辦法真正舉一反三、看少量的數據
就可以學習、持續性學習而不遺忘。另外，還有一門領域是透過對生物腦的理解試圖建構可以運作的仿生物腦模型，這一些都是近年學術的成果啦。

AI落地的路未來會很長，這是持續一兩個世紀的科學革命，現在只是革命前夕而已，我不後悔作為科學家為人類演化的這一里路貢獻我的人生在研究上啦。我是不相信柏拉圖主義那套哲學思路的，因為當代科學研究更偏向於靈魂可能與心智大腦是同一種表述的，透過基因
即可建構任一的心智生物，那靈魂論就是多餘的了。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.133.166 (臺灣)

※ PTT 網址

→

Firstshadow 10/13 09:56對不如直接開發搖光

※ 編輯: sxy67230 (49.216.133.166 臺灣), 10/13/2021 09:58:27

→

sareed 10/13 10:06我覺得賺得到錢比較實際

賺錢跟理想不一定不能全都要啊，不然真的當谷歌嫌錢多養一堆科學家做研究嗎？人家當然也是再壓寶順便炒新聞衝股價。另外，也是真的在做落地打算，其實未來可以預見台灣企業數據跟分析被全球化企業霸權掌握的趨勢。

推

YJM1106 10/13 10:09資料科學家+顧問+終端客戶缺一不可