Re: [問卦] AI機器人的信度和效度?
※ 引述《jej》之銘言
: 如題啊
: 現在牌面上的機器人
: 號稱可以取代人工
: 但本肥上去聊了一下
: 總覺得機器人回答的不完全對耶
: 但是看那些機器人的官網
: 也沒有說機器人回答問題
: 的信度 效度分別是多少?
: 很神奇
: 用統計做出來的東西
: 卻沒有統計勾稽他
: 有沒有版上鍵盤機器人訓練家
: 可以解釋一下嗎
: 來 寶傑
阿肥外商碼農阿肥啦!在下鍵盤研究員回答一下你的問題,
1. 先說統計檢驗部分,一般而言在傳統研究領域小數據上都會要你做一些傳統的統計檢驗,
例如你加了某個方法以後會更好,你要跟讀者證明A優於B,要避免模型有隨機性那做了可以證明你是對的。不過現在大部分NLP訓練都是基於巨量數據像GPT-3有45TB的文本,這麼大的數據情況下我們都會假設數據服從中央極限定理符合常態分佈,那做假設檢驗就有點多餘。
2. 當前NLG的任務都是基於自監督在透過人工標註來訓練一個偏好學習來微調大語言模型,這種就很難評斷哪個評價更好是對的這種問題,統計檢驗雖然可以告訴我們哪個比較顯著,但是不會告訴你顯著方向,依舊需要人類來定義,而人類定義又會回到問題上,我們即使請了一堆人標答案你怎麼知道哪個一定更好?即使是找一百個人好了,一百個人我們透過統計來找到應該某個選項比較好也不見得就是真實世界的答案,畢竟人類不是上帝。
3. 基本上當前所有的模型發佈或發表都會做一些消融實驗驗證我們確實好一點,像GPT4也有
提供calibration 驗證,Anthropic (谷歌合作的AI公司致力於安全性,創始人是OpenAI出來
的)在他們的chatBot研究Paper上還有提供有效性跟無害性分析。
4. 一個有趣的點是當前自監督加上巨量數據下,對於傳統的特徵篩選越來越不重要,因為夠
巨量,全部都當成QA問題似乎越來越沒差,不過因為模型太大可能執行速度困難下,讓模型稀疏化不要一次激活全部神經元的研究正夯,像是透過一些小的Linear把他訓練成專家篩選器。
5. 深度學習的可解釋性依舊是一個問題,我們到現在還是不明白大語言模型的湧現能力是怎
麼出現的,似乎在某些問題上凸顯湧現能力但是到某些問題上模型又變成三歲智商,這點還是回到Yann LeCun 說得我們現在連貓狗大腦都做不出來,但某種程度LLM卻又表現出類人能力,這會是之後蠻硬核的研究議題,若是有人能找到這個聖杯,那足夠價值五個圖靈獎了。
--
14
Re: [新聞] 馬斯克等千人簽署公開信:呼籲暫停巨型AI公開信的原文: 它裡面提到4個自我省思,其中第1點:假訊息 是曾經/正在發生,而且造成實質損失 人類判讀訊息真實性時,經驗/直覺可以在新證據 (假設是新聞、訊息) 不多、不強11
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步12
Re: [閒聊] 繪師是怕畫不過AI還是怕AI會創作?怒刪,剛好碩班是研究AI領域,以我的角度來看 其實人工智慧這一塊的發展跟人類特徵學息息相關。人類從自我的習性套用到機器上,透 過流程特徵化後編制pipeline讓機器模仿人類的習性。 先說結論,Machine Learning(ML)不可能只靠「單一」一張畫師的畫就可以訓練成一個有 效的模型;相反地它需要透過大量的數據去臨摹某一種畫風。8
[爆卦] DeepMind新AI可輔助純數學研究vel-ways DeepMind發表了新的機器學習框架,能幫助數學家發現新猜想和定理。該框架已經輔助發現 一個拓撲學新定理和一個表示論的新猜想。7
Re: [討論] 好像這一天會來:工科超越醫科推 pornstar : 這篇文先存, 20年後再回來看會不會打臉 02/04 16:40 推 IBURNER : 等到AI診對開放給一般人作參考 AB test的結果是醫生 02/04 16:42 → IBURNER : 判錯的機會比較高 這職業就被挑戰了 沒那麼難 02/04 16:43 如果懂AI就不會說這種話 講白一點AI就是歸納大量資料訓練出模型5
Re: [閒聊] 用CHATGPT跑團基本上就是記憶力(連結上下文能力)問題, ChatGPT的記憶能力「據說」是4000個token 約= 3000個英文單詞。 無論GPT3 API或者前天的GPT3.5 API也是這樣,超過的連結不到就會跑設定, 就算你自己串API都不會得到比較好的結果,只是據說沒有倫理限制而已。 那真的想這樣玩「可能」可以怎麼做?2
Re: [問卦] ChatGPT到底是炒作還是未來趨勢?!這個東西後厲害的不是目前的應用 他厲害的點是他能讀懂你想說什麼 然後可以高效率給你要的答案 在目前整個機器學習深層學習的研究上很多都還是有目標性 特斯拉開車1
Re: [問卦] 為什麼人工智慧在這今年炸開了這一波是十年前的AlexNet才開始讓ML實用化 以往都只是研究 AlexNet橫空出世 GPU+大型CNN 辨識率高 忽然讓一堆人想到 啊幹 原來GPU能幹那麼複雜的事情 所以從2012年之後 ML/AI的研究如同雨後春筍呈現爆炸性的增長 ML從事的人多 想法就多 推出的模型多 成功的總會有幾個
90
[問卦] 統神:當初協議我減到100kg以下 拿16oz打爆
[問卦] 認真文 聽說明天就要起訴了77
[問卦] 統神直播說明有關體重、拳套(懶人包)67
[問卦] 魷魚遊戲為何在台灣選擇高雄當宣傳呢51
[問卦] 戈登燙傷處理先沖熱水!?32
[問卦]館長評論統蹦:價碼早就談好了 演的啦43
Re: [新聞] 藍白強行通過3法 台中罷免不適任立委人爆
[問卦] 為什麼身份證拿出來國家會滅亡?36
[問卦] 板橋車站周遭蓋一堆豪宅超可惜的八卦???32
[問卦] 房價這波要跌十趴?甘安捏?31
[問卦] 看過夢幻遊戲都幾歲了??93
[問卦] 新北耶誕城是不是退燒了???28
[問卦] 吃過最難吃的名店是哪一家?69
[問卦] threads上面因為建中放女學生立牌吵翻了24
[問卦] 33K透天無貸和74K無房哪個有安全感55
[問卦] threads:高雄有魷魚遊戲根本首都24
[問卦] yoasobi的ikura也變得太可愛了吧24
[問卦] 煤油是最屌炸天的暖爐吧69
Re: [新聞] 民眾黨版財劃法遭藍營丟包 黃國昌喊可接6
[問卦] 鍇睿發聲明了23
[問卦] 二十年後很多刺青阿姨嬸嬸?17
[問卦] 筆電用八年了,還可以再戰多久?15
Re: [新聞] 副署權是制衡總統 不是制衡立法院 學者:19
[問卦] 低頭是拳擊的必勝法嗎?26
[問卦] Tilda 在台灣的照片大家還有臉嗎?18
[問卦] 滷味是怎麼取代關東煮的?37
[問卦] 小鍾:請統粉不要公布我的個資14
[問卦] 台中怎麼一堆人去撞 行人庇護島16
[問卦] 驚!豬油不飽合脂肪有44%22
[問卦] 大安國小是天龍小學嗎