Re: [問卦] AI機器人的信度和效度?
※ 引述《jej》之銘言
: 如題啊
: 現在牌面上的機器人
: 號稱可以取代人工
: 但本肥上去聊了一下
: 總覺得機器人回答的不完全對耶
: 但是看那些機器人的官網
: 也沒有說機器人回答問題
: 的信度 效度分別是多少?
: 很神奇
: 用統計做出來的東西
: 卻沒有統計勾稽他
: 有沒有版上鍵盤機器人訓練家
: 可以解釋一下嗎
: 來 寶傑
阿肥外商碼農阿肥啦!在下鍵盤研究員回答一下你的問題,
1. 先說統計檢驗部分,一般而言在傳統研究領域小數據上都會要你做一些傳統的統計檢驗,
例如你加了某個方法以後會更好,你要跟讀者證明A優於B,要避免模型有隨機性那做了可以證明你是對的。不過現在大部分NLP訓練都是基於巨量數據像GPT-3有45TB的文本,這麼大的數據情況下我們都會假設數據服從中央極限定理符合常態分佈,那做假設檢驗就有點多餘。
2. 當前NLG的任務都是基於自監督在透過人工標註來訓練一個偏好學習來微調大語言模型,這種就很難評斷哪個評價更好是對的這種問題,統計檢驗雖然可以告訴我們哪個比較顯著,但是不會告訴你顯著方向,依舊需要人類來定義,而人類定義又會回到問題上,我們即使請了一堆人標答案你怎麼知道哪個一定更好?即使是找一百個人好了,一百個人我們透過統計來找到應該某個選項比較好也不見得就是真實世界的答案,畢竟人類不是上帝。
3. 基本上當前所有的模型發佈或發表都會做一些消融實驗驗證我們確實好一點,像GPT4也有
提供calibration 驗證,Anthropic (谷歌合作的AI公司致力於安全性,創始人是OpenAI出來
的)在他們的chatBot研究Paper上還有提供有效性跟無害性分析。
4. 一個有趣的點是當前自監督加上巨量數據下,對於傳統的特徵篩選越來越不重要,因為夠
巨量,全部都當成QA問題似乎越來越沒差,不過因為模型太大可能執行速度困難下,讓模型稀疏化不要一次激活全部神經元的研究正夯,像是透過一些小的Linear把他訓練成專家篩選器。
5. 深度學習的可解釋性依舊是一個問題,我們到現在還是不明白大語言模型的湧現能力是怎
麼出現的,似乎在某些問題上凸顯湧現能力但是到某些問題上模型又變成三歲智商,這點還是回到Yann LeCun 說得我們現在連貓狗大腦都做不出來,但某種程度LLM卻又表現出類人能力,這會是之後蠻硬核的研究議題,若是有人能找到這個聖杯,那足夠價值五個圖靈獎了。
--
14
Re: [新聞] 馬斯克等千人簽署公開信:呼籲暫停巨型AI公開信的原文: 它裡面提到4個自我省思,其中第1點:假訊息 是曾經/正在發生,而且造成實質損失 人類判讀訊息真實性時,經驗/直覺可以在新證據 (假設是新聞、訊息) 不多、不強11
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步12
Re: [閒聊] 繪師是怕畫不過AI還是怕AI會創作?怒刪,剛好碩班是研究AI領域,以我的角度來看 其實人工智慧這一塊的發展跟人類特徵學息息相關。人類從自我的習性套用到機器上,透 過流程特徵化後編制pipeline讓機器模仿人類的習性。 先說結論,Machine Learning(ML)不可能只靠「單一」一張畫師的畫就可以訓練成一個有 效的模型;相反地它需要透過大量的數據去臨摹某一種畫風。8
[爆卦] DeepMind新AI可輔助純數學研究vel-ways DeepMind發表了新的機器學習框架,能幫助數學家發現新猜想和定理。該框架已經輔助發現 一個拓撲學新定理和一個表示論的新猜想。7
Re: [討論] 好像這一天會來:工科超越醫科推 pornstar : 這篇文先存, 20年後再回來看會不會打臉 02/04 16:40 推 IBURNER : 等到AI診對開放給一般人作參考 AB test的結果是醫生 02/04 16:42 → IBURNER : 判錯的機會比較高 這職業就被挑戰了 沒那麼難 02/04 16:43 如果懂AI就不會說這種話 講白一點AI就是歸納大量資料訓練出模型5
Re: [閒聊] 用CHATGPT跑團基本上就是記憶力(連結上下文能力)問題, ChatGPT的記憶能力「據說」是4000個token 約= 3000個英文單詞。 無論GPT3 API或者前天的GPT3.5 API也是這樣,超過的連結不到就會跑設定, 就算你自己串API都不會得到比較好的結果,只是據說沒有倫理限制而已。 那真的想這樣玩「可能」可以怎麼做?2
Re: [問卦] ChatGPT到底是炒作還是未來趨勢?!這個東西後厲害的不是目前的應用 他厲害的點是他能讀懂你想說什麼 然後可以高效率給你要的答案 在目前整個機器學習深層學習的研究上很多都還是有目標性 特斯拉開車1
Re: [問卦] 為什麼人工智慧在這今年炸開了這一波是十年前的AlexNet才開始讓ML實用化 以往都只是研究 AlexNet橫空出世 GPU+大型CNN 辨識率高 忽然讓一堆人想到 啊幹 原來GPU能幹那麼複雜的事情 所以從2012年之後 ML/AI的研究如同雨後春筍呈現爆炸性的增長 ML從事的人多 想法就多 推出的模型多 成功的總會有幾個
爆
[爆卦] 賴清德為霸凌案出面道歉了爆
Re: [新聞] 為愛赴緬做詐騙!靜宜女大生近期有望回台爆
[問卦] 一提到被媒體霸凌大家第一個想到誰?爆
[問卦] 綠同事:第一次有人死掉鬧這麼大爆
[問卦] 人資:「上班偷錄音違反職場倫理」爆
Re: [新聞] 批黃國昌輕放謝宜容!李正皓:勞動部調查爆
Re: [新聞] 爆黃國昌與謝宜容秘密會議 李正皓秀公文爆
Re: [新聞] 快訊/柯文哲涉「2大案」最快12月偵結爆
[問卦] 道歉影片出來了?86
[爆卦] 潘傑楷 炸裂45
[爆卦] 台灣2:0美國啦32
[問卦] 主管要檢查手機 說是防洩密 要交出去嗎42
[問卦] 有比皇帝還上位的存在嗎?34
[問卦] 免費讓你學台語你會去嗎?31
[問卦] 出事情嚴查嚴辦當事人卻跑了?27
[問卦] 烏克蘭的兩年戰事,給台灣的啟發?31
[問卦] 同樣是政府部門 怎麼有的部門爽到爆?爆
[問卦] 今年2024代表詞要選什麼?25
Re: [問卦] 怎麼都沒有公民團體發聲阿?62
[問卦] 謝宜容下屬10分鐘不回line就開罵 結果自23
[問卦] 第一島鏈在2024年,是否還重要?18
[問卦] 大谷翔平為什麼沒關注12強?75
[問卦] 對工作單位充滿感謝,然後在單位上吊?43
[問卦] 為啥國際上泰國比台灣還有名30
[問卦] 公務員不屌上司會怎麼樣18
[問卦] 朋友說現在公務員不能加班但事情沒變少54
[問卦] 為啥很多女主管都喜歡緊迫釘人?17
[問卦] 美國一直觸身球 丟爽沒19
[問卦] 勞動部事件火越燒越大啦20
Re: [新聞] 勞動部霸凌案 死者母淚崩「我可憐的孩子