Re: [問卦] AI機器人的信度和效度?
※ 引述《jej》之銘言
: 如題啊
: 現在牌面上的機器人
: 號稱可以取代人工
: 但本肥上去聊了一下
: 總覺得機器人回答的不完全對耶
: 但是看那些機器人的官網
: 也沒有說機器人回答問題
: 的信度 效度分別是多少?
: 很神奇
: 用統計做出來的東西
: 卻沒有統計勾稽他
: 有沒有版上鍵盤機器人訓練家
: 可以解釋一下嗎
: 來 寶傑
阿肥外商碼農阿肥啦!在下鍵盤研究員回答一下你的問題,
1. 先說統計檢驗部分,一般而言在傳統研究領域小數據上都會要你做一些傳統的統計檢驗,
例如你加了某個方法以後會更好,你要跟讀者證明A優於B,要避免模型有隨機性那做了可以證明你是對的。不過現在大部分NLP訓練都是基於巨量數據像GPT-3有45TB的文本,這麼大的數據情況下我們都會假設數據服從中央極限定理符合常態分佈,那做假設檢驗就有點多餘。
2. 當前NLG的任務都是基於自監督在透過人工標註來訓練一個偏好學習來微調大語言模型,這種就很難評斷哪個評價更好是對的這種問題,統計檢驗雖然可以告訴我們哪個比較顯著,但是不會告訴你顯著方向,依舊需要人類來定義,而人類定義又會回到問題上,我們即使請了一堆人標答案你怎麼知道哪個一定更好?即使是找一百個人好了,一百個人我們透過統計來找到應該某個選項比較好也不見得就是真實世界的答案,畢竟人類不是上帝。
3. 基本上當前所有的模型發佈或發表都會做一些消融實驗驗證我們確實好一點,像GPT4也有
提供calibration 驗證,Anthropic (谷歌合作的AI公司致力於安全性,創始人是OpenAI出來
的)在他們的chatBot研究Paper上還有提供有效性跟無害性分析。
4. 一個有趣的點是當前自監督加上巨量數據下,對於傳統的特徵篩選越來越不重要,因為夠
巨量,全部都當成QA問題似乎越來越沒差,不過因為模型太大可能執行速度困難下,讓模型稀疏化不要一次激活全部神經元的研究正夯,像是透過一些小的Linear把他訓練成專家篩選器。
5. 深度學習的可解釋性依舊是一個問題,我們到現在還是不明白大語言模型的湧現能力是怎
麼出現的,似乎在某些問題上凸顯湧現能力但是到某些問題上模型又變成三歲智商,這點還是回到Yann LeCun 說得我們現在連貓狗大腦都做不出來,但某種程度LLM卻又表現出類人能力,這會是之後蠻硬核的研究議題,若是有人能找到這個聖杯,那足夠價值五個圖靈獎了。
--
14
Re: [新聞] 馬斯克等千人簽署公開信:呼籲暫停巨型AI公開信的原文: 它裡面提到4個自我省思,其中第1點:假訊息 是曾經/正在發生,而且造成實質損失 人類判讀訊息真實性時,經驗/直覺可以在新證據 (假設是新聞、訊息) 不多、不強11
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步12
Re: [閒聊] 繪師是怕畫不過AI還是怕AI會創作?怒刪,剛好碩班是研究AI領域,以我的角度來看 其實人工智慧這一塊的發展跟人類特徵學息息相關。人類從自我的習性套用到機器上,透 過流程特徵化後編制pipeline讓機器模仿人類的習性。 先說結論,Machine Learning(ML)不可能只靠「單一」一張畫師的畫就可以訓練成一個有 效的模型;相反地它需要透過大量的數據去臨摹某一種畫風。8
[爆卦] DeepMind新AI可輔助純數學研究vel-ways DeepMind發表了新的機器學習框架,能幫助數學家發現新猜想和定理。該框架已經輔助發現 一個拓撲學新定理和一個表示論的新猜想。7
Re: [討論] 好像這一天會來:工科超越醫科推 pornstar : 這篇文先存, 20年後再回來看會不會打臉 02/04 16:40 推 IBURNER : 等到AI診對開放給一般人作參考 AB test的結果是醫生 02/04 16:42 → IBURNER : 判錯的機會比較高 這職業就被挑戰了 沒那麼難 02/04 16:43 如果懂AI就不會說這種話 講白一點AI就是歸納大量資料訓練出模型5
Re: [閒聊] 用CHATGPT跑團基本上就是記憶力(連結上下文能力)問題, ChatGPT的記憶能力「據說」是4000個token 約= 3000個英文單詞。 無論GPT3 API或者前天的GPT3.5 API也是這樣,超過的連結不到就會跑設定, 就算你自己串API都不會得到比較好的結果,只是據說沒有倫理限制而已。 那真的想這樣玩「可能」可以怎麼做?2
Re: [問卦] ChatGPT到底是炒作還是未來趨勢?!這個東西後厲害的不是目前的應用 他厲害的點是他能讀懂你想說什麼 然後可以高效率給你要的答案 在目前整個機器學習深層學習的研究上很多都還是有目標性 特斯拉開車1
Re: [問卦] 為什麼人工智慧在這今年炸開了這一波是十年前的AlexNet才開始讓ML實用化 以往都只是研究 AlexNet橫空出世 GPU+大型CNN 辨識率高 忽然讓一堆人想到 啊幹 原來GPU能幹那麼複雜的事情 所以從2012年之後 ML/AI的研究如同雨後春筍呈現爆炸性的增長 ML從事的人多 想法就多 推出的模型多 成功的總會有幾個
爆
Re: [新聞] 黃國昌「法案審查發言」僅197秒 沈爆
[問卦] 湯姆霍蘭德版羅密歐 釋出現場最新照爆
[問卦] JIM怎麼可以還在輸出?爆
[問卦] 護理師發文靠北,抗議民眾太吵!爆
[問卦] 戰神Jim挑戰狂新聞爆
[爆卦] Costco開始抓非會員加油爆
[問卦] 數位部的錢為什麼不給消防弟兄?爆
[問卦] 死兩位消防員,過多久就會忘了?爆
[問卦] 新版茱麗葉太醜了吧 找泰勒絲演都好爆
[問卦] 今天新竹火災調查報告很有參考性吧?爆
[爆卦] 新竹消防隊殉職兩個人?!87
[問卦] 戰神Jim臉書 新業配threads79
[問卦] 大家明天會去參加文革嗎78
[問卦] 打贏了 獨立了 台灣會變成什麼樣子?爆
[問卦] 消防改革目前進度改到哪裡了71
Re: [新聞] 黃國昌「法案審查發言」僅197秒 沈伯75
[問卦] 不google 馬上講出台灣400年來最壞的人?73
[問卦] 台股站上21800,經濟真的很好?爆
Re: [問卦] 真的統一了,台灣會變什麼樣子?71
[問卦] 祝別人流產是啥心態67
[問卦] 莫彩曦公公買了8000萬城堡!64
[問卦] 靠北喔!消防員又死?82
Re: [新聞] 新竹2勇消救人「氣瓶耗盡」殉職 消防局47
[問卦] 脆: 搭捷運去社運的男人很解39
[問卦] 沒人發現智力正常的人根本不會被詐騙嗎!38
[問卦] 藐視國會>民生問題?44
[問卦] Jim在八卦版能白多久?49
Re: [爆卦] 民進黨不演了?直接承認社運都是他們操弄47
[爆卦] 華春瑩任中國外交部副部長45
[問卦] 買00940的是不是很幹