Re: [爆卦] 中央研究院詞庫小組大型語言模型
※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言:
: ※ 引述《gaymay5566 (feeling很重要)》之銘言:
: : 看到這篇真的龜懶趴火
: : 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊
: : 誰不知道LLM的正確率一定會有誤差?
: : 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套
: : 且直接用opencc大量將簡體資料轉繁體資料!
: : 這很嚴重啊
: 那是政治上的問題,我說的是說中研院直接拿Atom-7b模型來用的這件事
: 我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分
: https://chinese.llama.family/
: 你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立
: 的國家
: https://i.imgur.com/0QIwKLT.jpg
: https://i.imgur.com/ENwsZef.jpg
: https://i.imgur.com/DZjBeAG.jpg
: https://i.imgur.com/G1EleiR.jpg
: https://i.imgur.com/DXTrDM8.jpg
: 也就是說,這個模型在被中研院finetune之後變成了一個賣台製仗
: 拜託,千萬不要說這是簡轉繁或是直接拿結果來交差好嗎?
阿肥外商碼農阿肥啦!
今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點,
大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓練數據集當中去模仿數據源的分佈。
當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC這件很low level的操作。
問題就再拿了一個在簡中finetune 的模型又拿了簡中數據源然後用了OpenCC翻譯數據集就拿來tune這件事情。你可以去看看CKIP去拿了COIG-PC這個開源簡中數據集,前面幾個就出現中華人民共和國的刑法,這個數據集要拿來tune繁中肯定有問題的,就是我下午說的拿明朝的劍斬清朝的官,而且研究員肯定沒看過數據跟分析過這在ML/DL領域超級低端的錯誤。
再來你說的OpenCC轉換這點就蠻明顯的讓我有點懷疑可能研究員要嘛新手要嘛上頭老闆壓力,因為很明顯模型確實學習了大量openCC的翻譯錯誤,像很多人之前試到的模型輸出小喫的機率比小吃更高,明顯就overfit到研究員喂給他的Garbage dataset了。
至於說,CKIP可以辯解說,我們確實沒有隱瞞也確實提升了繁中能力,那我認真覺得如果我們只是希望模型輸出全繁中而不在意希望模型學會繁中文化跟台灣環境的流行用語的話,那我們直接拿英文數據做機翻不是更快更有效?!英文數據還取之不盡,英文to繁中的翻譯模型開源的現在也一大堆,翻譯品質也算堪用。
而且真的要做這件事情也不用中研院來做。阿肥我直接業餘一個禮拜直接搞定,阿肥之前也訓練過一堆這種tune壞的Garbage LLM,現在訓練接微軟的deepspeed又快又無腦,Nvidia最近也釋出自己的訓練框架,config調一調我連code都不用自己寫,現在一張4090就可以tune起來7b模型了,幹嘛要你中研院來做?!
而且tune壞的部分我要finetune還要加數據把他tune回來,那我直接拿Atom 7b原生做就好了啊!
唉~
--
嗯嗯 原來如此
阿所以中研院的廢文製造機怎麼會回出這
種廢文啊
這篇是中文還是chatGPT廢文?
就三十萬請工讀生 大家鞭小力一些
被你講一講好像中研院的廢文製造機回這
種廢文很正常一樣
繁中市場就是沒簡中大 轉了本體還是簡中啊
簡單來說就是改個前處理fine-tune, 30萬而已
這樣可以了啦
tune壞的Garbage LLM @@
真的要這麼直白?
爆
首Po不知道這研究案領多少錢?3
剛特別來測試 "台灣是獨立國家嗎?"-"不是" "台灣是個獨立國家嗎?"-"是" 這種東西拿出來會不會笑死人了? --7
本魯也很好奇問了一些問題, 首先是比較基礎的: 接著是大家都知道的:3
復旦大學認證阿北不代表台灣 最後還是抓到阿北中共同路人的證據 原來一切的佈局中共早就計畫好了X
對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
現在上不去了 只截到這個 你現在問它台灣總統是誰 它會說蔡英文了 問它台灣是不是國家 也說會 問它簡單的問題都會覺得台灣來的6
這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少22
看到這篇真的龜懶趴火 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊 誰不知道LLM的正確率一定會有誤差? 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套 且直接用opencc大量將簡體資料轉繁體資料!1
那是政治上的問題,我說的是說中研院直接拿Atom-7b模型來用的這件事 我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分 你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立 的國家X
你應該將題目改為"共產黨代表中華民國嗎?" 如果這個程式與很多網路遊戲一樣,不回答這個問題或禁止"中華民國"這四個字, 我們就有理由懷疑共產黨控制這個程式。 : 拿別人的成功來tune一下就可以掛名中研院...... : 有沒有掛?
52
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答2
[問卦] model 怎麼 tune是這樣的啦 本人廢物煙酒生 前陣子接手一個學長訓練的深度學習的模型要交計劃 最近期末審查快到了,想說跑起來看一下效果怎麼樣,但學長一直不給人家看 說是之前搞錯 dataset,所以沒辦法直接在需求單位那邊用X
[閒聊]ChatGPT:區塊鏈與語言模型:數位革新的合力前幾天看到文章説 已經有人利用FB洩漏的資訊在筆電上實現類似ChatGPT的技術 所以我試著問GPT一些問題 獲得一些心得 分享給大家 所以以下的文章是ChatGPT寫的,包含標題XDD 有興趣請往下慢慢看~ (至於FB洩漏什麼 請自行搜尋 我網址沒存XD)- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
86
[問卦] 便宜又有效的鼾聲治療的卦?74
[問卦] 肥肥提離職被主管講玻璃心怎辦?87
[問卦] 什麼時候中華民國變嫌悪詞?55
[問卦] 如何問一句話就知道是一日球迷?39
[問卦] 林昱珉就是89界的天花板了吧?63
[問卦] 金馬獎是怎麼從收視破10暴跌到剩1點多的?37
[問卦] 那個...超思、光電、霸凌進度到哪了?29
Re: [新聞] 不婚不生、快樂一生 台灣生育率全球墊底35
[問卦] 台灣沒有除了棒球以外的新聞了嗎25
Re: [新聞] 不婚不生、快樂一生 台灣生育率全球墊底41
Re: [新聞] 快訊/雲林縣女議員遭「逆向汽車撞飛」21
Re: [新聞] 不婚不生、快樂一生 台灣生育率全球墊底5
[問卦] 這個月的發票特別好中?21
[問卦] 采盟臉書FB在哪? 想上去留個言13
[問卦] 12強會不會很快就玩不下去?19
[問卦] 被祝福全家死光怎麼辦17
Re: [新聞] 不婚不生、快樂一生 台灣生育率全球墊底14
[問卦] 吃檳榔真的會提升專注力嗎?6
Re: [新聞] 中華隊慘變配角!采盟董事長搶蹭C位合照15
[問卦] 阿信怎麼唱的跟坨屎一樣啊?3
[問卦] 逆風一下 被兩天棒球文洗版不煩嗎?19
Re: [問卦] 中天新聞記者道歉13
[問卦] 剛學滑雪,選Ski還是SB?8
[問卦] 為什麼昨天有些人罵完采盟今天突然安靜了9
[問卦] 八卦版人氣怎麼那麼慘6
[問卦] 33處男群創買31永信建買300還套其他怎11
[問卦] 采盟免稅店幹嘛關臉書?11
[爆卦] Neuralink準備進行意念操作機械手臂試驗11
[問卦] 現在有錢人的定義8
[問卦] 吃檳榔不好嗎?