Re: [爆卦] 中央研究院詞庫小組大型語言模型

sxy67230 發表於 2023/10/9 下午8:07:05

看板Gossiping標題Re: [爆卦] 中央研究院詞庫小組大型語言模型作者

(charlesgg)時間Oct 9 20:07:05 2023推噓 2 推:3 噓:1 →:8

※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言：
: ※ 引述《gaymay5566 (feeling很重要)》之銘言：
: : 看到這篇真的龜懶趴火
: : 語氣還真的他媽的大啊敢嗆鄉民去上LLM課程啊
: : 誰不知道LLM的正確率一定會有誤差？
: : 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套
: : 且直接用opencc大量將簡體資料轉繁體資料！
: : 這很嚴重啊
: 那是政治上的問題，我說的是說中研院直接拿Atom-7b模型來用的這件事
: 我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分
: https://chinese.llama.family/
: 你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立
: 的國家
: https://i.imgur.com/0QIwKLT.jpg

: 中國是否擁有台灣的主權?
: https://i.imgur.com/ENwsZef.jpg

: 蔡英文是台灣人還是中國人
: https://i.imgur.com/DZjBeAG.jpg

: 六四天安門的真相是什麼？
: https://i.imgur.com/G1EleiR.jpg

: 這個模型的研發團隊為何？
: https://i.imgur.com/DXTrDM8.jpg

: 各位可看一下，原本Atom 7B的模型回答的問題都還算中肯而且更完整，而且也沒有什: 麼硬要把台灣變成中國的一部分
: 也就是說，這個模型在被中研院finetune之後變成了一個賣台製仗
: 拜託，千萬不要說這是簡轉繁或是直接拿結果來交差好嗎？

阿肥外商碼農阿肥啦！

今天忙到剛剛才看到這篇，先說derek大大有點避重就輕的點，

大家都知道LLM就是一個機率模型，更正確來說應該是一個生成式模型，概念就是他從訓練數據集當中去模仿數據源的分佈。

當然，我相信這絕對是中研院自己finetune的，也不是說只是拿別人模型出口接了openCC這件很low level的操作。

問題就再拿了一個在簡中finetune 的模型又拿了簡中數據源然後用了OpenCC翻譯數據集就拿來tune這件事情。你可以去看看CKIP去拿了COIG-PC這個開源簡中數據集，前面幾個就出現中華人民共和國的刑法，這個數據集要拿來tune繁中肯定有問題的，就是我下午說的拿明朝的劍斬清朝的官，而且研究員肯定沒看過數據跟分析過這在ML/DL領域超級低端的錯誤。

再來你說的OpenCC轉換這點就蠻明顯的讓我有點懷疑可能研究員要嘛新手要嘛上頭老闆壓力，因為很明顯模型確實學習了大量openCC的翻譯錯誤，像很多人之前試到的模型輸出小喫的機率比小吃更高，明顯就overfit到研究員喂給他的Garbage dataset了。

至於說，CKIP可以辯解說，我們確實沒有隱瞞也確實提升了繁中能力，那我認真覺得如果我們只是希望模型輸出全繁中而不在意希望模型學會繁中文化跟台灣環境的流行用語的話，那我們直接拿英文數據做機翻不是更快更有效？！英文數據還取之不盡，英文to繁中的翻譯模型開源的現在也一大堆，翻譯品質也算堪用。

而且真的要做這件事情也不用中研院來做。阿肥我直接業餘一個禮拜直接搞定，阿肥之前也訓練過一堆這種tune壞的Garbage LLM，現在訓練接微軟的deepspeed又快又無腦，Nvidia最近也釋出自己的訓練框架，config調一調我連code都不用自己寫，現在一張4090就可以tune起來7b模型了，幹嘛要你中研院來做？！

而且tune壞的部分我要finetune還要加數據把他tune回來，那我直接拿Atom 7b原生做就好了啊！

唉～

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.122.54 (臺灣)

※ PTT 網址

→

Jason0813 10/09 20:09嗯嗯原來如此

噓

gay7788 10/09 20:10阿所以中研院的廢文製造機怎麼會回出這

→

gay7788 10/09 20:10種廢文啊

→