Re: [問卦] 中研院自己做的大型語言模型怎麼了？

sxy67230 發表於 2023/10/9 下午2:34:24

看板Gossiping標題Re: [問卦] 中研院自己做的大型語言模型怎麼了？作者

sxy67230

(charlesgg)時間Oct 9 14:34:24 2023推噓55 推:58 噓:3 →:49

PTT評價

※ 引述《messi5566 (虹粉)》之銘言：
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png

: https://i.imgur.com/BJIxJY6.png

: 請問繁體中文的任務內容是把簡體翻譯過來嗎
: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat

阿肥外商碼農阿肥啦！

昨天晚上都在跟獵人直播來不及趕上大型翻車現場，這邊中午看hugging face hub還
可以進去，但現在已經進不去了。

這邊阿肥就直接說，基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較早期做的自己完全從零訓練的語言模型外，大家都是從meta 的llama魔改的，差別在於預訓練或微調的數據源跟一些微調小細節而已。

然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟作者說的訓練數據源來看細節藏在魔鬼裡。

首先，依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練，理論上原生的meta llama 2的vocabulary size是32000，然後當前對岸開源的簡中llama2 vocabulary size 是 55296，CKIP開源的那個看起來是65000。

理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的，所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。

此外，這兩個數據集都是簡中數據集，中研院不知道哪個阿天以為只要opencc 簡轉繁就可以訓練，完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做評測，根本是拿明朝的劍斬清朝的官。

當前政府一堆研究單位早就落後中國不止一輪了，人家中國四五年前就砸哈工大幾億人民幣再做簡中數據集了。

那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始，建立屬於台灣自己的數據集，結果過了幾年中研院依然是畫大餅的單位，年初阿肥參加過幾個會議聽到中研院再那邊高喊要要做自己的LLM，阿肥還以為中研院自己秘密建立了一套數據中心，想必一定砸大錢，結果竟然是拿對岸的數據訓練，也不知道哪個天才研究員覺得只要簡轉繁AI就會自己講台灣用語。

唉～

這邊註一下：
Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會的Token，詞會儲存起來對應成ID，AI模型其實真正預測的是這個詞表的ID最後再轉換回人類有辦法閱讀的中文或英文字。

C-Eval是中國清華北大釋出來的評測集，簡單理解就是AI輸出的文字跟人類的回答有多接近，他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專業領域知識。

以上

阿肥自己目前也在幫公司做繁中的語言模型，目前阿肥因為繁中數據有限所以
阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答，敢這樣做到那麼通用還不是拿自己的
大量數據集來訓練，我感覺CKIP可能要有大地震了。

呵呵….

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣)

※ PTT 網址

推

derekhsu 10/09 14:35中研院有說是從Atom-7b微調喔

Atom-7b就是對岸業餘人士拿Chinese llama調出來的，你怎麼會覺得沒有簡中的數據分佈？

推

andy00andy 10/09 14:36Opencc不是有簡中轉繁中用法的功能嗎

→

andy00andy 10/09 14:36？還是那個不夠準確

OpenCC很多用語還真的就不會轉，像公交車就直接簡轉繁變繁體的公交車，你要額外增加詞彙他才會轉，但他的做法就是遇到同樣的詞就取代，像港語的的士你直接把他加進去就全部把你文字裡面的「的士」轉成計程車。。

推

dhccc 10/09 14:37基本上現在要訓練公司內部用的

→

dhccc 10/09 14:37Llm也有點苦惱中文資源都是對岸用語也是

推

renna038766 10/09 14:37講的你比杜奕瑾還厲害好了啦

呵呵

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

推

derekhsu 10/09 14:38台灣就沒模型沒算力沒資料，三無怎麼打

推

firose 10/09 14:38台灣又浪費了幾年時間了

推

salamender 10/09 14:39這個id被創世神勾勾再中共同路人那邊

推

f12sd2e2aa 10/09 14:40所以說三無就放推那養中研院幹嘛關

→

salamender 10/09 14:40，你準備好被肉搜了沒？

→

f12sd2e2aa 10/09 14:40一關好了浪費稅金

推

iopzu3lv0 10/09 14:41不是有姓杜的AI大神？快出來拯救世界

推

stlinman 10/09 14:41好奇自己餵資料養數據庫，成本很高嗎？

要建自己的data pipeline跟data center啊！有些專業領域數據就要用買的，撈回來的文字資料一定有很多雜訊跟給電腦識別的tag要清，每一個都是成本，然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的句子來調，最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊，你覺得維護成本低嗎？

→

yesonline 10/09 14:42可以拿近8年中央政府新聞稿訓練啊..

→

yesonline 10/09 14:43怎麼會沒資料.繁體資料可多著呢..

推

s900527 10/09 14:43綠共塔綠班政府~只會大內宣而已~

→

s900527 10/09 14:43專門騙台灣智障人民就夠了

→

yesonline 10/09 14:44各部會公開資訊也能用. 只是要不要做啦

→

enthpzd 10/09 14:47講中文好嗎

推

afking 10/09 14:48這麼閹割的東西就會被靠北上新聞了，怎麼

→

afking 10/09 14:48覺得上面會給資源燒錢做數據集笑死

推

zweihander99 10/09 14:49竟敢說台灣落後對岸，你完惹

推

Caroney 10/09 14:52國科會那邊也是一堆畫餅廢物「創造具台

→

Caroney 10/09 14:52灣特色的chatGPT」

推

lonelyQQ 10/09 14:54翻譯台灣應該全面使用支語

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18

推

depo 10/09 14:57這方案主管全部槍斃阿

推

greg7575 10/09 14:59民進黨又不台獨，用一下簡中還好吧

推

ks454 10/09 14:59成本巨大，中研院最好是知識圖譜做好就套小

→

ks454 10/09 14:59範圍，出通用一看就不可能

推

greg7575 10/09 15:01逆變器什麼的都買支那，愛台灣就對了

推

gamete 10/09 15:01連收集資料都懶得做，這還叫做研究單位

→

greg7575 10/09 15:02看這個案子開多少錢啊。錢不夠就偷

→

yesonline 10/09 15:06數位部/國科會/中研院/工研院都有預算

推

dhccc 10/09 15:07出錢給台大李宏毅老師弄一個就好了看他教

→

yesonline 10/09 15:07一堆相似的研究計畫提案...

→

dhccc 10/09 15:07得有模有樣的

推

riker729 10/09 15:10不是你以為中研院是養老院是說假的?

推

CaTkinGG 10/09 15:11感覺又浪費了好幾年

→

riker729 10/09 15:11人家做了好幾年大紅之後我們才來一窩蜂

推

leisureman 10/09 15:16https://i.imgur.com/TT58ZZC.png

→

alan3100 10/09 15:16政府本來就脫離現實很多剩一堆老害主導

→

alan3100 10/09 15:17之前喊啥元宇宙都破滅幾年了才鴿子封包

→

alan3100 10/09 15:19政府與裙帶企業有非常高的政商關係壁壘

→

alan3100 10/09 15:20高手才不會進去淌渾水錢少熱臉貼冷屁股

推

yannicklatte 10/09 15:20你去選根路燈吧

推

WantFxxk4X 10/09 15:20台灣大灑民脂民膏至少領先柬埔寨看衰

→

WantFxxk4X 10/09 15:21台灣藍白真噁

→

alan3100 10/09 15:21剩一堆垃圾在同溫層互相取暖

推

strikecbu 10/09 15:23好大喜功的內閣繼續騙

推

newforte 10/09 15:24台灣日常

推

tsrn46336686 10/09 15:28成本巨大有什麼問題這種成本除了中

→

tsrn46336686 10/09 15:28研院還有誰可以做更簡單說台灣是繁

→

tsrn46336686 10/09 15:28體中文大本營更應該由國家做數據中

→

tsrn46336686 10/09 15:28心吧

推

BIGETC 10/09 15:29有兩百億預算的數位部和天才it大臣中國那

→

BIGETC 10/09 15:29點玩具模型還不是

推

luciffar 10/09 15:30跟高端系出同源一樣我懂

→

ChungLi5566 10/09 15:31餵垃圾去訓練就只會訓練出垃圾

推

KKevin5566 10/09 15:31党不喜歡你這種人

→

ChungLi5566 10/09 15:32要訓練的資料必須先清洗過

推

dtdon1699 10/09 15:38中研院代工廠

→

alan3100 10/09 15:41做這個成本遠超你想像一直燒錢不是單次

推

Mchord 10/09 15:45加碼改善油水肥滋滋那需要什麼大地震

推

Violataf 10/09 15:50不太懂他們的腦袋在想什麼

→

Violataf 10/09 15:50拿對岸的來簡轉繁最後一定會出問題的阿

推

jerry8507 10/09 16:02推推專業

推

Rootless 10/09 16:09一樣花了大錢啊，細節不重要啦，40%

噓

rhox 10/09 16:14你有中研院的人厲害嗎? 閉嘴

推

banana246 10/09 16:16什麼黨再補助一百億給我加強

推 MicroB: 敦義:你不要這麼專業好不好? 50.126.66.214 10/09 16:19

推

silentneko 10/09 16:22推一下假裝我有看懂

推

RLH 10/09 16:24台灣這20多年不知道在幹嘛

→

Spurious 10/09 16:25中研院這次壞了自己名聲

推

spring719 10/09 16:25林北文組，看不懂

推

richard88502 10/09 16:29資料清洗比訓練還要累多了，有在fin

→

richard88502 10/09 16:29etune的應該都有感覺

其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化，光是弄得好模型就夠漲好幾個百分點了，比去想什麼fashion的模型架構還有用。OpenA I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。

推

teariceooo 10/09 16:33專業推雖然看不懂

推

mcgrady12336 10/09 16:37AI就美中大戰，台灣乖乖做代工就好

→

ralfbrian 10/09 16:40研究單位的話，說不定有人是中國來的，

→

ralfbrian 10/09 16:40覺得只是簡轉繁沒關係

→

azure 10/09 16:45等等講這些前有想過党不喜歡聰明的孩子嗎?

推

aj1234 10/09 16:50那我這邊有一筆社群網站的繁中資料，我記

→

aj1234 10/09 16:50得是兩三百萬筆，是不是就變得蠻值錢的

推

leterg 10/09 16:54台灣只會喊大數據，其他沒了

→

leterg 10/09 16:56中國那邊資料的確多，尤其知識型的

→

s90002442 10/09 17:02中研院要不要把一些大餅計畫砍一砍集

→

s90002442 10/09 17:02中火力在重要的計畫比較實在

噓

DA3921999 10/09 17:10養黨工不用錢？養側翼不用錢？養圖文畫

→

DA3921999 10/09 17:10家跟YTBer？別拿中國不用養這些狗的標

→

DA3921999 10/09 17:10準來看台灣

推

lunatich 10/09 17:13上面又不懂技術，只押著你急著做出東西

→

lunatich 10/09 17:14大內宣，下面就只能拿現成的改改交交差

→

lunatich 10/09 17:14嘍

推

amethystboy 10/09 17:30我宣佈以後臺灣都叫公交車

推

jeson711 10/09 17:44就做出來看起來像騙騙不懂的

→

modernpkman 10/09 17:46數位部？跟這個會有關聯嗎？

推

StarCat76 10/09 17:50台灣人做東西的調調就這樣，講求一個快

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38

→

haver 10/09 18:04雖然兩邊用語有越來越接近但還是有差別啊

噓

soy915221 10/09 18:15不就是懶到剩抄，抄到一字不變的，

→

soy915221 10/09 18:16不合格學生?中研院?你有在做事?

推

monnom 10/09 19:00推專業

推

shi21 10/09 19:02這篇專業推一個

推

germun 10/09 19:04不想花錢花時間花人力就只能抄阿抄抄抄

推

ericleft 10/09 20:50中研院的水準怎麼這幾年低落成這樣

推

rick917 10/09 21:31推專業

→

iMElLoN 10/09 23:25中研院不清楚，不過國科會（舊）確實是

→

iMElLoN 10/09 23:25畫大餅專門

推

dlshao 10/09 23:29推認真回覆…有在關注的深感認同

推

asmiocv 10/09 23:52看就知道沒錢弄出來交差的東西

推

photoswimmer 10/10 03:08台灣沒人會花錢做基礎的啦

同系列文章

[問卦] 中研院自己做的大型語言模型怎麼了？

其他人也閱讀了

PTT 熱門相關