Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

DrTech 發表於 2023/10/9 下午2:53:30

看板Soft_Job標題Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套作者

(竹科管理處網軍研發人員)時間Oct 9 14:53:30 2023推噓52 推:54 噓:2 →:94

※ 引述《gaymay5566 (feeling很重要)》之銘言：
: 中央研究院詞庫小組（CKIP）
: 中研院資訊所、語言所於民國75年合作成立
: 前天釋出可以商用的繁中大型語言模型(LLM)
: CKIP-Llama-2-7b
: 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎
: 再補強繁體中文的處理能力
: 參數量達70億
: 模型可應用於各種領域
: 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
: 但實際測試後
: https://i.imgur.com/phwhfcl.png

: https://i.imgur.com/O1P6HpS.png

: https://i.imgur.com/cMnCbI8.png

: 測試網頁：https://reurl.cc/q0rbqn
: 拿這種東西出來交作業太扯了吧
: 根本就是簡體直接轉繁體而已！
: 中研院資訊所耶拿這種軟體來騙
: 更新：被發現後悄悄地撤下來了
: https://i.imgur.com/sy7rLgt.png

小弟待的公司，非學術單位，
可能是台灣硬體計算資源稍微豐富的公司。
公司投入在買GPU 應該近億了。
自己也研究了幾個月 fine-tune 方法。
不過，還是沒足夠能力與資源訓練正常的LLM。

主要卡在三方面：

1.資料面，會卡什麼？：
並不是像版友們說的：繁體中文語料過少，
這根本不是一開始會遇到的問題。

光是 Common Crawl 真的有人去看繁體中文的量有多大嗎？有人願意像Meta一樣去處理清洗資料後再去訓練嗎？

光是處理資料，所需的硬體採購，
大概要到一億新台幣來建置機房。
這還是稍微能用而已。
繁體中文資料難蒐集根本是假議題。

你的公司，沒錢買設備，沒資源
不願意讓你投幾億成本處理清洗資料才是事實。

我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。
資料只能用玩具級的做法來做。
到處砍，到處刪CC的資料。

而且該論文也說了，自己只是 fine-tune別人的Bloomz 模型，不是從新訓練。
嗯，光是模型大小，1B1或3B的，聯發科語中研院就"沒有能力"重新訓練了好嗎。

看了只fine-tune LLaMA-2-7B這種等級的模型。
大概也很容易說明了，硬體經費根本不足。
這種經費會卡到的不是繁體語料不足，
而是根本沒機器或資源給你清洗處理資料。

2. 訓練模型會先卡什麼？

目前，台灣任何一個單位，根本沒能力研發LLM模型架構。台智雲，中研院，或其他任何單位。
都是基於LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。

而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已，完全沒有任何技術門檻。
(只有誰願意採購幾千萬硬體的門檻而已)

所有不拿大量通用資料，只 fine-tune少量資料
都有一個問題：
你可以over-fitting去嵌入所有你想要的模型輸出文字，但災難性遺忘所有通用知識。

同樣的，你可以控制模型永遠只輸出英文與繁體，只輸出台灣知識。但模型的通用性，絕對是差到不能用的。

所以台智雲，或中科院這種等級訓練出來的模型，通用型有待商確，可能問一些很基本的常識就掛了。

這不會先卡到中研院CKIP技術太差，
(我是非常敬佩CKIP這幾年的努力的)

會先卡到的是：
是否願意投個幾十億建立基礎訓練平台而已。

如果沒看到一個像樣的訓練平台，千張 A100這種等級的。
短視到只願意fine-tune
輸出少數大家想看的輸出，
當然永遠災難性遺忘通用能力。
永遠沒有一個可商用，可通用的機會。

當然也可以用雲計算租GPU，但是費用也不便宜，沒丟個幾億都是不夠的。
國家要給中研院幾個億去玩LLM，
會先被輿論幹翻吧。

3.人才面

台灣並沒有很多人在真正訓練/微調LLM。

你去看各種AI研討會，或所謂都LLM專家，幾乎都是在吹自己的prompt如何試錯。
在吹自己怎麼用OpenAI的API。

其實人才的建立，最先卡的也不是沒錢。

中國人，一堆只有幾萬元台幣的消費級顯卡的人，都在fine-tune LLM了，其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。

在台灣各種專業研討會，做prompt trick的人，比傻傻的在處理資料，training/fine-tune模型的人，紅很多。人才與風氣走偏了。

能用 prompt 就能獲得大量經費，成為專家，誰願意研發training/fine-tune技術。

結論：
小弟是很看好中研院的能力，可惜整個台灣AI風氣，與商業玩法，技術再強的人，大概都難以發揮。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣)

※ PTT 網址

推

luckyalbert10/09 14:59數發部那兩百多億真的不知道在衝三小用的

推

rabbitu0410/09 15:01都可以花十幾億弄個不能用的球場了我們國家很有錢的

→

rabbitu0410/09 15:01黨要不要而已

推

NDark10/09 15:11推

→

qwas6516651610/09 15:14不同預算直接比跟算營養午餐那套有啥差別，問題在

→

qwas6516651610/09 15:14好多公司上層都在吹自家有微調大模型的能力，結果

→

qwas6516651610/09 15:14給的機器少得可憐，再怎麼厲害的人也無能為力

推

qwas6516651610/09 15:19如果能理解"給多少資源做出來就是多少能力"還好，

→

qwas6516651610/09 15:19怕的是你做出來老闆叫你跟OpenAI的大模型比

推

drysor10/09 15:36推～

推

luckyalbert10/09 15:40很多公司房營收獲利來源就跟鬼島政府一樣短視近利，

→

luckyalbert10/09 15:40僅靠擁護某些人的利益卻想藉由搶/死他人來獲益，對這

→

luckyalbert10/09 15:40類人而言能做的僅次於一樣的無能及可悲。這年頭各種

→

luckyalbert10/09 15:40事情及衝突其實已經跟所有人告誡，從各面向觀之，只

→

luckyalbert10/09 15:40想賺自己的那些終究會葬送在自己的手裡，並且把整體

→

luckyalbert10/09 15:40環境弄成一攤死水

→

luckyalbert10/09 15:42出張嘴短視近利靠混及騙來的不代表你多厲害，反而還

→

luckyalbert10/09 15:42會有更多產業內外的人們，因你（這類人）在位而被害

→

luckyalbert10/09 15:43@抱歉SE鍵盤太小打錯字是公司方*

→

luckyalbert10/09 15:44那還不如不要無腦就跟著做下去更好

推

Csongs10/09 16:00台灣公司一堆稱有ai單位,也沒做出什麼東西嗎

推

luckyalbert10/09 16:02我原醫藥產業各式台外商政商及其各式職司就更不用提

→

luckyalbert10/09 16:02，那種情況比科技業能有準則判定立馬有成效數據孰優

→

luckyalbert10/09 16:02孰劣更明顯，而且動輒國際及國家資源獨寡占上兆耗費

→

luckyalbert10/09 16:02而言資源偷拐搶騙比科技業跟軟工還誇張的可怕，目前

→

luckyalbert10/09 16:02我原產業得志又得利的小人們佔多數，拿他們沒辦法而

→

luckyalbert10/09 16:02且他們各式所為還不會被評判攻擊的這麼明顯，反過來

→

luckyalbert10/09 16:02其他人還會被這些人評判，錯誤方變成對的那一方，對

→

luckyalbert10/09 16:02的變成錯誤方還要被要求檢討自己來證明這些人沒問題

→

luckyalbert10/09 16:02，更莫名奇妙，中研院現在那個生醫園區及我原產業那

→

luckyalbert10/09 16:02些人們，以後挖台灣的錢更是會用比這還誇張的莫名奇

→

luckyalbert10/09 16:02妙手腕，這模型看起來跟我原產業的人們相比真的小太

→

luckyalbert10/09 16:02多

→

ttss409210/09 16:06台灣永遠只有第一波玩的到，後面要玩資本的永遠跟

→

ttss409210/09 16:06不上

推

luckyalbert10/09 16:20資本跟國力蠻有關的，如果台灣自己又再內鬥內耗，這

→

luckyalbert10/09 16:20塊輸別人（尤其是對比歐美而言，他們的國力本來就很

→

luckyalbert10/09 16:20夠用）真的是正常

推

MoonCode10/09 16:49

推

drajan10/09 18:20結論是人才很好但沒錢？你知道數位發展部的年度預算有多

→

drajan10/09 18:20少嗎？我國政府有的是錢只是不是拿來投資用的而已

→

drajan10/09 18:20LLM也算是數位發展部的範疇吧？

推

yiche10/09 19:15協尋數發部…

推

d888810/09 20:14

推

cobrasgo10/09 20:33只覺得很悲哀

噓

tomdavis10/09 20:43倒果為因了就是卡住所以只能往prompt發展

推

ouryouth10/09 20:44推

噓

tomdavis10/09 20:46消費級顯卡fine tune LLM? 你當LLM多小...

推

prag22210/09 21:02現在平民老百姓要學的是如何應用AI..

推

johnbill10/09 21:12資料處理費時燒錢老闆不喜歡嘻嘻

→

milk83012210/09 21:30有數發部這種頂級單位幹嘛搞研發

推

htang1710/09 21:391080Ti就可以fine tune Bert啊，樓上在噓啥

→

htang1710/09 21:40CKIP真的值得敬佩

→

htang1710/09 21:41希望那些酸言酸語不要影響到研發人員的心情

推

NCUking10/09 21:50BERT 稱不上是 LLM 吧

推

NCUking10/09 21:52消費級顯卡可以搞 LoRA 啊

推

fantasywater10/09 21:56趨勢很明顯，學怎麼應用AI就好，以後AI底層架構會

→

fantasywater10/09 21:56跟程式語言底層一樣都是米國的知識產權。

推

popeye030310/09 22:49抱歉家裡失業6年自稱理工醫文法商的精障最近燥期到

→

popeye030310/09 22:49了

→

popeye030310/09 22:49https://bit.ly/3Q5LUxO

推

k79897686910/09 22:52有200多億可以租啊不想而已

推

dlshao10/09 22:55沒人願意清資料政府不願意帶頭投資硬體乖乖用對岸開源的

→

dlshao10/09 22:55的別幻想自建LLM了啦

推

DaOppaiLoli10/09 22:58台智雲那段我想提醒一下，一開始他們是用 BLOOM 176

→

DaOppaiLoli10/09 22:58B 下去訓練，當時（推測是二月開始訓練） QLoRA 即

→

DaOppaiLoli10/09 22:58使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的

→

DaOppaiLoli10/09 22:58，但我想 AFS 訓練千億級參數量模型的能力應該還是

→

DaOppaiLoli10/09 22:58有的。只是說台智雲這個系列的模型是閉源的，所以也

→

DaOppaiLoli10/09 22:58不會被大家拿來檢視與挑戰就是了。

→

milk83012210/09 23:04不用跟某人吵吧沒用還有快去就醫他在ptt各板被桶光

→

milk83012210/09 23:04不知道現實會做出甚麼XD

→

DrTech10/09 23:44台智雲前陣子發新聞稿，最新模型是用LLaMA 2+Qlora訓練的

→

DrTech10/09 23:44。

→

DrTech10/09 23:56另外，有人提到消費級顯卡無法fine-tune LLM，可以說為什

→

DrTech10/09 23:57麼嗎？。實際上 4090，筆電16G，桌電24G，真的夠fine-tune

→

DrTech10/09 23:57 中研院這種等級(7B)的LLM 阿。

→

DrTech10/09 23:59消費級顯卡，硬是要訓練成大家期待的輸出，或政府愛看的輸

→

DrTech10/09 23:59出也沒什麼問題，只是通用性絕對不高而已。

推

DaOppaiLoli10/10 00:01那個應該是指說他們推出了 Llama2 繁中版，「另外」

→

DaOppaiLoli10/10 00:01還提供了 PEFT 訓練方法可供選擇，但是並沒有明確指

→

DaOppaiLoli10/10 00:01出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友

→

DaOppaiLoli10/10 00:01用過 AFS Demo，當時 FFM 176B 也是 Full Fine-tuni

→

DaOppaiLoli10/10 00:01ng，感覺沒什麼道理參數量少了反而倒退嚕。不過他們

→

DaOppaiLoli10/10 00:01是主打算力平台，模型的提供並不是真正的重點，只是

→

DaOppaiLoli10/10 00:01讓客戶有比較多選擇而已。

→

DaOppaiLoli10/10 00:01新聞稿參考

→

DaOppaiLoli10/10 00:01https://tinyurl.com/2wzxxyx9

推

sumsum10/10 00:06天才IT大臣除了租辦公室到底都做惹啥ㄚ

推

alan510/10 00:19房價那麼貴公司是怎麼買機房放機器

推

luckyalbert10/10 00:47LoRA基本到連我這外行人都會xD

→

luckyalbert10/10 00:51我在各板遇到的各式ID中有幾個神經病真的不知道誰家

→

luckyalbert10/10 00:51養著的長期發瘋抹黑跟騷誹謗造謠貼標說謊人身攻擊站

→

luckyalbert10/10 00:51方放任這些神經病在發瘋，真不知道這些小人們到底都

→

luckyalbert10/10 00:51是誰家給錢養著的瘋子有病的貼別人有病，沒病的路人

→

luckyalbert10/10 00:51正常平台國家學術資源使用者你我被洗成有病，噁爛到

→

luckyalbert10/10 00:51炸

→

ccas10/10 05:24其實在中研院說要自己弄的時候，大家就在說不可能了

→

ccas10/10 05:25現在只是醜婦見家翁而已，沒有多少人真的期待那一點預算就作

→

ccas10/10 05:25出來一套跟別人百倍、千倍預算相比的吧？

推

genic10/10 08:43天才IT 大臣加上幾百億的預算你跟我說沒有錢沒有人

推

tommytyc10/10 09:31推

推

yuinami10/10 09:39推

推

francej10/10 09:48問題是真投了幾百億幾千億也賺不了錢

→

francej10/10 09:49台灣還是專心做GPU硬體生產就好

→

francej10/10 09:50與其把資源放在搞沒錢途的AI 還不如把錢投注在硬體架構

→

francej10/10 09:53要說聯發科哪天能分杯羹Nvidia的市場還比較能想像

推

Lhmstu10/10 10:30把數發的200億移過來用不就好了？200億應該夠了吧

推

DellSale99910/10 11:02這才是台灣的價值

→

GrayHS10/10 11:05黨不喜歡有人說實話

推

w2810356610/10 11:08先裝潢再說

推

WaterLengend10/10 12:06有錢但是不分你啊

推

markbex10/10 12:11推說明 AI基礎建設就是砸錢政府有沒有決心去推很重要

推

jack52910/10 12:32現在的政府不用想了吧，國家從上到下都在短視近利

→

k79897686910/10 16:24不用幻想文組法律系當頭的政府有啥撈快錢之外的目標惹

→

k79897686910/10 16:24啦經濟部還想補助中小ic設計商先進製成總經費8億是

→

k79897686910/10 16:24要笑死人老人只能玩蓋蚊子館撈錢啦

推

Belieeve10/10 16:48推分析，另真的不管錢投在哪裡就是會有帳號冒出來罵翻，

→

Belieeve10/10 16:48看推文就知道

推

markbex10/10 19:03每次提到「政府」就有人來亂酸...好好討論不行嗎

→

milk83012210/10 19:20好好面對現實不行嗎為什麼會有人講政府又不是無中生

→

milk83012210/10 19:20有

推

fallcolor10/10 21:12clean data需要億級硬體設備可以分享一下原因嗎

→

fallcolor10/10 21:12是後處理的資料存儲問題嗎

推

alex78031210/10 22:13在公司內很難說服主管像中國那樣做資料集和開源模型

→

alex78031210/10 22:13，然後別人一推出新模型就開始瞎緊張，完全沒有長期

→

alex78031210/10 22:13規劃的能力

推

opencat10/10 23:27對岸有國產搜尋引擎或問答平台比較容易累積資料

→

opencat10/10 23:31台灣的玩法應該是不會重頭弄只能外包請人做資料審查

推

cancelpc10/11 06:26蛋塔一樣，外面紅啥，政府就跟著喊，然後補助一堆學院，

→

cancelpc10/11 06:26大量產出紙上作業的人

→

greenx10/11 06:40看xx部台灣不缺你說的這點小錢用在哪而已

推

neo527710/11 07:45這很台灣

推

ko36363010/11 10:21推分析鬼島有鬼島的玩法

推

sssyoyo10/11 10:31200億拿去點麵線、裝潢、出國考察也不願意投資未來最重要

→

sssyoyo10/11 10:31的AI，這就是鬼島玩法

推

IMBonjwa10/11 13:16不同意樓上。原Po第二點就有提到

→

IMBonjwa10/11 13:19是否跳進這個燒錢的軍備競賽而排擠其他項目，才是真的

→

IMBonjwa10/11 13:19命題

推

elves10/11 13:41所以有人說得出兩百多億具體端了什麼成果嗎

→

francej10/11 14:36真的很難想像台灣本土LLM 能賺到甚麼錢

→

francej10/11 14:37對岸不會用歐美日也不會想用只能島內自己用

→

francej10/11 14:38這樣講起來 200億拿去點麵線至少能讓肚子吃飽是還比較

→

francej10/11 14:38實在

推

hoesi10/11 15:45實在個雕，點麵線已經有現成的外送app，你做一樣定位的東

→

hoesi10/11 15:45西幹嘛

推

ko36363010/11 16:21點外送不是就有現成app了?

推

Mchord10/12 10:03就是因為有現成的他們才想做啊XD

推

knme10/12 12:39推推之前碩班做相關研究後來因硬體資源不足就乖乖去業界

→

knme10/12 12:40學術單位做研究本來就是針對某環節進行優化改善而已

同系列文章

Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

```
 3 
```
alex780312：身為LLM猴子，大多同意DrTech的看法，只是台智雲這塊有點不一樣。其實台智雲有幾乎一半台灣杉2號的機器可以用，也克服很多開源軟體無法解決的問題；例如硬體是V100不是A100，又要能夠做3D model parallelism，又要同時能跑LoRA，RLHF，在100Gbps網路中維持GPU使用率滿載等等。在meta llama出來之前，

其他人也閱讀了

PTT 熱門相關