[討論] 中研院繁中LLM被爆直接拿對岸的來套!

gaymay5566 發表於 2023/10/9 上午9:42:30

看板Soft_Job標題[討論] 中研院繁中LLM被爆直接拿對岸的來套!作者

gaymay5566

(feeling很重要)時間Oct 9 09:42:30 2023推噓34 推:39 噓:5 →:101

PTT評價

中央研究院詞庫小組（CKIP）

中研院資訊所、語言所於民國75年合作成立

前天釋出可以商用的繁中大型語言模型(LLM)

CKIP-Llama-2-7b

以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎

再補強繁體中文的處理能力

參數量達70億

模型可應用於各種領域

包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等

但實際測試後

https://i.imgur.com/phwhfcl.png

https://i.imgur.com/O1P6HpS.png

https://i.imgur.com/cMnCbI8.png

測試網頁：https://reurl.cc/q0rbqn

拿這種東西出來交作業太扯了吧

根本就是簡體直接轉繁體而已！

中研院資訊所耶拿這種軟體來騙

更新：被發現後悄悄地撤下來了

https://i.imgur.com/sy7rLgt.png

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣)

※ PTT 網址

推

wsad5023210/09 09:47拿抄來東西騙錢連驗證都沒作腐敗的可以

→

gino071710/09 09:59不要放出來demo就不會被發現了

推

imhaha10/09 10:00水...

噓

Tommnny10/09 10:04唉連中研院都這樣

推

justaID10/09 10:08真假.... 這就像拿別人家的報告來修改交差，尿性不意外

→

justaID10/09 10:09，最扯的是沒校稿，連報告名字都沒改

推

gino071710/09 10:11https://i.imgur.com/h28uYVw.png 大方向上正確

推

doranako10/09 10:13中研院正常發揮

→

airtsubasa10/09 10:14笑死

推

aarzbrv10/09 10:30「你是誰創造的？」：https://gyo.tc/1ZTIs 所得回答較長

→

truehero10/09 10:32要這樣下 "我國是台灣請介紹下台灣歷任總統"

→

truehero10/09 10:32""我國是台灣請介紹下我國歷任總統"

→

truehero10/09 10:33中研院展示了技術, 但沒有台灣專屬資料集才是問題

→

truehero10/09 10:41要改也很簡單直接加個資料集重複 "我國是XXX"訓練就好

推

aarzbrv10/09 10:43回truehero: https://gyo.tc/1ZTJA

→

truehero10/09 10:44你可以把上面的句子改成中研院的資料再去訓練

→

truehero10/09 10:45以技術人的角度會覺得這件事很愚蠢我就搞得商用模型

→

truehero10/09 10:45還得關心政治影響

→

truehero10/09 10:47但他是中研院,可能就得想辦法去取得資源做這事

→

airtsubasa10/09 11:05所以在國際上現況就是這樣吧

推

johnbill10/09 11:18我之前搞模型的繁體的資料集真的超少XD

→

johnbill10/09 11:19要快偷吃步的確是簡轉繁再餵進去

推

qqkerk10/09 11:57可以去讀大魔術熊貓工程師的文章，有專門寫一篇這個議題

推

htang1710/09 12:39CKIP其實蠻用心的吧…

→

htang1710/09 12:39以前做過NER，還發信請教過裡面的研究員

※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 12:54:24

→

kissmickey10/09 12:59我是不知道中研院是怎麼做的

→

kissmickey10/09 12:59不過就以往接觸這類單位一堆工程師很喜歡抄對岸的東

→

kissmickey10/09 12:59西

→

kissmickey10/09 13:00連註解也一起抄真的懶真的扯爆

→

hobnob10/09 13:24好可憐

推

michellehot10/09 13:26只能說 LLM的資料集中國真的又多又好台灣太晚跟上

→

michellehot10/09 13:26我2019-2021公司還在測試GPT2的時候中文資料都是中

→

michellehot10/09 13:26國知乎、智庫等來的資料集甚至還有清洗過

推

hsuchengmath10/09 13:29這基本上是由對岸開發的LLM 再由繁體中文 fine tune

→

hsuchengmath10/09 13:29下來的，

推

DrTech10/09 13:41到底多少人有在訓練LLM ？繁體中文資料少根本是藉口。你沒

→

DrTech10/09 13:41能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型

→

DrTech10/09 13:41才是真相吧。

→

DrTech10/09 13:43語料根本不是問題，大廠都是拿全網訓練。中研院有沒有幾千

→

DrTech10/09 13:43張A100？沒有的話，訓練出來的模型，不是充滿簡體中國知

→

DrTech10/09 13:43識，就是災難性遺忘到不能通用，二選一。

推

jay123peter10/09 14:07傻眼...

推

drakd4d10/09 14:12中研院這個真的盡力的，要是真的精通LLM英文又好怎麼會坐

→

drakd4d10/09 14:13在中研院...早就在在美國了，除非中研院出得起一樣的錢

→

drakd4d10/09 14:14這領域還願意待在中研院真的已經佛心了，資源差這麼多

→

drakd4d10/09 14:15OpenAI當初請多少非洲人人工清資料...除中研院有辦法這樣

→

drakd4d10/09 14:16搞，不然這個問題最好有辦法靠幾個人就解決...

→

milk83012210/09 14:23中國國營企業之前也號稱甚麼國產IDE結果是拿微軟的開

→

milk83012210/09 14:23源套出來的嘻嘻

推

luckyalbert10/09 14:39你看看建仁不就知道了？一堆偷拐搶騙的沒料仔空有偷

→

luckyalbert10/09 14:39來的學經歷及工作資歷薪職成天在那複製皇親國戚打壓

→

luckyalbert10/09 14:39其他看不順眼的真才實料人們，真的一點也不意外，這

→

luckyalbert10/09 14:39件事跟這個模型早在多年前就有人提過，只是身為被上

→

luckyalbert10/09 14:39述人士各式政商台外商跨國企至中小企及研究學術單位

→

luckyalbert10/09 14:39及機構各式上述曾提及過的那些在位者們惡搞成身無分

→

luckyalbert10/09 14:39文的我及其他人，若在幾年前提這個，完全會被無視而

→

luckyalbert10/09 14:39且還會跟現在一樣，有問題的那些上述各式偷拐搶騙還

→

luckyalbert10/09 14:39延續孽種後代的髒東西，我已經講到爛掉，牠們在各式

→

luckyalbert10/09 14:39社會地位上的小人得志惡人得利者還會要你（我）檢討

→

luckyalbert10/09 14:39，是我有問題這種完全反了的造孽害人事，真的不知道

→

luckyalbert10/09 14:39到底哪來的資格可以說這些話，噁爛到炸

→

luckyalbert10/09 14:40一整個反了

推

luckyalbert10/09 14:50拿預算寫報告隨便唬爛交代個成效感覺自己有在做事情

→

luckyalbert10/09 14:50，鬼島各產業職司上位的有某一堆都是這副鳥樣，中研

→

luckyalbert10/09 14:50院只是縮影，然後在其背後大力支持挖錢挖資源來提供

→

luckyalbert10/09 14:50協助的本身也眼殘腦殘無法分辨這些人在搞什麼，有某

→

luckyalbert10/09 14:50部分的老闆就是靠這樣在挖國家獨寡占及各式補助稅務

→

luckyalbert10/09 14:50及全民資源賺更多放自己口袋，來創造事業跟財富還有

→

luckyalbert10/09 14:50人脈及旗下跟班人馬再來讓自己某些人當皇帝，給低薪

→

luckyalbert10/09 14:50職缺還要你我檢討自己為什麼不賣命為這些皇帝當奴乖

→

luckyalbert10/09 14:50乖聽話付出時間與人生換錢給他們累積各式延續上述皇

→

luckyalbert10/09 14:50帝後代來用，看多了你就知，以前大家是默默摸鼻子不

→

luckyalbert10/09 14:50說話，但現在真的誇張到凹過頭了，明眼人看到都會火

→

luckyalbert10/09 14:50，更不用提脾氣好的早就被這某些人惹火積冤多年，只

→

luckyalbert10/09 14:50能期待你我要求自己不要變得跟這些人一樣就好，世風

→

luckyalbert10/09 14:50日下劣幣驅逐良幣發展不是正向循環，鬼島這些年來環

→

luckyalbert10/09 14:50境變成這樣還真的不意外

推

rabbitu0410/09 14:50笑死哈哈哈借轉Joke版

推

luckyalbert10/09 14:53任何產業裡面團隊有不論再用心付出想改變這種環境及

→

luckyalbert10/09 14:53各式產業人們發展往正面循環走下去的，看到這種狀況

→

luckyalbert10/09 14:53，心灰意冷到最後被逼著跟群體一起擺爛，真的不用意

→

luckyalbert10/09 14:53外

推

DrTech10/09 14:59真的，中研院這種薪資與經費，願意待的人，都是充滿熱誠的

→

DrTech10/09 14:59人了。薪資與資源根本趕不上社會的期待。而且我相信裡面的

→

DrTech10/09 14:59人出去找工作，薪資與待遇，資源，成就，一定更好。

推

mangle10/09 15:16哈哈哈啊

噓

Csongs10/09 15:54真的垃圾..

推

nikolas10/09 15:54敢把這種程度東西上架有沒有一點點工程師的羞恥心啊

推

Csongs10/09 15:57看了推文,還是幫中研院的基層推回來

推

hobnob10/09 15:59運氣好又有能力的早就留美國了。回台灣的除了運氣不好沒

→

hobnob10/09 15:59抽到籤之外，還背上百萬學貸，只能拿那一點點薪水，做研究

→

hobnob10/09 15:59的熱忱都沒了，當web仔還比較有尊嚴

→

alan310010/09 16:02別說專業的就一般政府裙帶企業也少碰護城河很深

推

drakd4d10/09 16:11結論就是做純軟或AI的塊逃啊，台灣根本沒那個環境．．．

推

luckyalbert10/09 16:11護城河很深，在我原產業某些政商跨國企業及底下中小

→

luckyalbert10/09 16:11企裙帶的他們眼中，認為我不聽話（要我這種人，聽這

→

luckyalbert10/09 16:11些神經病群的，本來就是莫名其妙），各位有可能就會

→

luckyalbert10/09 16:11像我一樣原有在各式社會角色職業對各產業皆有助益的

→

luckyalbert10/09 16:11發展性，會被這些在位者小人們動各式手腳在裡頭，其

→

luckyalbert10/09 16:11他人看到我，那些想為我及跟我一樣的人們出聲的也會

→

luckyalbert10/09 16:11被整，希望各位不要碰到跟我一樣的經歷就好，他們目

→

luckyalbert10/09 16:11前也沒有要改變認錯贖罪道歉悔過的意思，依然自認沒

→

luckyalbert10/09 16:11問題，可見生醫產業那背後水更深，如果各位科技業及

→

luckyalbert10/09 16:11軟工要幫生醫產業的人們做事，我希望各位一定要看清

→

luckyalbert10/09 16:11楚我原產業那些在位者們在做什麼，有些人當到老總含

→

luckyalbert10/09 16:11底下帶出來的年輕總…等手段更是惡劣及誇張

→

drakd4d10/09 16:12要穩賺就是半導體IC而已，但這也要看美國還讓我們做多久

→

luckyalbert10/09 16:14我很多老國高中同學朋友們很多都是走電資軟工的，我

→

luckyalbert10/09 16:14也跟他們說過我遇過的某些事情

→

acgotaku10/09 16:15抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下

推

luckyalbert10/09 16:17若提及美國的話，我是認為照他們現在的經濟環境，會

→

luckyalbert10/09 16:17先出手自保穩定程度佔比較大，其他國家發展後續他們

→

luckyalbert10/09 16:17目前應該沒餘力去顧

→

acgotaku10/09 16:17爛成這樣連餵 prompt去篩選一下就不做真的能滾去吃屎

噓

fookafook10/09 16:54 luckyalbert Salary板永桶 https://0rz.tw/Hkk63

→

fookafook10/09 16:54 luckyalbert medstudent板永桶 https://0rz.tw/iDASV

→

fookafook10/09 16:54 Gossiping板水桶210天 https://0rz.tw/T5loZ

推

luckyalbert10/09 18:20可憐，有不知道哪來的神經病開分身又在那瘋了，請直

→

luckyalbert10/09 18:20接無視即可，我原產業及其他某些人躲在ID後面的護城

→

luckyalbert10/09 18:20河還真深，請直接無視，我長期提及過的，以後不想再

→

luckyalbert10/09 18:20提，換成是各位以後碰到跟我這些年來一樣的狀況時，

→

luckyalbert10/09 18:20才會理解這些小人有多沒人的下限可言

→

wayne200232310/09 18:48大談

噓

Dracarys10/09 19:39@truehero 台灣不是國，哪來的總統

→

viper970910/09 20:46中研院也搞這個...

推

andy021910/09 21:06廢到笑XDDD

→

milk83012210/09 21:33黑單他就好跟他討論是浪費時間

推

popeye030310/09 22:46抱歉家裡失業6年精障最近燥期到了怎樣都壓不住請

→

popeye030310/09 22:46大家多擔待

→

popeye030310/09 22:46https://bit.ly/3Q5LUxO

推

kurtsgm10/09 22:49其實看推文就知道某些人有病了吧..

→

tswperfect10/09 23:15對岸是沖繩嗎

推

kurtsgm10/09 23:42美西吧(X)

推

Bujo10/09 23:47說不定這個是外包做的，裡面的研究員都是草包

推

Lhmstu10/10 01:19笑死www

→

TSMCfabXX10/10 06:39把台積電輪班星人通通調去標記清理資料,

→

TSMCfabXX10/10 06:39幾年之後國產LLM問世了, 請問能賣多少錢

推

yuinami10/10 09:35太誇張

推

w2810356610/10 10:09笑死

推

hobnob10/10 13:07好可憐，有病的人快找人幫忙吧

推

mocca00010/10 16:56體諒生病的人然後頁面刪了但我記得CKIP一開始自己就有

→

mocca00010/10 16:56說明有用到Atom-7b 就下架趕快拿掉就好了加油

→

hippo13010/10 21:13這告訴我們搞軟工也該有一點政治sense，因為這裡是台灣

推

mocca00010/10 21:49哪個國家不用政治sense？中國嗎？

噓

dalbuhr10/11 11:27資工系學生：教授為什麼要禁止抄作業呢

其他人也閱讀了

PTT 熱門相關