Re: [問卦] 中研院自己做的大型語言模型怎麼了?
※ 引述《messi5566 (虹粉)》之銘言:
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png
: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
阿肥外商碼農阿肥啦!
昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還
可以進去,但現在已經進不去了。
這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預訓練或微調的數據源跟一些微調小細節而已。
然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟作者說的訓練數據源來看細節藏在魔鬼裡。
首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練,理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。
理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。
此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做評測,根本是拿明朝的劍斬清朝的官。
當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民幣再做簡中數據集了。
那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只要簡轉繁AI就會自己講台灣用語。
唉~
這邊註一下:
Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回人類有辦法閱讀的中文或英文字。
C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專業領域知識。
以上
阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以
阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿自己的
大量數據集來訓練,我感覺CKIP可能要有大地震了。
呵呵….
--
中研院有說是從Atom-7b微調喔
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈 ?
Opencc不是有簡中轉繁中用法的功能嗎
?還是那個不夠準確
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加 詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就 全部把你文字裡面的「的士」轉成計程車。。
基本上現在要訓練公司內部用的
Llm也有點苦惱 中文資源都是對岸 用語也是
講的你比杜奕瑾還厲害 好了啦
呵呵
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21台灣就沒模型沒算力沒資料,三無怎麼打
台灣又浪費了幾年時間了
這個id被創世神勾勾再中共同路人那邊
所以說三無就放推 那養中研院幹嘛 關
,你準備好被肉搜了沒?
一關好了 浪費稅金
不是有姓杜的AI大神? 快出來拯救世界
好奇自己餵資料養數據庫,成本很高嗎?
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文 字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的 句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你 覺得維護成本低嗎?
可以拿近8年中央政府新聞稿訓練啊..
怎麼會沒資料.繁體資料可多著呢..
綠共塔綠班政府~只會大內宣而已~
專門騙台灣智障人民就夠了
各部會公開資訊也能用. 只是要不要做啦
講中文好嗎
這麼閹割的東西就會被靠北上新聞了,怎麼
覺得上面會給資源燒錢做數據集笑死
竟敢說台灣落後對岸,你完惹
國科會那邊也是一堆畫餅廢物「創造具台
灣特色的chatGPT」
翻譯台灣應該全面使用支語
這方案主管全部槍斃阿
民進黨又不台獨,用一下簡中還好吧
成本巨大,中研院最好是知識圖譜做好就套小
範圍,出通用一看就不可能
逆變器什麼的都買支那,愛台灣就對了
連收集資料都懶得做,這還叫做研究單位
看這個案子開多少錢啊。錢不夠就偷
數位部/國科會/中研院/工研院都有預算
出錢給台大李宏毅老師弄一個就好了 看他教
一堆相似的研究計畫提案...
得有模有樣的
不是你以為中研院是養老院是說假的?
感覺又浪費了好幾年
人家做了好幾年 大紅之後我們才來一窩蜂
政府本來就脫離現實很多 剩一堆老害主導
之前喊啥元宇宙 都破滅幾年了才鴿子封包
政府與裙帶企業有非常高的政商關係壁壘
高手才不會進去淌渾水 錢少熱臉貼冷屁股
你去選根路燈吧
台灣大灑民脂民膏至少領先柬埔寨 看衰
台灣藍白真噁
剩一堆垃圾在同溫層互相取暖
好大喜功的內閣 繼續騙
台灣日常
成本巨大有什麼問題 這種成本除了中
研院還有誰可以做 更簡單說台灣是繁
體中文大本營 更應該由國家做數據中
心吧
有兩百億預算的數位部和天才it大臣 中國那
點玩具模型 還不是
跟高端系出同源一樣 我懂
餵垃圾去訓練就只會訓練出垃圾
党不喜歡你這種人
要訓練的資料必須先清洗過
中研院代工廠
做這個成本遠超你想像 一直燒錢不是單次
加碼改善油水肥滋滋那需要什麼大地震
不太懂他們的腦袋在想什麼
拿對岸的來簡轉繁最後一定會出問題的阿
推推專業
一樣花了大錢啊,細節不重要啦,40%
你有中研院的人厲害嗎? 閉嘴
什麼黨再補助一百億給我加強
推一下假裝我有看懂
台灣這20多年不知道在幹嘛
中研院這次壞了自己名聲
林北文組,看不懂
資料清洗比訓練還要累多了,有在fin
etune的應該都有感覺
其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化 ,光是弄得好模型就夠漲好幾個百分點了,比去想什麼fashion的模型架構還有用。OpenA I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。
專業推 雖然看不懂
AI就美中大戰,台灣乖乖做代工就好
研究單位的話,說不定有人是中國來的,
覺得只是簡轉繁沒關係
等等 講這些前有想過党不喜歡聰明的孩子嗎?
那我這邊有一筆社群網站的繁中資料,我記
得是兩三百萬筆,是不是就變得蠻值錢的
台灣只會喊大數據,其他沒了
中國那邊資料的確多,尤其知識型的
中研院要不要把一些大餅計畫砍一砍 集
中火力在重要的計畫比較實在
養黨工不用錢?養側翼不用錢?養圖文畫
家跟YTBer?別拿中國不用養這些狗的標
準來看台灣
上面又不懂技術,只押著你急著做出東西
大內宣,下面就只能拿現成的改改交交差
嘍
我宣佈以後臺灣都叫公交車
就做出來看起來像騙騙不懂的
數位部?跟這個會有關聯嗎?
台灣人做東西的調調就這樣,講求一個快
雖然兩邊用語有越來越接近 但還是有差別啊
不就是懶到剩抄,抄到一字不變的,
不合格學生?中研院?你有在做事?
推專業
這篇專業 推一個
不想花錢花時間花人力就只能抄阿 抄抄抄
中研院的水準怎麼這幾年低落成這樣
推專業
中研院不清楚,不過國科會(舊)確實是
畫大餅專門
推認真回覆…有在關注的深感認同
看就知道沒錢弄出來交差的東西
台灣沒人會花錢做基礎的啦
爆
首Po中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果49
國安危機來了 我剛問他兩個問題 1. 台灣是不是中國的一部分X
這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答4
這個是不是被刪掉了啊 我都還沒玩到 請問有人有備份嗎? 想問中華民國的問題0.0 --X
整天在反西方文化跟反英語的國民黨義和團看過來 用中文訓練ai成本比英文高3倍起跳啦 訓練完後面還要不斷砸錢更新維護 GPT創辦人說拿來一部份微軟10億美元 GPT創辦人說微軟還要給100億美元X
支那china共和國republic 中研院 官方英文名稱:Academia Sinica = 支那的 研究院 成立於:1928年的支那上海 本來從裏到外都是支那的形狀,使用china的語言數據庫也屬於天經地義吧。 説句題外話,連基礎科研上還要講意識形態,也是沒誰了。
64
[閒聊] 克萊門 FB 以嘻哈蔡英文為例Clement A.I.的危機...以嘻哈蔡英文為例 左圖為 Midjourney 1.0,右圖則是 Midjourney 5.2。文字的提示完全相同,只是請電腦 幫我繪製一幅看起來非常嘻哈的蔡英文的圖片。你能猜測這兩項技術之間相隔了多久嗎?34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。8
[爆卦] Meta 的語言模型 LLaMA 被人洩漏出來了出大事了 Meta 用來對標 OpenAI ChatGPT 的語言模型 LLaMA 被人洩漏出來 還打包成 Torret 在網路上供人下載了6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然6
[情報] 微軟, META合作 Llama2上 Azure1. 標題: 微軟與META擴大他們的AI合作關係,讓Llama 2上Azure以及 windows 2. 來源: 微軟公司 3. 網址:3
[轉錄] Clement FB: 嘻哈蔡英文Clement (以前LOL的主播) 1.轉錄網址︰ 2.轉錄來源︰- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
爆
[爆卦] 連續4名勞動部長沒有勞工專業背景98
[問卦] 四爺剛剛被某台記者激怒56
[問卦] 有人發現中國團隊運動都超爛!70
[問卦] 這晚餐210元你可以嗎?☺61
[問卦] 台灣複姓還真的都是姓疊加 有很帥的嗎48
[問卦] 接機是誰主辦 弄成這樣爆
[問卦] 笑死 邰智源這麼嗆喔44
[問卦] 找一部保鑣跟女主談戀愛的電影?38
[問卦] 中華隊也能有酷酷的外號了嗎?40
[問卦] 找一部當兵一直重來的片75
[問卦] 幹你娘為什麼雲端發票又沒中???78
[問卦] 日本s級投手這麼多 昨天怎不早換?28
[問卦] 這次接機LIVE怎麼亂七八糟?27
[問卦] 他媽的穿黃衣的無禮大媽哪來的?90
[爆卦] 中華男籃 64 : 81 紐西蘭17
[問卦] 棒球板是政黑二板嗎?19
[問卦] 那群穿黃色衣服的是誰? 補圖16
[問卦] 澤倫斯基越來越像蔣介石了?22
[問卦] 所謂的【最高規格】就這樣??36
[問卦] 李連杰從影多年的醜聞只有利智嗎?19
[問卦] 現在政府抽獎活動直接黑箱就是了?19
Re: [新聞] 任命拍馬屁的洪申翰接部長 媒體人解讀賴26
[問卦] 為何很多人不推薦買D-Link的路由器?爆
[問卦] 雲端中獎號碼58
[問卦] 有台女在北車開放做愛19
[問卦] 日本網友:他們已有赴死的準備13
[問卦] 現在一個人在家,要幹嘛= =...?10
[問卦] 我相信ptt結果變成是白癡小丑14
[爆卦] 采盟的黃巾大媽 記者 立委14
[問卦] 辜董市長都不用上班嗎?