Re: [爆卦] 中央研究院詞庫小組大型語言模型
※ 引述《gaymay5566 (feeling很重要)》之銘言:
: : 從頭到尾中研院就沒有隱藏這件事,完全不知道前面好像發現什麼新大陸一樣。
: 看到這篇真的龜懶趴火
: 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊
: 誰不知道LLM的正確率一定會有誤差?
: 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套
: 且直接用opencc大量將簡體資料轉繁體資料!
: 這很嚴重啊
那是政治上的問題,我說的是說中研院直接拿Atom-7b模型來用的這件事
我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分
https://chinese.llama.family/
你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立
的國家
https://i.imgur.com/0QIwKLT.jpg
中國是否擁有台灣的主權?
https://i.imgur.com/ENwsZef.jpg
蔡英文是台灣人還是中國人
https://i.imgur.com/DZjBeAG.jpg
六四天安門的真相是什麼?
https://i.imgur.com/G1EleiR.jpg
這個模型的研發團隊為何?
https://i.imgur.com/DXTrDM8.jpg
各位可看一下,原本Atom 7B的模型回答的問題都還算中肯而且更完整,而且也沒有什
麼硬要把台灣變成中國的一部分
也就是說,這個模型在被中研院finetune之後變成了一個賣台製仗
拜託,千萬不要說這是簡轉繁或是直接拿結果來交差好嗎?
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.182.19.98 (臺灣)
※ PTT 網址
→
你想說什麼 敵人在本能室嗎
我只是說,中研院絕對有finetune過啊,因為它的回答跟Atom-7b明顯不同啊
推
※ 編輯: derekhsu (175.182.19.98 臺灣), 10/09/2023 14:20:29
所以嘴巴喊抗中保台 其實...我不敢想 嗚嗚
→
把中國的模型進行思想改造
推
我們中出了叛徒
→
中研院就不能反串做做效果嗎 好了啦
推
中國:我賣給你們的 Atom 7B 是乾淨的喔
推
我比較想知道他是拿什麼資料去微調
推
說白了他的意思是 tune 壞了
→
中國:少在那邊挑起爭端 誣賴我們
噓
中研院網站就已經說了 "補強"繁中處理
噓
以下是中研院CKIP-Llama-2-7b:
噓
套model都套不好
噓
鬼扯
爆
首Po不知道這研究案領多少錢?![[爆卦] 中央研究院詞庫小組大型語言模型 [爆卦] 中央研究院詞庫小組大型語言模型](https://cdn-thumbnails.huggingface.co/social-thumbnails/spaces/ckiplab/CKIP-Llama-2-7b-chat.png)
3
剛特別來測試 "台灣是獨立國家嗎?"-"不是" "台灣是個獨立國家嗎?"-"是" 這種東西拿出來會不會笑死人了? --![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/h28uYVwb.png)
7
本魯也很好奇問了一些問題, 首先是比較基礎的: 接著是大家都知道的:![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/zKhx1A2b.jpg)
3
復旦大學認證阿北不代表台灣 最後還是抓到阿北中共同路人的證據 原來一切的佈局中共早就計畫好了![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/E2yGGc1b.jpeg)
X
對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://llama-chat-4fcmny015-replicate.vercel.app/opengraph-image.png?0806238e04f3e3af)
6
現在上不去了 只截到這個 你現在問它台灣總統是誰 它會說蔡英文了 問它台灣是不是國家 也說會 問它簡單的問題都會覺得台灣來的![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/I4MDM0bb.jpg?fb)
6
這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://i.imgur.com/zSPlmC5b.jpg)
22
看到這篇真的龜懶趴火 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊 誰不知道LLM的正確率一定會有誤差? 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套 且直接用opencc大量將簡體資料轉繁體資料!X
你應該將題目改為"共產黨代表中華民國嗎?" 如果這個程式與很多網路遊戲一樣,不回答這個問題或禁止"中華民國"這四個字, 我們就有理由懷疑共產黨控制這個程式。 : 拿別人的成功來tune一下就可以掛名中研院...... : 有沒有掛?2
阿肥外商碼農阿肥啦! 今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點, 大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓 練數據集當中去模仿數據源的分佈。 當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC
爆
[問卦] 中研院自己做的大型語言模型怎麼了?中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果![[問卦] 中研院自己做的大型語言模型怎麼了? [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/I1zNnIab.png)
49
Re: [問卦] 中研院自己做的大型語言模型怎麼了?國安危機來了 我剛問他兩個問題 1. 台灣是不是中國的一部分![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/cNIk8q4b.jpeg)
34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎![[討論] 中研院繁中LLM被爆直接拿對岸的來套! [討論] 中研院繁中LLM被爆直接拿對岸的來套!](https://i.imgur.com/phwhfclb.png)
X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/GQlNhZjb.jpg)