Re: [爆卦] 中央研究院詞庫小組大型語言模型

primeman 發表於 2023/10/9 下午1:05:58

看板Gossiping標題Re: [爆卦] 中央研究院詞庫小組大型語言模型作者

(精華)時間Oct 9 13:05:58 2023推噓 6 推:6 噓:0 →:11

※ 引述《xdbx (羊阿兵)》之銘言：
: ※ 引述《dean1990 (狄恩院長)》之銘言：
: : 本魯也很好奇問了一些問題，
: : 首先是比較基礎的：
: : https://i.imgur.com/zKhx1A2.jpg

: 現在上不去了只截到這個
: https://imgur.com/a/evMNmWM
: 你現在問它台灣總統是誰它會說蔡英文了
: 問它台灣是不是國家也說會
: 問它簡單的問題都會覺得台灣來的
: 但是電腦不會說謊轉個彎套它話
: 就會發現資料都是被竄改過了
: 它的根源就是個阿六仔

這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫

其中中文占的比例很少
中文當中繁體中文的資料更少
因此訓練起來中文其實都不像樣

同時間訓練台灣的內容資料又更少之又少
可以看下圖
https://i.imgur.com/zSPlmC5.jpg

繁體中文只有 0.05% 簡體中文有16%

如果真的要避免繁體中文被消滅
應該要正確的選擇我們要在語言AI模型要貢獻那些資料跟模型

不然再幾年對話機器人都內建中國話

台灣就沒有什麼立場了

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.86.9 (臺灣)

※ PTT 網址

→

widec 10/09 13:10台灣還不快點揚棄中文，把官話改成英語

推

kshs301 10/09 13:12可是系統說自己來自中國上海實驗室欸 htt

→

iLeyaSin365 10/09 13:12本來就沒有的東西吧洪流巨變中

→

F16V 10/09 13:13我已經灌一堆ACG問答了

→

kshs301 10/09 13:13https://i.imgur.com/x2kxa8o.jpg

推

ggirls 10/09 13:13台灣只到自然輸入法。三星bixby微軟windo

→

ggirls 10/09 13:13ws都沒正體字了，等香港被同化後，台灣可

→

ggirls 10/09 13:13以申請世界遺產了。

推

sppmg 10/09 13:15說不定微軟不想做台灣生意，直接取消支援繁

→

sppmg 10/09 13:15體中文，到時候真的繁體就要被消滅了！

推

g70245 10/09 13:16世界遺產XD

→

yesonline 10/09 13:16那台灣第一步是貢獻資料?搞繁中模型??

→

yesonline 10/09 13:17把模型繁體中文化需要動用到中研院嗎?

推

cloudyoyo 10/09 13:23塔綠班：我們要發展的是台文不是中文

→

yesonline 10/09 13:25中研院如果推台文AI那是真的要支持啦!

→

yeangigi 10/09 14:22=== 快！叫賴導把限用台羅文列入政見 ==

推

MKIIjack 10/09 14:38怎麼不講希伯來文笑死

同系列文章

[爆卦] 中央研究院詞庫小組大型語言模型

其他人也閱讀了

PTT 熱門相關