Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢?
其實光是中文資料不斷地消失這件事情
用中文資料訓練的LLM效果自然不會太好
中文的網路資料這幾年不斷消失 原因無他 很多中文圈的網路公司沒錢收掉
這些資料就可能從世界上消失 等於中文的訓練資料無法累積
資料不夠 模型再大也沒用
現在英文圈把整個網路的文本資料拿來訓練不夠 開始再把影片轉化成文字抓來練
而且網路公司基本上都是英文圈的 資料最多最有錢 要賺錢也是優先做英文的
現在網路公司是美國獨大 中文的LLM不是他們加減做 就是中國的網路公司做
台灣現在沒有公司有那個財力從頭做一個llama2等級的模型
※ 引述《wa007123456 (大笨羊)》之銘言:
: 大型語言模型(LLM)在處理語言的時候
: 都無法避免要執行分詞的動作
: 所謂分詞就是把句子中的 主詞 動詞 介係詞 ...等
: 分離開來。
: 由於中文的特性,要進行分詞其實是很有挑戰的一件事;
: 反觀英文可以透過空白來分離單字,實作上真的比較輕鬆。
: 沒有要崇洋媚外,單純討論@@
: PS:
: 最近使用Python套件來做文字辨識
: 也發現中文不但辨識又慢又肥,而且辨識正確率也不是很好
: 請問中文在未來的世界中還具有甚麼優勢嗎?
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.70.97.250 (美國)
※ PTT 網址
推
翻譯成中文再訓練也是一種解法
推
長知識。 感謝
推
直接用語音訊號訓練,不要轉文字
推
同意
推
聯發科表示:
52
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。14
Re: [閒聊] 文心一言AI繪圖(慎入)文心一言實力不如ChatGPT是理所當然的,微軟投資幾百億美元並且用微軟的雲端訓練整個網 路資料兩年了,到了去年底才終於開花結果 目前這種LLM模型,最重要的就是 資料 算力 和算法,其中基礎的資料是非常重要的,Chat GPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型,而ChatGPT的基礎原理就是由上 一個字生成下一個字,週而復始,其中在訓練的過程還會經過人工挑選優質回答和一些和添X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
Re: [爆卦] 中央研究院詞庫小組大型語言模型這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?5
Re: [閒聊] ChatGPT是語言模型不是搜尋引擎關於這個,最近騰訊的AI Lab在1/31有篇technical report Link: 這篇文章是想要比較 ChatGPT, Google翻譯,DeepL,騰訊(Tencent)翻譯的翻譯表現 他們用的測試來源有這四樣1
Re: [新聞] ChatGPT不能用了!OpenAI宣布「斷供中國支那AI贏不了美國的真正原因其實不是買不到輝達最先進GPU 真正原因是訓練資料的限制 因為就算AI硬體算力再強 如果你餵給AI的資料是垃圾 那麼垃圾進垃圾出- 複查 中文:逆迴十六夜 日文:逆廻十六夜 英文:Sakamaki Izayoi 中文資料
- 完整的LLM訓練成本極高 可能一次就要兩百萬美金 如果本土化LLM因預算限制只進行fine tune調整 因為pre trained內容以英文為主 處理中文效率差很多
爆
[問卦] threads大量韓粉持手燈集結上街75
Re: [問卦] 有沒有國民黨黨部在青島東的八卦?22
[問卦] 為什麼大家都不關心台灣了?21
[問卦] 台灣全球第五富 一堆人去澳洲打工?22
[問卦] 新加坡是一個什麼樣的國家?爆
[問卦] 真的都飛出來了!年輕人又上街頭了20
Re: [新聞] 在野擬砍潛艦後續艦預算 顧立雄:期程恐42
[問卦] 這次遊行要取名叫什麼花?爆
Re: [新聞] 人民怒火包圍國民黨部!青鳥現場破六千人19
[問卦] 我下腹左邊好像比較大16
[問卦] 小夜剛下班,發生什麼事了,有懶人包嗎?69
[問卦] 有六千人明天不用上班上課嗎76
Re: [新聞] 人民怒火包圍國民黨部!青鳥現場破六59
Re: [新聞] 人民怒火包圍國民黨部!青鳥現場破六千人14
[爆卦] 工典甜點老闆夫婦自殺送殯儀館了!?X
[問卦] 幹!青鳥但是是大奶翹臀正妹 你可以?7
[問卦] 3000億晶片國家隊是幹嘛的?8
[問卦] 電暖毯是不是真的有點強?23
[問卦] 玉米筍 算是一種 蘿莉corn 嗎?9
[問卦] Google 被ChatGPT取代你真的ok?1X
Re: [新聞] 在野擬砍潛艦後續艦預算 顧立雄:期程恐爆
[問卦] 青鳥都不用上班上課?8
[問卦] Dcard 40歲還是處女 是加分還是扣分?7
[問卦] 男生音痴在KTV該唱甚麼歌曲會比較好的?8
[問卦] 一般淺山常見的四腳動物是什麼8
[爆卦] 張榮麟獲得亞洲錦標賽10號球冠軍X
Re: [問卦] 網紅囧星人:鐘明軒99%一定有問題8
[問卦] 日本麥當勞還有送玩具喔???11
[問卦] 像電影紅色角落一樣直接在法庭上殺人會怎樣?7
[問卦] 沒人發現八里一坪破35萬是在開玩笑嗎!