[問卦] AI領域中的LLM會讓英語系國家更具優勢?

wa007123456 發表於 2024/7/11 下午2:30:32

看板Gossiping標題[問卦] AI領域中的LLM會讓英語系國家更具優勢?作者

wa007123456

(大笨羊)時間Jul 11 14:30:32 2024推噓14 推:15 噓:1 →:89

PTT評價

大型語言模型(LLM)在處理語言的時候

都無法避免要執行分詞的動作

所謂分詞就是把句子中的主詞動詞介係詞 ...等

分離開來。

由於中文的特性，要進行分詞其實是很有挑戰的一件事；

反觀英文可以透過空白來分離單字，實作上真的比較輕鬆。

沒有要崇洋媚外，單純討論@@

PS:

最近使用Python套件來做文字辨識

也發現中文不但辨識又慢又肥，而且辨識正確率也不是很好

請問中文在未來的世界中還具有甚麼優勢嗎?

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.176.154.165 (澳大利亞)

※ PTT 網址

→

bill403777 07/11 14:31你的程式用中文寫辨識中文效率才高

→

stlinman 07/11 14:31差在算法問題應該都能優化吧! 反正大力

→

stlinman 07/11 14:32出奇蹟。

→

KILLE 07/11 14:32樓上程式只是邏輯表示只是代號

→

donation12 07/11 14:32優勢就在於高深度語言無法用LLM模擬

→

KILLE 07/11 14:33就像 y = a* x**2 寫成丑 = 甲*子**2

→

donation12 07/11 14:33多層次指涉、影射、隱喻、類比

→

KILLE 07/11 14:33差異度為零

→

KILLE 07/11 14:34不然用文言文編程也可

→

KILLE 07/11 14:34https://github.com/wenyan-lang/wenyan

→

stlinman 07/11 14:34中英差異比較大是文法問題。英語系邏輯

→

stlinman 07/11 14:34跟時間性比較強烈!

→

KILLE 07/11 14:35非母語人士才覺得英語邏輯強

→

KILLE 07/11 14:35時間性漢語也可做得到只是要不要這樣用

→

bill403777 07/11 14:35原來是這樣抱歉獻醜了我文組

→

donation12 07/11 14:36每句話都詳細說明時間地點人物主被動

→

donation12 07/11 14:37不要在語境中省略

→

KILLE 07/11 14:37英語哪來講地點主被動漢語被動性才強好嗎

→

JuiFu617 07/11 14:37把中文翻成英文再翻成中文

推

stlinman 07/11 14:37但是就是這差距，英語素材的訓練AI相比

→

KILLE 07/11 14:38台灣人講話喜歡乎(念ㄏㄡ\) 這超強被動性

→

KILLE 07/11 14:38文言文丟到AI裡學超快好嗎

→

stlinman 07/11 14:38中文就快很多。光是訓練AI學習效率就有

→

stlinman 07/11 14:38差別了。

→

KILLE 07/11 14:39今若諸位皆行以文研人工智能但得習驟

→

KILLE 07/11 14:40 言

→

donation12 07/11 14:40The cat chased the mouse.

→

donation12 07/11 14:40The mouse was chased by the cat.

→

KILLE 07/11 14:40英語弱指定(the)漢語也有只是平常被省掉

→

donation12 07/11 14:41這兩句強調的地方根據語境會有不同

推

StarTouching 07/11 14:41LLM又不是靠邏輯分詞是靠訓練

您說對了我搞錯嚕感謝

→

KILLE 07/11 14:41鼠逮乎於貓天道也

→

StarTouching 07/11 14:41模稜兩可的問題是語言特性

→

StarTouching 07/11 14:42中文天生邏輯就很差

→

StarTouching 07/11 14:42大勝和大敗居然是同個意思笑死

→

KILLE 07/11 14:42樓上是大多數人不想寫精確

→

donation12 07/11 14:42要處理tokenization很看語言特性

→

KILLE 07/11 14:42寫在強迫人人寫文言文要不?

→

donation12 07/11 14:43早在NLP有基礎時就有人想玩古文

→

KILLE 07/11 14:43文言文不要說抓辭了連斷句都省了

→

donation12 07/11 14:43後來訓練很多困難

推

selvester 07/11 14:44清晰與模糊這個特性在LLM比較難訓練

→

selvester 07/11 14:44吧幾乎有大量的駢文語言如日文韓文

→

selvester 07/11 14:44中文都有非常模糊的字

→

KILLE 07/11 14:44是文言文不是古文為何現代人不能寫文言?

→

KILLE 07/11 14:45就是這種不精確的邏輯將文言與古文混淆

→

selvester 07/11 14:45所指發散與收斂道德經的例子就算是

噓

qwe78971 07/11 14:45沒人做研究而已反正沒錢賺

誰說沒人... jieba 這套件都研究多久嚕

→

KILLE 07/11 14:45再來說漢語中文邏輯差? 還有中文不是語言

推

StarTouching 07/11 14:47一般人提到中文就是口語的普通話啊

→

StarTouching 07/11 14:47不然我們在說什麼語言?

→

KILLE 07/11 14:48那是普通漢語不是中文台語亦用中文書寫

→

donation12 07/11 14:48他在說的是漢語跟文的語法差異

→

StarTouching 07/11 14:48不管是什麼因素我們說的大勝大敗

→

KILLE 07/11 14:48那閩南語寫出來的是什麼??

→

StarTouching 07/11 14:48就是同個意思就是邏輯很差

→

donation12 07/11 14:48就像你用上海話講「上海話」這三個音

→

KILLE 07/11 14:49中文是書寫系統不是語言

→

donation12 07/11 14:49跟用普通話講「上海話」的三個音

※ 編輯: wa007123456 (210.176.154.165 澳大利亞), 07/11/2024 14:50:13

推

stlinman 07/11 14:49AI得賺錢商用落地必須在生活上能運用。

→

donation12 07/11 14:49聽起來不同，書寫系統也是會演化的

→

KILLE 07/11 14:49中文的英文翻譯是 chinese writing system

→

KILLE 07/11 14:50不是language

推

selvester 07/11 14:50我們口語也常常非常模糊意思意思這個

→

selvester 07/11 14:50例子，你拿去訓練不夠意思真不好意思

→

stlinman 07/11 14:50不過中文系跟歷史系倒是可以接合AI，這

→

selvester 07/11 14:50要先再寫個情境偵測才能提高準確

→

donation12 07/11 14:51也會怕情境偵測無法還原完整

→

stlinman 07/11 14:51就不怕招不到學生。古文、詩經、史書正

→

donation12 07/11 14:51很多笑話也是用雞同鴨講的情境落差

→

donation12 07/11 14:51來表現

→

stlinman 07/11 14:52好可以投入中文AI學習訓練!中文系、歷史

→

KILLE 07/11 14:52用戶習慣問題，像名字與姓名混用也是大問題

→

stlinman 07/11 14:52系捨我其誰?

→

KILLE 07/11 14:53中文系教育太強調文辭優美而非精確性

→

donation12 07/11 14:53臺灣原住民族各族的命名規則也很有趣

推

selvester 07/11 14:54對越能產生優美詞句都是極模糊語言

→

selvester 07/11 14:54不像英文可以提升剛性可以很精確

→

donation12 07/11 14:55活生生應用的語言彼此間都會交互影響

※ 編輯: wa007123456 (210.176.154.165 澳大利亞), 07/11/2024 14:56:15

推

meatybobby 07/11 14:55現在英文分詞也不是用空白了

→

donation12 07/11 14:55英文、印歐語系也有「詩意的表達」

→

meatybobby 07/11 14:55都是tokenizer自己切

→

donation12 07/11 14:56中文也可以逐漸演化出精確性表達

推

a77942002 07/11 14:56英文只要辨識26種你看中文要辨識多少種

→

a77942002 07/11 14:56 這就差多了

→

selvester 07/11 14:56俳句也是極模糊，常常影射雙關很煩

→

donation12 07/11 14:56這就是語言有趣的地方

→

donation12 07/11 14:56一種語言可以表現一種世界觀

推

jim543000 07/11 15:00不然中研院幹嘛抄共產党的東西

→

KILLE 07/11 15:01英文只有26種? 那要不說漢字只有八種(筆劃)

推

jim543000 07/11 15:03然後不要說什麼語言的精確性文學及談

→

jim543000 07/11 15:03話都不存在完整的精確性

推

selvester 07/11 15:04存在唷你看純數學…

→

jim543000 07/11 15:04說句簡單的吃飽了沒你會覺得這人在

→

jim543000 07/11 15:04問你吃飽了沒嗎？

推

a77942002 07/11 15:05圖像辨識完進入語言組合光第一步的辨

→

a77942002 07/11 15:05識就會造成多大的差距自己想~

→

KJC1004 07/11 15:13token不是用空白做分隔

→

newwu 07/11 15:30Token 主流不是以字為單位是類似字根字首

→

newwu 07/11 15:31吧

→

newwu 07/11 15:39那也是算出來的不是單純空白

→

newwu 07/11 15:39比起這個資料的數量和品質差距比較多

推

minicess 07/11 15:50中文大勝敵軍=大敗敵軍英文？

推