Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎

Cactusman 發表於 2025/9/8 下午9:04:12

看板Gossiping標題Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎作者

(仙人掌人)時間Sep 8 21:04:12 2025推噓 1 推:1 噓:0 →:0

※ 引述《Supasizeit (Shitpost King)》之銘言：
: 阿北當年聯考數學95
: 可是沒有念資工
: 今天心血來潮
: 嘗試理解LLM transformer 原理
: 可是講到token就聽不懂了
: 然後又變成embedding
: 弄一弄變成weights
: 怎麼突然就變成attention block
: 這不是大學生每個都懂的東西嗎
: 我是不是失智了
LLM就像一個大型的圖書館加大腦

Token就是模型「讀字的最小單位」
例如說："我今天很開心"這句子
可以拆成我、今天、很、開心
這樣四塊token
雖然不見得一個字詞就是一個token
但大致上你可以看成是模型理解自然語言的最小單位

embedding就是向量座標，
你可以想像成在一張大地圖上，
紀錄放置「字詞意義」的位置，用來幫助llm理解語意
像是"香蕉"和"螺絲起子"語意地圖上可能會離很遠、
"香蕉"和"水果"可能就會在地圖上放得很近，
這樣歸類放置之後LLM可以更快更清晰的理解意思。

Weights比重就像是食譜，
一樣以「我今天很開心」這個句子舉例，
應該是「今天」比較重要、還是「很開心」比較重要？
是基於長期訓練的結果，
LLM的結果呈現是由大量的數學運算而來
Weights就像是控制要加多少調味料的食譜，
是在訓練過程中控制、調整的，長期訓練出來的知識。

Attention block你就當成是舞台上的聚光燈，
和weights有點像，是用來決定哪一個詞比較重要，
但Attention block架構中會動態調整其包含的weight
是短期的、當下處理token時決定聚焦在哪一個字詞。

放在一起看就是先想像成你是一個大廚，
Weights=做一份義大利麵要3個蕃茄+1大蒜
Attention block=根據客人的狀態，動態調整要不要多加一點鹽、
今天的蕃茄比較酸要不要多加其他調味料中和...之類的

雖然我是文組的，也不知道理解這個要幹嘛
也不知道我理解對還不對，
但概念上應該不算太難懂，給你參考。
-----
Sent from PttX on my iPhone

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.70.242.234 (臺灣)

※ PTT 網址

推

s0914714 09/08 21:24你說的token比較像斷詞

同系列文章

[問卦] 聯考數學95聽不懂LLM原理正常嗎

其他人也閱讀了

PTT 熱門相關