PTT評價

Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎

看板Gossiping標題Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎作者
Cactusman
(仙人掌人)
時間推噓 1 推:1 噓:0 →:0

※ 引述《Supasizeit (Shitpost King)》之銘言:
: 阿北當年聯考數學95
: 可是沒有念資工
: 今天心血來潮
: 嘗試理解LLM transformer 原理
: 可是講到token就聽不懂了
: 然後又變成embedding
: 弄一弄變成weights
: 怎麼突然就變成attention block
: 這不是大學生每個都懂的東西嗎
: 我是不是失智了
LLM就像一個大型的圖書館加大腦

Token就是模型「讀字的最小單位」
例如說:"我今天很開心"這句子
可以拆成 我、今天、很、開心
這樣四塊token
雖然不見得一個字詞就是一個token
但大致上你可以看成是模型理解自然語言的最小單位

embedding就是向量座標,
你可以想像成在一張大地圖上,
紀錄放置「字詞意義」的位置,用來幫助llm理解語意
像是"香蕉"和"螺絲起子"語意地圖上可能會離很遠、
"香蕉"和"水果"可能就會在地圖上放得很近,
這樣歸類放置之後LLM可以更快更清晰的理解意思。

Weights比重就像是食譜,
一樣以「我今天很開心」這個句子舉例,
應該是「今天」比較重要、還是「很開心」比較重要?
是基於長期訓練的結果,
LLM的結果呈現是由大量的數學運算而來
Weights就像是控制要加多少調味料的食譜,
是在訓練過程中控制、調整的,長期訓練出來的知識。

Attention block你就當成是舞台上的聚光燈,
和weights有點像,是用來決定哪一個詞比較重要,
但Attention block架構中會動態調整其包含的weight
是短期的、當下處理token時決定聚焦在哪一個字詞。

放在一起看就是先想像成你是一個大廚,
Weights=做一份義大利麵要3個蕃茄+1大蒜
Attention block=根據客人的狀態,動態調整要不要多加一點鹽、
今天的蕃茄比較酸要不要多加其他調味料中和...之類的

雖然我是文組的,也不知道理解這個要幹嘛
也不知道我理解對還不對,
但概念上應該不算太難懂,給你參考。
-----
Sent from PttX on my iPhone

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.70.242.234 (臺灣)
PTT 網址

s0914714 09/08 21:24你說的token比較像斷詞