PTT評價

Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎

看板Gossiping標題Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎作者
newwu
(說不定我一生涓滴廢文)
時間推噓推:329 噓:3 →:114

※ 引述《Supasizeit (Shitpost King)》之銘言:
: 阿北當年聯考數學95
: 可是沒有念資工
: 今天心血來潮
: 嘗試理解LLM transformer 原理
: 可是講到token就聽不懂了
: 然後又變成embedding
: 弄一弄變成weights
: 怎麼突然就變成attention block
: 這不是大學生每個都懂的東西嗎
不是
: 我是不是失智了

所謂語言模型在處理什麼?其實就是人類的語言嘛。
所以除了要數學上的思考,也要站在人類語言的角度去理解。

那麼,token 是什麼?
其實就是模型讀入的最小單位。
這個 token 可能是word subword(類似字首字根) character等等。
英文主流的做法多半是用subword來分(如果有錯請糾正 XD)。

為什麼要這樣分?
想一想其實很合理。對人類來說,語言中意義的最小單位是什麼?
像 "dog" 這個字沒什麼好拆的,如果拆成 "d" 和 "og",對人類完全沒意義,和「狗」無關。
但有些字是由小單位的意義組成,例如 re-organ-ization。
怎麼切的話,算是演算法決定的,
不過,表現好的切法,通常人類看了也會覺得切得有道理。

Embedding 就是把每個詞轉換成向量。
因為模型只能處理數字,
所以需要建立一個 token → embedding(向量) 的對應表,
再把語言的意義透過向量來處理。

問題是,怎麼建立這個對應表?
在機器學習裡,最簡單的方式就是 one-hot。
例如:

dog → (1,0,0)
cat → (0,1,0)
mouse → (0,0,1)

可是這樣效率很差。
語言裡動輒上萬個 token,多語言甚至可能上百萬。
這樣輸入輸出的維度就超大,還有很多同義詞、近義詞白白浪費空間。

因此通常不會用 one-hot,而是對應到一個「較小維度」的向量空間(幾百到幾千維)。而且這些向量對應不是隨便定義,而是透過模型訓練學出來的。
這樣才能讓向量比較具備語義,例如:

cat 與 kitty 的距離最近

cat 與 dog 比較遠

cat 與 car 幾乎沒關係

簡單來說,embedding 就是在機器學習裡,
模型可讀取的意義/資訊表達,通常是一個多維向量。
是機器理解概念的方式。

至於 Transformer,可以想成對人類理解語言方式的一種模仿。
網路流行說:「每個字都看得懂,但合起來卻看不懂。」
這正是語言理解的關鍵——
人會先讀懂單字,再把上下文合起來理解。

文字擺在一起才有整體意義,
而單字的意義常常是上下文決定的。

舉例:
英文的 interest 可以指「利益」、「利息」、「興趣」。
當前後文提到貸款和數字時,我們會理解成「利息」。
當出現娛樂相關語境時,就會理解成「興趣」。

Transformer 的重點就是:
從原本的單詞意義出發(token/embedding),找出上下文關聯,合成新的語意,
新的、更精準的含上下文embedding (contextual embedding)。
哪些字彼此有關聯,模型就會把它們合起來看。
例如 interest 與 loan 一起出現時,模型就會發現它們高度相關,進而推斷這裡指的是「利息」。

Transformer 的核心是 自注意力機制。
它的訓練目標之一,就是讓模型學會:
某個 token(或 embedding)應該去「注意」哪些其他 token。

這就是所謂的「注意力」。
意思是:當看到這個詞時,應該去關注哪些相關的詞,
而這些相關詞會幫助模型正確理解它的意義。

所以不管是 token → embedding 的對應,還是 Transformer 的結構與訓練,
核心其實都是 字與字之間的關係。
也因此可以說:單一詞彙本身不構成意義,關係才構成意義。

現代機器學習方法,很多都是在模仿人類思考。
有時候拿來跟人類的理解、學習、思考方式對比,
會發現很有趣。

---
附:注意力的數學/模型簡論

token → embedding → (Q, K, V) embedding


後面這個箭頭,就是訓練的部分:
怎麼把原本的 embedding 轉成 Q、K、V。

V 基本上就是語意表達本身。

Q 可以理解成「這個 token 應該去找哪些的 token 來注意」。

K 可以理解成「這個 token 該被哪些其他 token 注意」。

兩個 token 之間的注意力,
就是它們各自的 Q 與 K 的內積。
內積越大,關係越強,模型就越會去注意。

於是就利用注意力加權合併,就得到含上下文資訊的新embedding。

---
回到你的問題
token -> 演算法切出的最小語意單元
embedding -> token的向量表示,好的embedding會包含字詞的意義訊息。
weights -> 應該是指 embedding轉成 V Q K 的參數(怎麼轉成VQK的)
attention block -> transformer很複雜,裡面可能會有很多上述的注意力小模型串聯
並聯,attention block應該就是指每個小部分。


有懂嗎?

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.237.207.106 (美國)
PTT 網址

brianuser 09/12 08:00沒有,但謝謝你的用心解說

herculus6502 09/12 08:00這篇你打多久

akito703 09/12 08:01長知識

wanderchang 09/12 08:02懂了

fallinlove15 09/12 08:02講的很基礎

firose 09/12 08:05為什麼內積越大關係越強

模型算法是人訂的, 你先訂出內積越大關係越強 假如你模型訓練得好 之後訓練出來,相關文字的Q K向量,自然會相近 在理工方面這是很直覺的訂法,A B向量的相似程度就是 A‧B/(|A||B|) 在推薦系統的模型裡,也常常運用這概念

sha09876 09/12 08:07我以為是紅茶文,想說拉到最下面怎麼沒

sha09876 09/12 08:08有業業老公

assommoir 09/12 08:08推推

PPCYes 09/12 08:106樓該複習一下高中數學

miniric 09/12 08:11內積越大代表這個向量在這個空間越靠近

miniric 09/12 08:11彼此,也就是意義越近。反之也有意義相

miniric 09/12 08:11反或者無相關性的概念存在。

miniric 09/12 08:13在資料科學中也有一種叫做 cosine 相似

miniric 09/12 08:13度 就是運用內積概念

ohyeah5566 09/12 08:15有趣

changmada 09/12 08:15看到一半往下找竟然沒出現胡歌老公

alotofjeff 09/12 08:15高手

zxc0312 09/12 08:16人家聯考數學99分?

phosphazene 09/12 08:16邏輯清晰 講得讓人淺顯易懂

g933246 09/12 08:18好文推一下

franktpmvu 09/12 08:20有料

yellowocean 09/12 08:20寫的超好懂,推一個

searoar 09/12 08:23太早了 推

s4511981 09/12 08:24眼睛:懂了。腦子:蛤?

jubilee 09/12 08:24推,寫得很清楚

renfro928 09/12 08:25

Anyotw 09/12 08:26數甲90分,沒懂怎麼辦。我要從哪邊開始複

Anyotw 09/12 08:26

有問題的可能不是算術能力吧 除非矩陣向量都忘光, 也只有用到矩陣向量而已, 比較難的可能是概念。

t81511270 09/12 08:26眼睛: 懂了 腦袋:塞不下這麼多token

wulongman 09/12 08:26讚喔

jeffguoft 09/12 08:27不錯哦,感謝分享

lance2136 09/12 08:28長知識了

Pmking 09/12 08:28

tmuejoelin 09/12 08:29難得有優文

slurpee 09/12 08:30ptt真的是包羅萬象

Mikuni 09/12 08:30推認真解說

slurpee 09/12 08:30懶得看但先推用心解說

SORAChung 09/12 08:32講的很基礎也很清楚,謝謝

hicjgogogo 09/12 08:32老師好

aa890051 09/12 08:32長知識了,推

starwillow 09/12 08:33好厲害講的外行人如我都能懂

fukku100 09/12 08:34QKV的解釋不錯

Tassadar250 09/12 08:35哇,不錯耶

somesomeone 09/12 08:36億點點懂給推

mrcat 09/12 08:39推推

ariadne 09/12 08:39真難得 竟然沒有期待的胡歌老公出現

anneju 09/12 08:40

koty6069 09/12 08:40推 解釋得好

rickphyman42 09/12 08:40說明的很清楚 讚

birdhouse1 09/12 08:40長知識推

a40494 09/12 08:42我看完前段想說是不是阿月

Usaria 09/12 08:42

solidworker 09/12 08:42長知識 推

※ 編輯: newwu (98.237.207.106 美國), 09/12/2025 08:45:20

LoveSports 09/12 08:44

Aeolus1981 09/12 08:44感謝優文

LiarHunter 09/12 08:45理解了

pila0830 09/12 08:45推!淺顯易懂

js01078687 09/12 08:46

ezafine 09/12 08:46

henry4204aaa 09/12 08:47很好懂 謝謝

xhs 09/12 08:47神經網路能不能的解釋一下 什麼是RNn CNN FNN

utn875 09/12 08:47優文 推

xhs 09/12 08:47 GAN

bon01215 09/12 08:47終於有不是政治文的優質文了

ffgordon 09/12 08:48

jb0110 09/12 08:48學到了

spksf0118666 09/12 08:49有所收穫,謝謝。

pigvit 09/12 08:49推 給個讚 多懂了不少知識

behind0416 09/12 08:49好文感謝推!

liefuchen 09/12 08:50ML的理論基礎其實跟資工也沒太大關係

liefuchen 09/12 08:50就是 所以有些人會有種我明明會寫程式

liefuchen 09/12 08:50卻看不懂在幹嘛的感覺

y7moremore 09/12 08:53這是人類能理解的東西嗎

findwind0826 09/12 08:54就是模仿人類思維

findwind0826 09/12 08:54只是用程式模擬人類思維的方式

findwind0826 09/12 08:54當然token目前最好模仿的還是語言

Hscyin 09/12 08:54

ok8ok8 09/12 08:55推一個

kiuygtde 09/12 08:55優文推

sharkman1793 09/12 08:57transformer原理翻成中文是什麼意思

sharkman1793 09/12 08:57?

ok8ok8 09/12 08:58樓上 變形金剛阿

xx60824xx 09/12 08:58專業

iam1vol 09/12 09:01講的我也好像懂了!

gilingking 09/12 09:01講得很簡單清楚耶 是個高手

bassmaster 09/12 09:01謝謝

pla51 09/12 09:03能夠直觀理解

pttxo 09/12 09:03長知識 推

paul115 09/12 09:03沒錯沒錯 跟我想的一樣

IY1227 09/12 09:03難得的優質文

xhs 09/12 09:06transformer專業術語是變壓器

LierX 09/12 09:06

qwop5 09/12 09:07沒有業業老公

rick917 09/12 09:07分享優文推

capssan 09/12 09:07谷歌有出transformer的課程,解說搭配簡

capssan 09/12 09:07易實作,真的想了解的話可以去看看,大

capssan 09/12 09:07概半小時的課程就能有概念了

nalthax 09/12 09:07概念講清楚的很不容易

kilid 09/12 09:08謝謝

h44256 09/12 09:10太強了

melancholy07 09/12 09:10推個

w45452515 09/12 09:10好專業 推個

jack41402 09/12 09:10漲姿勢

Kazetachinu 09/12 09:11好久沒在八卦看到科普QQ

windydancer 09/12 09:12感謝分享,好像懂了一點

icecreamxk 09/12 09:12可以問為什麼是QKV這個想法嗎 我都只

LPCbaimlly 09/12 09:12推專業

icecreamxk 09/12 09:12找到QKV的解釋 但找不到為什麼是QKV

icecreamxk 09/12 09:12但不是用其他方法

sjr500 09/12 09:12感謝資訊梳理,難得八卦清流

mistake18228 09/12 09:12推推

YaLingYin 09/12 09:12懂了

Kazetachinu 09/12 09:12八卦墮落已久 哎

rickyshiter 09/12 09:12

pat740515 09/12 09:13笑死,在八卦版這麼認真幹嘛

pooh991 09/12 09:14謝謝老師

dodoju 09/12 09:15推一個!

odanaga 09/12 09:16李宏毅幾班

Raislin 09/12 09:16

shaon 09/12 09:17挺有趣

Jiajun0724 09/12 09:18少見的八卦優文

shadtalker 09/12 09:19好文推爆

kria5304 09/12 09:19人家在講幹話你他媽那麼認真幹嘛XD

monkeytsai 09/12 09:19用心推

shinshy 09/12 09:19少見優文

Aequanimitas 09/12 09:20有料

shawn0727 09/12 09:20超讚 解釋的很好

song6 09/12 09:20真八卦

shoeshoeya 09/12 09:21

jdchbo 09/12 09:21推優質好文

kerbi 09/12 09:21淺顯易懂 感謝分享

TeamFrotress 09/12 09:22推專業

fatfatjohn 09/12 09:23長知識了

shrink5566 09/12 09:23好好懂

laputaca 09/12 09:23讚讚

awheaton311 09/12 09:24基礎文很清楚給推

nbook 09/12 09:24害我看到一半緊急拉到底 居然不是阿月XD

MusicD 09/12 09:24深入淺出 推個

yof 09/12 09:25優文

LoveSports 09/12 09:26VQK比較快 類似用直覺講外語

LoveSports 09/12 09:26其他方法例如RNN/LSTM比較慢 類似一個

LoveSports 09/12 09:26人講外語時還在大腦排列文法順序

joeyben 09/12 09:27... 完全看不懂

LoveSports 09/12 09:27以上回ice大 剛好最近看書跟AI討論過

a0952864901 09/12 09:28深入淺出誒 謝謝說明

DKPCOFGS 09/12 09:30推 感謝教學

iamstrong706 09/12 09:30跟我想的一樣

callmefuck 09/12 09:30

TZephyr 09/12 09:30很好懂,優文

h94g41up 09/12 09:31

RaiGend0519 09/12 09:31神人

yuiscarlet 09/12 09:32懂了 跟破音字一樣你看了其他字會知道

EEReck 09/12 09:32大推

yuiscarlet 09/12 09:32怎麼念?

tinuo 09/12 09:33推熱心講解

dtdon1699 09/12 09:35不懂

arodisgod 09/12 09:35感謝解說

vespar 09/12 09:35害我以為紅茶冰

vickwang 09/12 09:36嗯嗯嗯 跟我想的差不多

sora1122 09/12 09:36講得真好,我一個純粹的外行人居然看懂

sora1122 09/12 09:36

chiuweiyu 09/12 09:36

OldDaiDai 09/12 09:37

GenesisXD 09/12 09:37懂了 謝謝

JY1102 09/12 09:39謝謝你我看懂了,但沒能理解!!

gmoz 09/12 09:39解釋的很棒耶

TomChu 09/12 09:40長姿勢

Gorientung 09/12 09:40優文

max205 09/12 09:41原來看八卦真的可以長知識

im31519 09/12 09:43感謝你的解釋 我不懂了

a34567 09/12 09:43齁齁

hw1 09/12 09:43看到一半才想到要看id是不是張阿月

IIIX 09/12 09:44幹你不當老師太可惜,我非資工都有點理解了

camphor0614 09/12 09:44優文

toyakoyosu 09/12 09:46這知識量滿滿,已愛

Fauns 09/12 09:46推,感謝大神

Coslate 09/12 09:47你講的太淺了

bgflyer 09/12 09:47看完這篇是不是等於我聯考數學95分?

kshtainan 09/12 09:47

antinua 09/12 09:51謝謝解說

exe1349 09/12 09:52好多符號學的概念..

paufan 09/12 09:53所以能知道青鳥腦袋為什麼有問題了嗎?就

seanfan 09/12 09:53推!push!!! dog!!! cat!!! car!!!

paufan 09/12 09:53是整個模型跟神經網路都有問題

gogoangelin 09/12 09:53長知識

YCS08 09/12 09:54學到了,推

Wardyal 09/12 09:54優文

yesyesyesyes 09/12 09:55做Nlp的

durarara2020 09/12 09:56

unmolk 09/12 09:56有料

Touber 09/12 09:57優文推

zyi840449 09/12 09:57我曾經想過如何讓電腦理解自然語言

yoursam168 09/12 09:57跟著推避免別人發現我看不懂

zyi840449 09/12 09:57這篇解釋的原理和我預想的差不多

lampar5566 09/12 09:58樓下說懂了

ericpan70096 09/12 09:59專業推

j020109873 09/12 09:59

zyi840449 09/12 09:59而AI會產生幻覺也不難理解,因為當

zxm40059 09/12 09:59

herryherry 09/12 09:59好猛

zyi840449 09/12 10:00輸入的資料太少見,導致他連結的token

aa001112 09/12 10:01用心文

patrickvv 09/12 10:01推推,好像懂了好像懂了

zyi840449 09/12 10:01太少,AI就只能抓到一些奇怪的東西

hw1 09/12 10:01其實原理蠻好懂的 就像教小孩子的那套拿來教

zyi840449 09/12 10:02這時候AI就誤會我們的語意、另一方面

hw1 09/12 10:02電腦 給小孩子看一堆例子讓他們自己建立連結

hw1 09/12 10:02舉一反三

zyi840449 09/12 10:03當初程式設計應該是一定要有回應,所以

migration265 09/12 10:03好強

fakon 09/12 10:03學到了

hw1 09/12 10:03只是給電腦看的要多一步數位化 因為電腦只懂

zyi840449 09/12 10:04少用的詞彙、或一直輸入相同命令但要求

hw1 09/12 10:04數字

jojomickey2 09/12 10:04我數學不好也懂LLM了,這篇值得M

kerokrq 09/12 10:04怎麼不是阿月文?

kids1991 09/12 10:06長姿勢

frappe 09/12 10:08好久不見的知識性優文

k862479k 09/12 10:08胡歌老公呢

beersea0815 09/12 10:09推1樓

alex25694 09/12 10:10

chris510127 09/12 10:11懂了 感謝你的解說

k078787878 09/12 10:12

Bshido 09/12 10:12U文

lifegoeson 09/12 10:14專業文沒看到業業老公很不習慣

young000 09/12 10:15難怪有人說漢字系統屌打拼音系統

tzouandy2818 09/12 10:15謝謝

nrsair 09/12 10:16

seaning 09/12 10:19最後沒有胡歌老公 差評

admira 09/12 10:20謝謝解說!

pttwh99712 09/12 10:20

a9202507 09/12 10:20還我阿月

Firmamentee 09/12 10:20

Firmamentee 09/12 10:20但是看到這種知識文都會下意識看id

Firmamentee 09/12 10:21是正常的嗎?

ikaros5566 09/12 10:21這年頭優文不多了

Supasizeit 09/12 10:22對啊 就是卡在那個多維度向量 然後還

Supasizeit 09/12 10:22要分層attend

frontin 09/12 10:23那篇根本來亂的

Supasizeit 09/12 10:23不過廢文釣出優文 深感欣慰

aa1477888 09/12 10:24前面問為什麼是QKV 答案是沒有為什麼

Supasizeit 09/12 10:24亂個屁 我真的有去研究

aa1477888 09/12 10:24這就人訂的規則

aa1477888 09/12 10:25Attention Is All You Need 一定要看

frontin 09/12 10:25這篇根本也只講皮毛而已

uyangpong 09/12 10:27懂了 謝謝 明天考台大資工

DNADEVIL 09/12 10:27長知識推

zzzprince 09/12 10:29謝謝,雖然看不懂,但感覺很專業

frontin 09/12 10:29這跟數學幾分一點關係都沒有 是理解力的

Supasizeit 09/12 10:29而且cat 跟 dog 的向量還可以相減 結

frontin 09/12 10:29問題

Supasizeit 09/12 10:29果跟fox wolf類似 這太神奇了 怎麼搞

Supasizeit 09/12 10:29出來的

JMLee 09/12 10:34幫推個

osamu 09/12 10:35好像懂了又好像不懂,謝謝不是老公文的葛格

JMLee 09/12 10:35最大的重點就在注意力機制 但單是這個門檻

JMLee 09/12 10:35就很難普及理解了

ppn 09/12 10:37優文值得推一個

familymin 09/12 10:38

ppn 09/12 10:39類似中文有時候文字順序混亂但人還是看的懂

ppn 09/12 10:39個人認為是相同的道理 但是這個方法有缺點

ppn 09/12 10:39因為只有關係沒有順序 對特定需要順序的狀況

ppn 09/12 10:41效果就很有限 所以是AI有時會出錯的原因之一

sanadayasu 09/12 10:43推認真解釋,淺顯易懂

yylin3266 09/12 10:43數乙 50 分的我看完這篇感覺數學變好

ppn 09/12 10:43原PO講的不深但這正好適合普羅大眾

yylin3266 09/12 10:43了!

carryton 09/12 10:43這些背後包含MLP都是統計學跟工程數學的

carryton 09/12 10:43公式

carryton 09/12 10:43只會高中數學看不懂很正常吧

carryton 09/12 10:43不懂台灣人整天強調自己高中多強幹嘛

carryton 09/12 10:43皮毛學的很好很猛嗎

arki 09/12 10:47難得好文

ppn 09/12 10:47程式大多數的數學原理也都沒有很複雜其實

WWIII 09/12 10:47認真文 推爆

ppn 09/12 10:48但是在對的時間地點方向用能說的就多了

Dazol 09/12 10:48認真文給推

s81048112 09/12 10:48許久不見的八卦好文

fertalizer 09/12 10:50

engliat 09/12 10:51好文推推

rhox 09/12 10:52幸好我早就知道了

rin0sin 09/12 10:52

hoertt10 09/12 10:54

waitu0526 09/12 10:59害我看一下id 還好沒有老公

bobyhsu 09/12 11:00因為這跟數學沒關係啊==

bobyhsu 09/12 11:00底層建立於數學運算 但一般人開始學根本

bobyhsu 09/12 11:00也碰不到底層 然後高中數學程度想要摸進

bobyhsu 09/12 11:01去底層更是天方夜譚

irin1010g 09/12 11:02

dan641956 09/12 11:03已經過了五年,主流技術還在attention

dan641956 09/12 11:03跟transformer喔?

airmike 09/12 11:06講得真好!

z635066 09/12 11:06是阿,所以才在洗應用市場

eoeoeo 09/12 11:07

geniussilly 09/12 11:07

zzzzzzzzzzzy 09/12 11:09謝謝老師!

MasterLai 09/12 11:09推 看完是懂了,但要怎麼轉換成程式?

z635066 09/12 11:09跟數學有關啦,這些搞來搞去沒超出一個mo

z635066 09/12 11:09dule

rockrockrock 09/12 11:09可以看李宏毅教授的ML

imshamus 09/12 11:10可以解釋到外行的也能初步理解真的

imshamus 09/12 11:10厲害

z635066 09/12 11:11原則上線代夠好就都很簡單;畢竟這些都是

z635066 09/12 11:11已經被簡化過的concept,麻煩的是硬體加

z635066 09/12 11:11速那些

k798976869 09/12 11:20就微分 矩陣亂試參數跑最佳化存起來

kobe741107 09/12 11:20

gigiii1134 09/12 11:20

rnmrn 09/12 11:21有料給推

airmike 09/12 11:21從運算的角度來看就是 一堆矩陣乘法加法

airmike 09/12 11:22訓練就是微分去找局部最佳解方式 跑跑看

airmike 09/12 11:22大家都知道多元多次方程式複雜到一個程度

lovehinata 09/12 11:22外行人懂了 但感覺實操一定很難

airmike 09/12 11:22最佳化都是在試錯 這也是為什麼訓練算力

airmike 09/12 11:23要超大超快 不然等好幾天出來結果爛掉

afflic 09/12 11:24簡單來說就是用線性代數表達人類語言

airmike 09/12 11:25但是語詞關係接龍不等於建立邏輯關係 雖

airmike 09/12 11:25然乍看表現很像 但LLM其實有點像教小學生

airmike 09/12 11:26把上面這段話 和全世界的話都背起來+給它

airmike 09/12 11:26外掛這個詞最有可能接哪個詞的提示

airmike 09/12 11:27語言廣度的背誦超過人類 語詞關係的記憶

ggchioinder 09/12 11:27推優文

airmike 09/12 11:27超過人類 但是語詞理解建構的能力未知

afflic 09/12 11:29的確是教小朋友啊

afflic 09/12 11:29看到爸爸要叫爸爸

afflic 09/12 11:30看到媽媽要叫媽媽

afflic 09/12 11:30你小時候怎麼學的就怎麼教電腦

afflic 09/12 11:30只是把學習的方式用數學模型寫出來

CGMS 09/12 11:30

DreamRush152 09/12 11:33快推不然別人以為我們看不懂

k798976869 09/12 11:34可是看到猩猩叫泥歌會被強制用規則鎖

k798976869 09/12 11:34住不能回

ur83friend 09/12 11:36一開始我以為 是紅茶冰的文

mudmud 09/12 11:37推個

domoto0101 09/12 11:38完全不知道你在說什麼,淡還是謝謝你

HKDW 09/12 11:40好怕最後看到胡歌老公 先看留言==

marke18 09/12 11:40認真推~~

white1225 09/12 11:40好猛

Mylife5566 09/12 11:41寫的很不錯

night0204 09/12 11:43紅茶冰的文筆跟原po不太一樣 推一個免

night0204 09/12 11:43得被人笑看不懂

adsop 09/12 11:44

dalipkid 09/12 11:46不就海龍公式而已推一推

PalmAngels 09/12 11:48

abow0807 09/12 11:50不是張阿月給推

q559az 09/12 11:51優文推

Reeta 09/12 11:52為什麼我看完三行會先確認不是張阿月?!!

Reeta 09/12 11:52專業文嚇怕

meRscliche 09/12 11:55push

Haqua 09/12 11:58推知識文

lolicon 09/12 12:03這一篇文章值 350 P幣

monononoke 09/12 12:04本來還期待胡歌老公

kirinling 09/12 12:04

chi2chi2chi2 09/12 12:05

Johseagull 09/12 12:05突然一篇認真專業文 嚇到

shorty696820 09/12 12:07

u8510578 09/12 12:07謝謝

ccc101419 09/12 12:08看不懂,但是長知識了

iverson414 09/12 12:12認真

ohsuoh 09/12 12:14嗯嗯 跟我想的一樣

yuanhy63 09/12 12:14講解得太好了 終於理解token 向量 tran

yuanhy63 09/12 12:14sformer的意義了 非常感謝 我也懂AI了

lucifiel0121 09/12 12:15認真寫文推

catsondbs 09/12 12:19好清楚明白

christu 09/12 12:25學了deep learning之後的我:線性代數、

christu 09/12 12:25線性代數、還是TMD線性代數

iwillbehere 09/12 12:25

flyvegetable 09/12 12:26我懂 但我保證他還是不懂

hdw 09/12 12:29嗯嗯,跟我想得一樣

candaptt 09/12 12:29好厲害

dnkofe 09/12 12:30

choujai 09/12 12:31優質好文

a25940638 09/12 12:34推一個 用心

e65947 09/12 12:34差點以為是啊月= =

jojozp06 09/12 12:34好厲害 簡單易懂

BrokenYume 09/12 12:35厲害

ChikanDesu 09/12 12:35你是不是以為你已經簡化了==

cerberi 09/12 12:37推專業

momofishj 09/12 12:39

hannspreeXm 09/12 12:40你好會解釋,連小白都聽懂了

capristarus 09/12 12:41

sh981215 09/12 12:44科學家到底怎麼知道kernel放幾層比較好

sh981215 09/12 12:44? 還是隨便試?

TKW5566 09/12 12:44好文,可惜沒業業老公

kfkkg123 09/12 12:46有料

saso101 09/12 12:49蠻簡單的 可惜問題不夠精確 電腦會回答錯

saso101 09/12 12:49的答案

holebro 09/12 12:56tokenize跟embedding很好理解 開始訓練tr

holebro 09/12 12:56ansformer就不知道在衝三小了 線性代數

spursmanu 09/12 12:57懂了 感謝

alex1888 09/12 13:07

wommow 09/12 13:26其實寫得很好耶 只是中間開始擔心後面是..

kai2573 09/12 13:28

jonothan 09/12 13:29看懂了 感謝 好文推一下

sharkman1793 09/12 13:30指考數學95分 跟你會不會ai有什麼關

sharkman1793 09/12 13:30聯性?

jccy 09/12 13:32用LLM來解釋英文單字的意思~

zsefbhu 09/12 13:32懂,講的真好,甚至跳著看也邏輯清楚

wind51875 09/12 13:35專業科普推

etvalen 09/12 13:35文組都能懂,給推

kkl522608 09/12 13:36好文,我碩一上機器學習,前幾節課講

kkl522608 09/12 13:36大剛打屁後馬上開始帶KNN、森林CNN

jccy 09/12 13:39好奇LLM都是用英文做基礎模式,用中文做LLM

jccy 09/12 13:39結果是一樣的嗎?

Diesigy 09/12 13:43謝謝分享

Diesigy 09/12 13:44看完突然能理解為何中文模型不好做

Diesigy 09/12 13:44

doubleperson 09/12 13:56認真文要推

a24273247 09/12 14:00morphology, syntax, semantics, pragm

a24273247 09/12 14:00atics還有computational linguistics

jasonwuton 09/12 14:02難得優文 謝解釋

hidelena 09/12 14:25

francoisM83 09/12 14:27

Dix123 09/12 14:33靠 八卦回來了

cywooo 09/12 14:41剛做完的碩論也有用到Transformer...

yangbob1203 09/12 14:42推 已收藏

Hard1980 09/12 14:58變形金剛 跟 代幣

bruce10108 09/12 15:39

hoverfall 09/12 15:41沒有胡歌老公 差評

bbo6uis122 09/12 16:00

kkkandy 09/12 16:08太認真,害我看一半先跳出去確認ID

ETTom 09/12 16:21感謝科普優文!

biore45 09/12 16:30推 已收藏

xhung 09/12 16:44八卦優文

huabandd 09/12 17:33其實交給gemini 就好了,能夠不斷追問

huabandd 09/12 17:33,問到你不懂不行啊

cklan 09/12 18:02推解釋

TeddyisaBear 09/12 18:23後面那段QKV介紹的很棒推推

cmcmcmcm2 09/12 18:37推 清晰有料

coldeath 09/12 18:56沒有

nitero 09/12 19:00Embedding 內積 不用 除以 開根號 維度嗎

vorsss 09/12 19:27長知識了

younglong 09/12 20:12這篇知識量 滿滿

selvester 09/12 20:15我一直覺得諷刺的語氣與端正語氣 以及

selvester 09/12 20:15用端正語氣諷刺 在embedding到底

selvester 09/12 20:15向量算不算相近

Lukewear 09/12 20:47Good

Shiva 09/12 22:16長知識優文

Shiva 09/12 22:17transformer會被mamba取代嗎?

ericwang1017 09/12 23:07簡單清楚的說明,好文

jack5756 09/13 01:06專業

ocf951753 09/13 01:14謝謝老師 但真的看不懂

aaaaajack 09/13 05:31優文

NotForever 09/13 07:57謝謝解說

srwhite 09/13 08:43感謝