Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎
※ 引述《Supasizeit (Shitpost King)》之銘言:
: 阿北當年聯考數學95
: 可是沒有念資工
: 今天心血來潮
: 嘗試理解LLM transformer 原理
: 可是講到token就聽不懂了
: 然後又變成embedding
: 弄一弄變成weights
: 怎麼突然就變成attention block
: 這不是大學生每個都懂的東西嗎
不是
: 我是不是失智了
所謂語言模型在處理什麼?其實就是人類的語言嘛。
所以除了要數學上的思考,也要站在人類語言的角度去理解。
那麼,token 是什麼?
其實就是模型讀入的最小單位。
這個 token 可能是word subword(類似字首字根) character等等。
英文主流的做法多半是用subword來分(如果有錯請糾正 XD)。
為什麼要這樣分?
想一想其實很合理。對人類來說,語言中意義的最小單位是什麼?
像 "dog" 這個字沒什麼好拆的,如果拆成 "d" 和 "og",對人類完全沒意義,和「狗」無關。
但有些字是由小單位的意義組成,例如 re-organ-ization。
怎麼切的話,算是演算法決定的,
不過,表現好的切法,通常人類看了也會覺得切得有道理。
Embedding 就是把每個詞轉換成向量。
因為模型只能處理數字,
所以需要建立一個 token → embedding(向量) 的對應表,
再把語言的意義透過向量來處理。
問題是,怎麼建立這個對應表?
在機器學習裡,最簡單的方式就是 one-hot。
例如:
dog → (1,0,0)
cat → (0,1,0)
mouse → (0,0,1)
可是這樣效率很差。
語言裡動輒上萬個 token,多語言甚至可能上百萬。
這樣輸入輸出的維度就超大,還有很多同義詞、近義詞白白浪費空間。
因此通常不會用 one-hot,而是對應到一個「較小維度」的向量空間(幾百到幾千維)。而且這些向量對應不是隨便定義,而是透過模型訓練學出來的。
這樣才能讓向量比較具備語義,例如:
cat 與 kitty 的距離最近
cat 與 dog 比較遠
cat 與 car 幾乎沒關係
簡單來說,embedding 就是在機器學習裡,
模型可讀取的意義/資訊表達,通常是一個多維向量。
是機器理解概念的方式。
至於 Transformer,可以想成對人類理解語言方式的一種模仿。
網路流行說:「每個字都看得懂,但合起來卻看不懂。」
這正是語言理解的關鍵——
人會先讀懂單字,再把上下文合起來理解。
文字擺在一起才有整體意義,
而單字的意義常常是上下文決定的。
舉例:
英文的 interest 可以指「利益」、「利息」、「興趣」。
當前後文提到貸款和數字時,我們會理解成「利息」。
當出現娛樂相關語境時,就會理解成「興趣」。
Transformer 的重點就是:
從原本的單詞意義出發(token/embedding),找出上下文關聯,合成新的語意,
新的、更精準的含上下文embedding (contextual embedding)。
哪些字彼此有關聯,模型就會把它們合起來看。
例如 interest 與 loan 一起出現時,模型就會發現它們高度相關,進而推斷這裡指的是「利息」。
Transformer 的核心是 自注意力機制。
它的訓練目標之一,就是讓模型學會:
某個 token(或 embedding)應該去「注意」哪些其他 token。
這就是所謂的「注意力」。
意思是:當看到這個詞時,應該去關注哪些相關的詞,
而這些相關詞會幫助模型正確理解它的意義。
所以不管是 token → embedding 的對應,還是 Transformer 的結構與訓練,
核心其實都是 字與字之間的關係。
也因此可以說:單一詞彙本身不構成意義,關係才構成意義。
現代機器學習方法,很多都是在模仿人類思考。
有時候拿來跟人類的理解、學習、思考方式對比,
會發現很有趣。
---
附:注意力的數學/模型簡論
token → embedding → (Q, K, V) embedding
後面這個箭頭,就是訓練的部分:
怎麼把原本的 embedding 轉成 Q、K、V。
V 基本上就是語意表達本身。
Q 可以理解成「這個 token 應該去找哪些的 token 來注意」。
K 可以理解成「這個 token 該被哪些其他 token 注意」。
兩個 token 之間的注意力,
就是它們各自的 Q 與 K 的內積。
內積越大,關係越強,模型就越會去注意。
於是就利用注意力加權合併,就得到含上下文資訊的新embedding。
---
回到你的問題
token -> 演算法切出的最小語意單元
embedding -> token的向量表示,好的embedding會包含字詞的意義訊息。
weights -> 應該是指 embedding轉成 V Q K 的參數(怎麼轉成VQK的)
attention block -> transformer很複雜,裡面可能會有很多上述的注意力小模型串聯
並聯,attention block應該就是指每個小部分。
有懂嗎?
--
沒有,但謝謝你的用心解說
這篇你打多久
長知識
懂了
講的很基礎
為什麼內積越大關係越強
模型算法是人訂的, 你先訂出內積越大關係越強 假如你模型訓練得好 之後訓練出來,相關文字的Q K向量,自然會相近 在理工方面這是很直覺的訂法,A B向量的相似程度就是 A‧B/(|A||B|) 在推薦系統的模型裡,也常常運用這概念
我以為是紅茶文,想說拉到最下面怎麼沒
有業業老公
推推
6樓該複習一下高中數學
內積越大代表這個向量在這個空間越靠近
彼此,也就是意義越近。反之也有意義相
反或者無相關性的概念存在。
在資料科學中也有一種叫做 cosine 相似
度 就是運用內積概念
有趣
看到一半往下找竟然沒出現胡歌老公
高手
人家聯考數學99分?
邏輯清晰 講得讓人淺顯易懂
好文推一下
有料
寫的超好懂,推一個
太早了 推
眼睛:懂了。腦子:蛤?
推,寫得很清楚
推
數甲90分,沒懂怎麼辦。我要從哪邊開始複
習
有問題的可能不是算術能力吧 除非矩陣向量都忘光, 也只有用到矩陣向量而已, 比較難的可能是概念。
眼睛: 懂了 腦袋:塞不下這麼多token
讚喔
不錯哦,感謝分享
長知識了
推
難得有優文
ptt真的是包羅萬象
推認真解說
懶得看但先推用心解說
講的很基礎也很清楚,謝謝
老師好
長知識了,推
好厲害講的外行人如我都能懂
QKV的解釋不錯
哇,不錯耶
億點點懂給推
推推
真難得 竟然沒有期待的胡歌老公出現
推
推 解釋得好
說明的很清楚 讚
長知識推
我看完前段想說是不是阿月
推
長知識 推
推
感謝優文
理解了
推!淺顯易懂
推
早
很好懂 謝謝
神經網路能不能的解釋一下 什麼是RNn CNN FNN
優文 推
GAN
終於有不是政治文的優質文了
推
學到了
有所收穫,謝謝。
推 給個讚 多懂了不少知識
好文感謝推!
ML的理論基礎其實跟資工也沒太大關係
就是 所以有些人會有種我明明會寫程式
卻看不懂在幹嘛的感覺
這是人類能理解的東西嗎
就是模仿人類思維
只是用程式模擬人類思維的方式
當然token目前最好模仿的還是語言
推
推一個
優文推
transformer原理翻成中文是什麼意思
?
樓上 變形金剛阿
專業
講的我也好像懂了!
講得很簡單清楚耶 是個高手
謝謝
能夠直觀理解
長知識 推
沒錯沒錯 跟我想的一樣
難得的優質文
transformer專業術語是變壓器
推
沒有業業老公
分享優文推
谷歌有出transformer的課程,解說搭配簡
易實作,真的想了解的話可以去看看,大
概半小時的課程就能有概念了
概念講清楚的很不容易
謝謝
太強了
推個
好專業 推個
漲姿勢
好久沒在八卦看到科普QQ
感謝分享,好像懂了一點
可以問為什麼是QKV這個想法嗎 我都只
推專業
找到QKV的解釋 但找不到為什麼是QKV
但不是用其他方法
感謝資訊梳理,難得八卦清流
推推
懂了
八卦墮落已久 哎
推
笑死,在八卦版這麼認真幹嘛
謝謝老師
推一個!
李宏毅幾班
推
挺有趣
少見的八卦優文
好文推爆
人家在講幹話你他媽那麼認真幹嘛XD
用心推
少見優文
有料
超讚 解釋的很好
真八卦
推
推優質好文
淺顯易懂 感謝分享
推專業
長知識了
好好懂
讚讚
基礎文很清楚給推
害我看到一半緊急拉到底 居然不是阿月XD
深入淺出 推個
優文
VQK比較快 類似用直覺講外語
其他方法例如RNN/LSTM比較慢 類似一個
人講外語時還在大腦排列文法順序
... 完全看不懂
以上回ice大 剛好最近看書跟AI討論過
深入淺出誒 謝謝說明
推 感謝教學
跟我想的一樣
優
很好懂,優文
推
神人
懂了 跟破音字一樣你看了其他字會知道
大推
怎麼念?
推熱心講解
不懂
感謝解說
害我以為紅茶冰
嗯嗯嗯 跟我想的差不多
講得真好,我一個純粹的外行人居然看懂
了
推
推
懂了 謝謝
謝謝你我看懂了,但沒能理解!!
解釋的很棒耶
長姿勢
優文
原來看八卦真的可以長知識
感謝你的解釋 我不懂了
齁齁
看到一半才想到要看id是不是張阿月
幹你不當老師太可惜,我非資工都有點理解了
優文
這知識量滿滿,已愛
推,感謝大神
你講的太淺了
看完這篇是不是等於我聯考數學95分?
推
謝謝解說
好多符號學的概念..
所以能知道青鳥腦袋為什麼有問題了嗎?就
推!push!!! dog!!! cat!!! car!!!
是整個模型跟神經網路都有問題
長知識
學到了,推
優文
做Nlp的
推
有料
優文推
我曾經想過如何讓電腦理解自然語言
跟著推避免別人發現我看不懂
這篇解釋的原理和我預想的差不多
樓下說懂了
專業推
推
而AI會產生幻覺也不難理解,因為當
推
好猛
輸入的資料太少見,導致他連結的token
用心文
推推,好像懂了好像懂了
太少,AI就只能抓到一些奇怪的東西
其實原理蠻好懂的 就像教小孩子的那套拿來教
這時候AI就誤會我們的語意、另一方面
電腦 給小孩子看一堆例子讓他們自己建立連結
舉一反三
當初程式設計應該是一定要有回應,所以
好強
學到了
只是給電腦看的要多一步數位化 因為電腦只懂
少用的詞彙、或一直輸入相同命令但要求
數字
我數學不好也懂LLM了,這篇值得M
怎麼不是阿月文?
長姿勢
好久不見的知識性優文
胡歌老公呢
推1樓
推
懂了 感謝你的解說
推
U文
專業文沒看到業業老公很不習慣
難怪有人說漢字系統屌打拼音系統
謝謝
推
最後沒有胡歌老公 差評
謝謝解說!
推
還我阿月
推
但是看到這種知識文都會下意識看id
是正常的嗎?
這年頭優文不多了
對啊 就是卡在那個多維度向量 然後還
要分層attend
那篇根本來亂的
不過廢文釣出優文 深感欣慰
前面問為什麼是QKV 答案是沒有為什麼
亂個屁 我真的有去研究
這就人訂的規則
Attention Is All You Need 一定要看
這篇根本也只講皮毛而已
懂了 謝謝 明天考台大資工
長知識推
謝謝,雖然看不懂,但感覺很專業
這跟數學幾分一點關係都沒有 是理解力的
而且cat 跟 dog 的向量還可以相減 結
問題
果跟fox wolf類似 這太神奇了 怎麼搞
出來的
幫推個
好像懂了又好像不懂,謝謝不是老公文的葛格
最大的重點就在注意力機制 但單是這個門檻
就很難普及理解了
優文值得推一個
推
類似中文有時候文字順序混亂但人還是看的懂
個人認為是相同的道理 但是這個方法有缺點
因為只有關係沒有順序 對特定需要順序的狀況
效果就很有限 所以是AI有時會出錯的原因之一
推認真解釋,淺顯易懂
數乙 50 分的我看完這篇感覺數學變好
原PO講的不深但這正好適合普羅大眾
了!
這些背後包含MLP都是統計學跟工程數學的
公式
只會高中數學看不懂很正常吧
不懂台灣人整天強調自己高中多強幹嘛
皮毛學的很好很猛嗎
難得好文
程式大多數的數學原理也都沒有很複雜其實
認真文 推爆
但是在對的時間地點方向用能說的就多了
認真文給推
許久不見的八卦好文
好
好文推推
幸好我早就知道了
推
害我看一下id 還好沒有老公
因為這跟數學沒關係啊==
底層建立於數學運算 但一般人開始學根本
也碰不到底層 然後高中數學程度想要摸進
去底層更是天方夜譚
推
已經過了五年,主流技術還在attention
跟transformer喔?
講得真好!
是阿,所以才在洗應用市場
推
推
謝謝老師!
推 看完是懂了,但要怎麼轉換成程式?
跟數學有關啦,這些搞來搞去沒超出一個mo
dule
可以看李宏毅教授的ML
可以解釋到外行的也能初步理解真的
厲害
原則上線代夠好就都很簡單;畢竟這些都是
已經被簡化過的concept,麻煩的是硬體加
速那些
就微分 矩陣亂試參數跑最佳化存起來
推
推
有料給推
從運算的角度來看就是 一堆矩陣乘法加法
訓練就是微分去找局部最佳解方式 跑跑看
大家都知道多元多次方程式複雜到一個程度
外行人懂了 但感覺實操一定很難
最佳化都是在試錯 這也是為什麼訓練算力
要超大超快 不然等好幾天出來結果爛掉
簡單來說就是用線性代數表達人類語言
但是語詞關係接龍不等於建立邏輯關係 雖
然乍看表現很像 但LLM其實有點像教小學生
把上面這段話 和全世界的話都背起來+給它
外掛這個詞最有可能接哪個詞的提示
語言廣度的背誦超過人類 語詞關係的記憶
推優文
超過人類 但是語詞理解建構的能力未知
的確是教小朋友啊
看到爸爸要叫爸爸
看到媽媽要叫媽媽
你小時候怎麼學的就怎麼教電腦
只是把學習的方式用數學模型寫出來
推
快推不然別人以為我們看不懂
可是看到猩猩叫泥歌會被強制用規則鎖
住不能回
一開始我以為 是紅茶冰的文
推個
完全不知道你在說什麼,淡還是謝謝你
好怕最後看到胡歌老公 先看留言==
認真推~~
好猛
寫的很不錯
紅茶冰的文筆跟原po不太一樣 推一個免
得被人笑看不懂
推
不就海龍公式而已推一推
推
不是張阿月給推
優文推
為什麼我看完三行會先確認不是張阿月?!!
專業文嚇怕
push
推知識文
這一篇文章值 350 P幣
本來還期待胡歌老公
推
推
突然一篇認真專業文 嚇到
推
謝謝
看不懂,但是長知識了
認真
嗯嗯 跟我想的一樣
講解得太好了 終於理解token 向量 tran
sformer的意義了 非常感謝 我也懂AI了
認真寫文推
好清楚明白
學了deep learning之後的我:線性代數、
線性代數、還是TMD線性代數
推
我懂 但我保證他還是不懂
嗯嗯,跟我想得一樣
好厲害
推
優質好文
推一個 用心
差點以為是啊月= =
好厲害 簡單易懂
厲害
你是不是以為你已經簡化了==
推專業
你好會解釋,連小白都聽懂了
推
科學家到底怎麼知道kernel放幾層比較好
? 還是隨便試?
好文,可惜沒業業老公
有料
蠻簡單的 可惜問題不夠精確 電腦會回答錯
的答案
tokenize跟embedding很好理解 開始訓練tr
ansformer就不知道在衝三小了 線性代數
懂了 感謝
推
其實寫得很好耶 只是中間開始擔心後面是..
好
看懂了 感謝 好文推一下
指考數學95分 跟你會不會ai有什麼關
聯性?
用LLM來解釋英文單字的意思~
懂,講的真好,甚至跳著看也邏輯清楚
專業科普推
文組都能懂,給推
好文,我碩一上機器學習,前幾節課講
大剛打屁後馬上開始帶KNN、森林CNN
好奇LLM都是用英文做基礎模式,用中文做LLM
結果是一樣的嗎?
謝謝分享
看完突然能理解為何中文模型不好做
了
認真文要推
morphology, syntax, semantics, pragm
atics還有computational linguistics
難得優文 謝解釋
推
推
靠 八卦回來了
剛做完的碩論也有用到Transformer...
推 已收藏
變形金剛 跟 代幣
強
沒有胡歌老公 差評
推
太認真,害我看一半先跳出去確認ID
感謝科普優文!
推 已收藏
八卦優文
其實交給gemini 就好了,能夠不斷追問
,問到你不懂不行啊
推解釋
後面那段QKV介紹的很棒推推
推 清晰有料
沒有
Embedding 內積 不用 除以 開根號 維度嗎
長知識了
這篇知識量 滿滿
我一直覺得諷刺的語氣與端正語氣 以及
用端正語氣諷刺 在embedding到底
向量算不算相近
Good
長知識優文
transformer會被mamba取代嗎?
簡單清楚的說明,好文
專業
謝謝老師 但真的看不懂
優文
謝謝解說
感謝
81
[問卦] 法官由AI來做有搞頭嗎這個在技術上是可以做到的 首先禁止fine-tune 成有政黨意識的AI模型 並透過RAG技術(Retrieval Augmented Generation) 採用未經訓練的LLM大型語言模型 將法條及過去所有判決書內容都chunking切片後embedding 轉成特徵向量![[問卦] 法官由AI來做有搞頭嗎 [問卦] 法官由AI來做有搞頭嗎](https://i.imgur.com/AxkvF9sb.gif)
59
Re: [心得] 蘋果揭露人工智能並不思考大語言模型(LLM)它的原始目的是要「模仿人類回答出人類看得懂的答案。」 但跟人類的語言不同,你我使用的與言語表達會是一系列的文字規則, 例如「主詞,動詞,受詞」的SVO結構。 但模型本身並不是這樣學習的,它是把你看到的字,拆成詞素(token) 然後將這些詞向量化,變成一系列數列:10
Re: [Ai繪] 要如何把女孩弄進廂型車內角色會佔滿整個畫面很明顯是模型的問題 要生出想要的圖像 就需要對應的模型 大致過程是 1.先用合適的模型生好構圖![Re: [Ai繪] 要如何把女孩弄進廂型車內 Re: [Ai繪] 要如何把女孩弄進廂型車內](https://i.imgur.com/IASb8gBb.png)
10
[心得] 讓 AI 好好說話,兩步提示增強模型輸出Medium 好讀版: 大型語言模型 (LLM) 為自動化工作流程提供了很多幫助, 很多新的應用因為大型語言模型的出現,從不可能變為可能。 而為了使用模型的回答來串接不同的工作, 結構化輸出 (Structured Output) 幾乎不可或缺。![[心得] 讓 AI 好好說話,兩步提示增強模型輸出 [心得] 讓 AI 好好說話,兩步提示增強模型輸出](https://i.imgur.com/XJbjNh3b.jpg)
3
Re: [黑特] 黃國昌真的不懂AI耶!不知道政府是怎麼買 但是如果直接買來用就不對了 資料是舊的查詢就沒有意義了 所以應該要 方式一:API + 私有資料庫整合2
Re: [閒聊] Neuro真的有辦法做到理解圖像嗎大型語言模型本質上是文字接龍 你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字 當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token 接下來做的事情就一樣了 把這串濃縮feature token餵給模型 搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止2
Re: [問卦] word embedding是什麼神奇的東西??你有聽說過文字接龍吧? 那你想過電腦是怎麼跟你玩文字接龍的嗎? chatgpt就是一種經過練習的文字接龍。 embedding 字詞嵌入 這個東西 我們先說說他在做啥 但是略過 演算法的過程。 假設你有一句話1
Re: [問卦] 學習語言也需要天分嗎?目前市場上學習新語言的方式傾向採用「詞向量」, 詞向量是一種將詞語轉換成數值向量的技術,使得語義相似的詞語在向量空間中距離較近 這使得容易理解詞語之間的關係,進而應用於各種自然語言。 人類可以利用詞向量的各種技巧來學習英語,主要體現在以下幾個方面: 詞彙語義理解: