Re: [問卦] 聯考數學95聽不懂LLM原理正常嗎
※ 引述《Supasizeit (Shitpost King)》之銘言:
: 阿北當年聯考數學95
: 可是沒有念資工
: 今天心血來潮
: 嘗試理解LLM transformer 原理
: 可是講到token就聽不懂了
: 然後又變成embedding
: 弄一弄變成weights
: 怎麼突然就變成attention block
: 這不是大學生每個都懂的東西嗎
: 我是不是失智了
LLM就像一個大型的圖書館加大腦
Token就是模型「讀字的最小單位」
例如說:"我今天很開心"這句子
可以拆成 我、今天、很、開心
這樣四塊token
雖然不見得一個字詞就是一個token
但大致上你可以看成是模型理解自然語言的最小單位
embedding就是向量座標,
你可以想像成在一張大地圖上,
紀錄放置「字詞意義」的位置,用來幫助llm理解語意
像是"香蕉"和"螺絲起子"語意地圖上可能會離很遠、
"香蕉"和"水果"可能就會在地圖上放得很近,
這樣歸類放置之後LLM可以更快更清晰的理解意思。
Weights比重就像是食譜,
一樣以「我今天很開心」這個句子舉例,
應該是「今天」比較重要、還是「很開心」比較重要?
是基於長期訓練的結果,
LLM的結果呈現是由大量的數學運算而來
Weights就像是控制要加多少調味料的食譜,
是在訓練過程中控制、調整的,長期訓練出來的知識。
Attention block你就當成是舞台上的聚光燈,
和weights有點像,是用來決定哪一個詞比較重要,
但Attention block架構中會動態調整其包含的weight
是短期的、當下處理token時決定聚焦在哪一個字詞。
放在一起看就是先想像成你是一個大廚,
Weights=做一份義大利麵要3個蕃茄+1大蒜
Attention block=根據客人的狀態,動態調整要不要多加一點鹽、
今天的蕃茄比較酸要不要多加其他調味料中和...之類的
雖然我是文組的,也不知道理解這個要幹嘛
也不知道我理解對還不對,
但概念上應該不算太難懂,給你參考。
-----
Sent from PttX on my iPhone
--
92
Re: [新聞] 矽谷又拋震撼彈!美國2大科技巨頭同時QQ 很多人都在說AI根本沒獲利 現在AI軍備競賽都只是泡沫 在講真實情況前 先來簡單科普一下genAI這鬼玩意 genAI是自從foundation model這玩意興起後出現的一種顯學 大體而言就是透過用一堆野生資料 去做預訓練(pre-training) 使得這類模型 之後在做下游任務(有答案數據標籤) 可以透過少量資料 去做許多高效能任務![Re: [新聞] 矽谷又拋震撼彈!美國2大科技巨頭同時 Re: [新聞] 矽谷又拋震撼彈!美國2大科技巨頭同時](https://img.youtube.com/vi/xe9BCwD_yVw/mqdefault.jpg)
73
Re: [標的] NVDA/AMD 討論 多哪隻人類離變成電池之日越來越近了QQ 這邊是一個openai的demo整理 稍微細拆一下上面的demo一些隱藏意義 誠如之前所說的2023 Text-Based GPT4出現後 業界就直接看到戰場要往多模態拚殺 多模態意思就是餵給這些LLM模型從文字理解世界![Re: [標的] NVDA/AMD 討論 多哪隻 Re: [標的] NVDA/AMD 討論 多哪隻](https://img.youtube.com/vi/VP2-8jIurUE/mqdefault.jpg)
26
Re: [心得] 蘋果揭露人工智能並不思考1. 首先 , 蘋果是最沒資格說話的 先看看蘋果AI的鳥樣 2. 蘋果 : 人工智能不能思考 這句話有很大的問題 現在的AI主流是經由大量資料訓練X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://llama-chat-4fcmny015-replicate.vercel.app/opengraph-image.png?0806238e04f3e3af)
12
Re: [心得] 蘋果揭露人工智能並不思考首先啦,在公眾對於AI發展的看法,有個很有趣的現象。 就是只要AI會做了某件任務,就會直接說,這不需要"思考"。 譬如AI在二十幾年前打敗西洋棋棋王,後來華生也打敗益智節目的人類冠軍。 人們直覺反應就是這不是思考啦,西洋棋就是暴力算棋譜,益智節目背題庫就好啦。 到了十年前還有人認為AI永遠不可能擊敗人類棋王,因為圍棋不是硬靠算力可以暴力解的。10
Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不解決幻覺,不一定要從LLM解, 而是靠系統架構解。 例如,做一個問答系統,很多人減少幻覺是這樣做的: 0. 預先整理好QA問答資料集 (人工整理,或機器輔助整理)9
Re: [閒聊] 低等動物被認為有意識,那AI難道沒有嗎?對於AI有沒有意識這點 apple團隊前陣子有篇論文就是探討這個 《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》 簡單說結論就是,LLM看似在思考,實則沒有(天根我) 團隊找了一些經典問題,1
Re: [新聞]開店給AI當店長!1個月「資產淨值-25%」現在哪個模型都不可能 承擔這種任務啊 這不是使用前就該知道的事? 讓你整個模型訓練世界完美毫無破綻 問題是輸入端有限制啊
Re: [請益] AI伺服器成本分析——記憶體是最大的輸家請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬![Re: [請益] AI伺服器成本分析——記憶體是最大的輸家 Re: [請益] AI伺服器成本分析——記憶體是最大的輸家](https://picx.zhimg.com/v2-f6c2a117d2575f6cd3b85af859ad7f20_l.jpg?source=172ae18b)