Re: [心得] WWDC24節錄-系統級個人助理面世
自己回自己的文,給想進入AI生活的人一點知識科普,順便闢謠一下網路上漫天飛的錯誤資訊。
===
個人裝置跑『大模型、小模型』,大小如何定義?
以下節錄台大洪教授的臉書文字內容:
https://www.facebook.com/share/8EmqkoYmn8j9mstY/
在個人裝置上跑大小型語言模型
驅動當今AI服務的核心引擎是大型語言模型(LLM),但這類名詞就像大數據(Big Data)一樣,對於所謂的「大」,並沒有明確的定義,因此往往被錯誤或浮濫使用。
這篇就來談談語言模型的大小,以及在現在的個人裝置上能跑多大的語言模型。
話說,GPT2在2019年出現江湖時,是當時最大的LLM,不過它1.5B的參數量[1],還不到2020年GPT3的175B參數的百分之一,當然就更不用跟現在的GPT4比大小了。
這些「比較小的大型語言模型」也是有用的,因為有成本低、速度快的優勢。但「比較小的大型語言模型」這樣稱呼實在蠻矛盾詭異的,所以最近有人開始使用「小型語言模型」(SLM)這個名詞來稱呼之,但千萬不要以爲SLM真的小。
今年四月發佈的Llama3,有三個訓練好的開源版本:8B、70B、400B,不過其中400B的版本說是敬請期待,還沒有實際釋出[2]。如果以此為參考基準,8B的版本可算是SLM,400B是LLM,那介於其中的70B該算SLM還是LLM,或者稱之為MLM?
先不管稱呼的問題,雖然大小不同,這三款語言模型都使用15T tokens的資料集進行訓練,據說訓練過程總共花了100,000 petaFLOPS-day的大算力[2]。訓練8B的模型花了1,300,000 GPU hours,排放了390噸的二氧化碳;訓練70B的模型花了6,400,000 GPU hours,排放了1900噸的二氧化碳[3]。Meta用的是最新的Nvidia H100 GPU ,每張耗電700瓦。
想從零開始訓練模型的話,得先盤點一下,自己的手上有多少訓練資料,再評估一下能否負擔這些算力的需求。不過我覺得Meta公開的算力需求有點少,應該沒有把失敗的過程算進來,或許是不想讓碳排放量看起來太高。
架構和源頭相同的模型,才能這麽比較。據說Llama3的8B模型的能力約略可與Llama2的70B模型抗衡,因為Llama2的訓練資料集「只」有2T tokens [3]。Meta在發表Llama3的時候也跟其他公司的模型比較[4],但參考這種評比結果時要小心,因為廠商通常都只報喜不報憂,開發者最好是拿自己應用的情境去實際測試。
這陣子廠商猛推的AI PC、Copilot Windows、On-Device AI,標榜在個人裝置上跑AI,對應用開發者和使用者來說,AI的能力越強越好,但這些裝置上究竟跑得動多大的語言模型呢?
首先要看的是記憶體的容量。
SLM的問題較小。以Llama3的8B開源模型為例,下載標準的16位元浮點數(FP16)版本,每個參數需要2個bytes,如果要把8B的參數都放進記憶體的話,記憶體的容量大概要16GB,因此目前的AI PC的最低規格16GB是勉強堪用的。若是記憶體不夠用,計算的過程就可能會變得很慢。
軟體的解法是把模型壓縮得更小一些,例如用FP8或INT8取代FP16,參數所需的記憶體空間就減半,但這麼一來會讓模型變笨。但應用開發者可以將壓縮變笨的模型再做一些特訓,讓它在特定應用領域上表現稱職,這就是之前講過的專家模型。
不想讓模型變笨,硬解的方法是增大記憶體容量。CPU的記憶體容量更大,能夠放進更大的模型。FP16的Llama3 70B模型概算需要140GB,大概會超出一般的個人電腦的記憶體容量。工作站和伺服器可以放進幾個TB的記憶體,但是用CPU來跑這個規模的LLM實在太慢,性價比也很低,通常會用NPU或GPU。
PC上加裝的獨立顯卡上有GPU專用的記憶體,其容量決定了可執行的模型大小。高階遊戲顯卡配備16GB以上的記憶體,應該跑得動Llama3 8B,但Nvidia和AMD最高階的遊戲顯卡不約而同都只給到24GB,所以不要幻想在遊戲顯卡上能把原版的Llama3 70B跑好。
但即便是目前市場上最大專業顯卡,Nvidia的H100,每張顯卡上的記憶體也只有80GB,還是放不進原版的Llama3 70B,又不想讓模型變笨,那該怎麼辦?答案是把模型拆開來,用多張顯卡一起跑。兩張80GB版本的A100或H100,記憶體合計160GB就夠了,但所費不貲。有人想用6張24GB的RTX4090顯卡來做這件事,但這些卡需要透過PCIe介面交換資料的負擔會讓速度降低不少。
其次是記憶體的頻寬。
很多人使用GPU跑LLM,不只因為GPU算力高,而且也因為GPU用上了比CPU頻寬高出一大截的記憶體。RTX 4090的記憶體頻寬是1TB/s,而Intel Core Ultra 7 165H的記憶體頻寬只有120GB/s,足足差了8倍。概算一下,要讓Core Ultra 7讀一遍140GB的模型參數,就要超過一秒鐘!這樣要如何即時反應?如果每處理一個token都要再讀一遍,那還得了。
當然軟體上會做一些優化,盡可能利用已經從記憶體讀進來的參數,不要讓每個token進來後都要重複再讀同樣的參數,因此優化的技術相當重要,但先天記憶體頻寬的差異還是會有顯著的影響。
要知道GPU架構設計的理念和CPU先天上不同,非常重視高頻寬,而CPU比GPU在存取記憶體的時候更重視低延遲。很現實的問題是,如果高頻寬和低延遲都要最好的話,那就會變得很昂貴。
[1] B是Billion的縮寫,10的9次方,也可以用G或Giga來代表。T是Trillion或Tera的縮寫,10的12次方。P是Peta的縮寫,10的15次方。
[2] https://en.wikipedia.org/wiki/Llama_(language_model)
[3] https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
[4] https://techcrunch.com/....../meta-releases-llama-3....../
===
Q:阿婆這次的3B模型是不是自己的?
A:是,有開源在網路上。
https://machinelearning.apple.com/research/openelm
蘋果在四月的時候給自己發了個搞,說明自己開源的OpenELM是為一種開放式訓練及推理框架的高效率語言模型。裡面有附上原始碼頁面在GitHub上面,以及在AI討論區HuggingFace上。
https://github.com/apple/corenet
https://huggingface.co/apple/OpenELM
===
Q:阿婆完全照搬OpenAI的GPT模型嗎?
A:沒有,這次提供的是本地自家模型以串接的方式連動GPT模型,也提供用戶關閉此功能的選項。
===
Q:除了本機端上的模型,發表會還有提到蘋果自家的私有雲端伺服器?
A:是,相較於本機端的模型,阿婆保證自己的資料不會儲存在雲端上,也保證一定程度的隱私,比較像是私有雲端預訓練一個模板,提供一定程度的格式回答,而空格填入使用者隱私資訊的方式連動。
===
Q:幹嘛不下放到A14以後的晶片使用?
A:除開NPU算力足夠以外,對於AI自然語言模型的關鍵還是在於記憶體大小,去年發表會只有iPhone 15 Pro有達到8GB記憶體門檻,其餘以下設備未達的情況下,阿婆想保證這項AI使用順暢易用,就只有提高使用門檻,畢竟在此之前iPhone等終端設備也有一些AI應用(非生成式模型推理),勢必佔用記憶體,我想阿婆有所考量。
===
Q:這次的AI相比他牌的AI有什麼優勢?
A:其實發表會反覆提及到App Intents API,這個API直接決定了未來Siri能否達成非常順滑的使用體驗,畢竟這種系統底層的權限,現在只有封閉環境的阿婆有辦法大力整合推行。
而且之後的開發者統一指標就是能否透過這個API讓系統得以間接使用手機內既有的資訊跳轉。
阿婆在發表會後半段也有初步演示如何透過一段對話得知過往在終端內的資訊(飛機資訊那段)。
===
Q:中文的AI應用還要等明年,何時也沒說清楚,到時早就被超車?
A:雖說科技這門就是先上車佔有先機就有優勢,但演算法每天每週每月也都會有新的改進更新,是否被超車,我覺得阿婆在發表會裡面已經先豎立自己對於這個蘋果智能的目標了,也就是那五大宗旨。而且阿婆很明顯不會想跟進OpenAI的訓練方式去對待自己的模型,有違他們的願景(不外乎就是資料來源跟隱私的問題)
===
現在WWDC也還沒結束,何況英文版預計秋季才開放,還有很多消息等落地的。
--
幫翻譯:之前的ai都只是花拳繡腿,現在蘋果自身ai+
gpt,系統級ai屌虐眾生!蹲那麼久就是為了給最好!
好好一篇科普文結果第一個回覆就是這種東西
iPad Pro 12GB Ram 中隱藏的4GB感覺就蠻適合放模型
的
3B+參數量化+各種壓縮技巧才能跑在iphone上
蘋果和主流LLM通才路線不一樣,走的是finetune專才路線
所以不用期待siri會多聰明多冷門的資訊都能回答
但是常見的summarization可以做的很不錯
原本期待統一記憶體架構能讓蘋果的AI在記憶體較足(>=16GB)的
Mac上讓GPU NPU伸展手腳,看起來在統一電腦平板手機使用體驗
的前提下不得不將就蘋果平板手機都不是很普遍的8GB RAM
而且這個螢幕識別應該會跟rewind ai類似,是持續紀錄使
用狀態的重要訊息,而非畫圈搜索僅針對單張截圖去識別
錢這麼多才3B喔,真的有夠摳
46
[情報] 隨著蘋果發布新AI模型,這表示iPhone 16隨著蘋果發布新AI模型,這表示iPhone 16將成為軟硬體都具AI支援的首個產品 【情報來源】 原網址: 短網址: 【情報/優惠內容】21
Re: [問卦] 為什麼AI 這2-3年進步這麼神速?我剛好研究所讀資工領域的。 你應該知道在這次AI大模型震撼世人之前,電腦科學界在紅啥嗎?? 就是Big Data,大數據,資料探勘。 但是因為"算力"不足,所以在十年前,幾乎都是關注於儲存與基礎處理而已。 譬如NoSQL數據庫與一些簡單的資料探勘,那個時候SVM分析歸類資料可火的。18
Re: [新聞] 聯發科AI平台MediaTek DaVinci「達哥」原文恕刪 小弟剛好最近有跟到一些台灣LLM的發展,可以補充一下關於模型的部分。聯發科的研究 單位聯發創新基地,做語言模型有一段時間了,之前有一版Breeze-7B模型,發佈了一篇 技術論文放在arxiv:17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然5
Re: [新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI那個 我記得以前的新聞是這樣講的 防止簡體版AI偏見,產官學聯手開發繁體版AI語音模型 聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點 ,更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展,此次結合中研院及 國教院,成為台灣極少數能訓練大型語言模型的團隊,既發展自主訓練大型人工智慧模型5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?X
[討論] 分析師:明年iPhone 16整合生成式AI郭明錤7日在社群平台X貼文表示,蘋果今年第3季改組Siri團隊,目標整合生成式AI功能和大型語言模型(LLM)。 郭明錤指出,手機的語音輸入功能是生成式AI和LLM應用的關鍵介面,蘋果強化Siri軟硬體功能與規格,是推廣生成式AI應用的關鍵。 強化Siri使用體驗。他認為,蘋果預計整合Siri更多生成式AI功能,可能是iPhone 16主要賣點的證明之一。 觀察邊緣AI手機裝置應用趨勢,美系外資法人報告分析,重點在哪種關鍵零組件明顯升級,以及哪個手機製造商帶領科技革新浪潮之一。 From 中央社- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬