[閒聊] LLM 推理用機器
由於最近 LLM 發展越來越快,剛好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供應商的服務。
從前幾個月開始就有想要自己弄個機器來架設服務的想法。
最近開始也對高參數的模型越來越好奇,但由於大容量 VRAM 的 GPU 實在是買不起,所以想說是不是轉用 CPU 來玩玩看。
我看了很多技術分析和 Benchmark,基本上都說 LLM 的 inference 目前是 memory bound,也就是 memory bandwidth 是瓶頸。
所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的幾個型號,其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800,換算起來頻寬大概是主流 PC 的 3-4 倍。
但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
為了要用這顆 CPU,整個成本算起來根本不比買多張卡來得划算多少。
我就在想是不是還是 GPU 多卡買一買就好了,反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。
唯一想到的用途就是同時開很多個 instance 來服務不同的需求。
(上上個月還有海淘一張 2080Ti 22G 來試試看,結果用沒幾天就壞了... 還好能退)
最近也有在看 AMD 的 Strix Point,這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能,但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。
選 Strix Point 就等同於犧牲了當初追求的效能,但優點是低功耗而且便宜。
是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。
相比多卡的方案用 iGPU 的好處就是低功耗,但效能實在是天差地別。
有人也有類似的煩惱嗎?
我自己的話預算希望是 100k 以內,最多捏到 150k。
-----
Sent from JPTT on my Xiaomi 23127PN0CG.
--
何不先用AWS測試你需要什麼硬體規格再來
確實好像可以先去雲端平台租高階 CPU 來玩玩看,這我倒是之前沒想過。 之前對於雲端平台就只想到租 GPU 而已。
買?
用mac會不會比較好?
Mac 的話剛看了下 Mac Studio 好像也不是不行,但稍微爆預算。
4090 屌打各式CPU
用cpu跑太慢了 用gpu的話沒有40g以上的ram
根本塞不進LLM 有自己訓練的需求不如去租s
erver來用
我的需求只有推理,所以不需要考慮租用大 GPU 來訓練。
去對岸挖過時的EPYC比較有機會吧
如果你有辦法用cpu去跑的話
24通道 40萬台幣
不過這好像跟過時沒關係(X)
嚴重爆預算 這真的捏不了...
所以你還沒測過CPU跑的效果?
我有先用目前的配備用 CPU 跑過,7b q4 大概 12 t/s,我覺得已經夠用了。 但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s,遠遠達不到可用的狀態。 內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題,但就跟大模型說掰掰了。 以換換病的比喻就是吃了止痛藥但未來可能還會發作。
colab pro, AWS都可以先測試一下?
花個幾百塊台幣而已
嗯嗯 我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:05先試看看花多少時間建立環境跟調整 用用
看囉 Nvidia猛的是在生態
我自己跑GPT的心得是,瓶頸在GPU
可以考慮用vast租2-4張4090跑跑看感受下效
果
我的用途會比較像是長期在線的,主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。
然後還跟VRAM有關係,VRAM不夠,給的文章
長一點,就讀不下去了
我的意思是先用租的確認模型執行需要的vra
m,例如先跑q4評估精度、速度可不可用上下
文要多長,如果tps很夠用可以再考慮是否降
級改更多卡湊vram
是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力,所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比,不論是 CPU 還是 GPU 都是這個結果。
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:13:42這預算怎麼會是選INTEL,連垃圾佬都不
撿的東西(X
EPYC 7002 7003對岸撿不是隨便都比W5-3
435好嗎,你看我剛撿的7K62單顆都吊打3
435...你這預算都可以組雙路了吧
當初看上那顆是因為是 8 通道 DDR5 OAO
不是,你都已經研究到知道這玩意兒很吃
memory bandwidth 了怎麼還會想用CPU跑
?DDR跟GDDR是可以差一個數量級的欸
3090x4 + nvlink(非必要) 最簡單
價格也不會到無法負擔,只是二手風險高
llama.cpp的問題是高併發會輸vllm
除非要用cpu+gguf 4bit之類的模型
不然個人偏好還是vllm+gpu
然後12t/s超慢,顯卡隨便都能破百以上
再說即使只跑推理本質上還是一堆矩陣運
算,GPU還是比CPU有優勢
確實,之後也找一些二手卡來試試看多卡好了
這排版沒人噓?
感謝大家的建議,真的看到好多之前
沒有注意的盲點。我想我應該會先試
試看租高階 CPU 和多卡的機器來比較
看看,如果效能差異很明顯的話就直
接買多卡來組了。感謝大家~
用最丐的3060測試堆vram也比cpu快多了,70
B-Q4
預算夠就直上兩張4090比較實在
推論要用支援AMX指令集的CPU
不然就要模型有支援老黃的推論單元
EPYC又不支援AMX,最差選擇
除非是對資料隱私有需求 不然自己架LLM
做推論 電腦和冷氣電費、噪音加一加成
本太高了
啊如果真的要入坑就對岸撿一組EPYC組多
卡 或是用ARM Mac跑也許會比較安靜省電
AWS EC2 G5/G6 跑 inference
我跑Commamd R,記憶體沒爆還是慢到無法
接受(大概每秒1Token),處理器也跑不滿
,還是給VRAM跑吧
要塞70b的 就建議直上租借了...
70b 也只是入門
剛剛看到老黃推出了 340b
稍微看了一下 要inference
至少兩張 A100 or 一張 h100
這段演化真的衝很快,還是是老黃說了算
總之多學多看 實作真的可以省一點
論文現在是天天噴發 llama2才發布多久
llama3就出來 迭代太快了
你這完全沒研究的不如先去租個容器來用看看
再說
有個麻煩的地方 現在這些模型和硬體超級
快 自己買硬體弄這些 會不會很快就跟不上
更好的模型的基本需求? 更高效率的硬體
或是 更棒的模型但基本需求也快速提升
之類的 這跟現在一般自組電腦對應的需求
完全不同
建議你好好研究模型Inference 是用什麼
現在噴發期除發為了賺錢不然真的不建議
為了興趣砸大錢
然後所有人都在搞gpu的項目為什麼要自己
想繞過去用cpu搞自己....
爆
Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售你劃錯重點, 先不論這篇論文的可行性與實用性, 你真的劃錯重點了 算力重要嗎? 重要但是不是影響販售/採購晶片的主因,73
Re: [請益] NVDA跟AMD怎麼突然崩了週末有點時間 之前寫的老黃故事 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力 簡言之 2018以前 AI模型 都是透過數據 去學習資料上的標註資料 來做人類事先規範好的目的 而機器透過這些標注數據 去達到人類要求的事情 當模型遇到一個沒看過的數據 或者場景變得不同 模型就會失效 甚至無法處理60
[情報] AMD即將推出的Zen 5 CPU核心 效能可能比ZAMD 即將推出的 Zen 5 CPU 核心,效能可能比 Zen 4 核心快 40% 一場桌上型處理器大戰即將在今年底到來,但我們對超微(AMD)、英特爾(Intel)下一代處理器效能規格與效能仍知之甚少。據國外消息人士 Kepler_L2 透露,AMD 預計下半年發布的全新 Zen 5 CPU 微架構,核心效能將比 Zen 4 快 40% 以上。 AMD Zen 5 CPU 架構採用台積電 3 奈米製程,目前各界對 Zen 5 CPU 細節還不太清楚,但預計會提高性能效率、內建人工智慧和機器學習最佳化、前端重新管道化,據傳單核心效能提升 15%,多核心效能提升 30%,準備在今年下半年進攻桌上型電腦、筆記型電腦、伺服器等領域。 而據知名洩密者 Kepler_L2 最新發布文章,Zen 5 核心效能很可能比 Ryzen 7000 處理器(如 Ryzen 9 7950X)中使用的 Zen 4 核心快 40%。52
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。1
Re: [情報] AMD 7800XT/7700XT 售價US$449起 9/6上市AMD的GPU行銷真的是笨死了。每個人都拜託他們出24GB或48GB的卡,這麼簡單就大賣的方法不作。還在搞FSR,難道不知道現在是大AI時代嗎? 7800xtx 24GB,549鎂,還不賣爆。 79x0xtx 48GB,1200鎂,還不搶光。 現在一堆AI inference的需求,欠缺在ram不夠。Training也許還是不行,但inference社群作一堆了,就等你出卡而已。結果你出16GB??? 例如最近mlc-llm測試7900xtx 推理可達4090的80%。7
[菜單] 60K-70K 看盤遊戲機 + AI 繪圖 LLM已買/未買/已付訂金(元):未買 預算/用途: - 目前有 2 台顯示器 - 3440 x 1440 (34" 主螢幕) - 3840 x 2160 (27" 副螢幕, 4K 螢幕)6
Re: [新聞] 手機效能過剩了?近七成網友認為:沒必要小弟在幻想哪天移動端設備(手機)能執行大型語言模型LLM,這樣就不用仰賴雲端運算了 在這天的到來對之前我來說手機的效能沒有過剩的問題 由於摩爾定律失效,手機能跑LLM甚麼時候到來實在不好說3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事1
[問卦] 120b PT的LLM,你用過的感受和心得?Hugging Face的高手無極限, 推出了多種120b的LLM PT模型, 每個不但超大容量, 還可以只用CPU來跑, 而且號稱同時使用越多張高等級Nvidia顯卡,- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬