Re: [情報] 情報數則

FXW11314 發表於 2023/5/9 下午10:05:28

看板Military標題Re: [情報] 情報數則作者

FXW11314

(soukai)時間May 9 22:05:28 2023推噓爆推:101 噓:1 →:75

PTT評價

給太長直接End的：
沒人會用4090 train正經的模型
請愛用A100

-------------以下正文---------------
註：DL是Deep Learning
為了防止有人跟我吵說AI不只有深度學習blablabla
才特別寫明
不懂的話直接理解成AI就好

原文恕刪
先跟原PO道歉
我沒有要針對你
但我想原PO大概沒有認真搞過DL
有些觀念實在讓我不吐不快
雖然我也只是剛剛混了張紙的程度
但還是來丟個磚頭
有大神看到請小力鞭

BTW我也覺得米帝的制裁力道可以更大
但米帝絕不是像原PO說的傻跟笨

首先，正經做DL的肯定不是用4090
那種東西愛怎麼賣就怎麼賣
即使出了5090、6090
計算性能翻了兩倍三倍也沒關係

原因是絕大部分DL的瓶頸都在記憶體
主流的DL技術都包含了大量的矩陣運算
而矩陣運算的特色就是可以被高度的平行化
這也是為什麼沒人用CPU做DL
因為GPU或者ASIC隨便都是幾千個thread在做運算

記憶體的限制主要在兩個方面：容量跟頻寬
容量的話很簡單
爆掉就直接爆掉沒有第二句話
有摸過CUDA的話應該知道
叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體
也就是說如果你會用到的東西超過VRAM大小
那恭喜你可以討預算升級設備了

當年我們菸酒生要開工的時候因為老闆太摳
又不想排隊等公用的伺服器
所以都自己買一張卡
那時都在討論要買3060還是3070
同學的結論是3060因為有12G VRAM

而肥宅我因為貪圖3070提升遊戲FPS的副作用所以還是買了3070
結果就是train彩色圖片的時候就被OOM鐵拳狠狠教訓
土豪同學的3080倒是沒問題
總之核心不夠力只是慢了點不過還是能算完
但VRAM爆了就是爆了

所以正經的DL是不會有人拿4090的
至少也是V100 32G
好一點的拿A100 40G
更好的拿A100 80G
現在最強的應該是H100吧
80G起跳最大188G

你說能有多少資料
實際情況會依設定跟訓練資料不同
單純討論模型本身就好
給個大概的概念：
一個16bit float是2byte
VGG16的參數有138 Million(不包含bias或其他optimizer的參數)
那模型本身就要至少276MB
用32bit float就是552MB
而GPT3的參數是175 Billion
16bit存模型本身就超過300GB
32bit就是600GB
至於GPU怎麼塞300GB等等再討論

這還只是模型本身喔
實際訓練時要的資料
運算時需要的記憶體等等都還沒討論
有哪些可以看圖
https://imgur.com/g63dyUe
(Source: https://reurl.cc/Q4rQQp )

另一個瓶頸是頻寬
話不多說先上圖
https://imgur.com/XmrL54v
(Source: https://reurl.cc/7RGxaN )

前面說過
叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體
而灰色部分是程式在等待資料搬進記憶體佔總執行時間的百分比
可以看到mm那根棒棒超過90%
mm就是DL一直在做的矩陣乘法
這個搬進搬出的速度取決於頻寬
給個參考標準：
PCIE 5.0 SSD：約12GB/s
DDR4：約70GB/s
DDR5：約100GB/s
RTX3090：936.2GB/s
RTX4090：1008GB/s
V100S：1134GB/s
A100 40GB：約1500GB/s
A100 80GB：約2000GB/s
H100 188GB：7800GB/s

可以想像頻寬的影響有多大

再來談剛剛說了現在一個模型動輒幾百GB
整個train起來可能要幾TB
啊地表最強GPU也才188GB是要怎麼塞
答案是把GPU串起來

老黃的叫做NVLink
消費級最後支援NVLink的是3090
40系列全部不支援

蘇媽的...反正有跟沒有差不多

NVLink可以讓串在一起的GPU共用他們的記憶體
串8張A100 80GB就有640GB
可以說做DL生意的沒有不用NVLink的
當然這種共用的存取絕對比存取自己的記憶體慢很多
基本上現代DL發展的瓶頸就在這裡
給個參考數字：
V100：300GB/s
A100：600GB/s
H100 80GB：900GB/s

最後說說米帝幹了啥：
限制Nvidia把NVLink的速度降到400GB/s
就這樣

所以老黃把A100的NVLink閹了一刀改名A800

然後加價賣

為什麼我說米帝不蠢
你看他只砍一刀就砍在瓶頸
把瓶頸縮得更小
在幾乎沒損及美商利益的前提下造成最大的傷害
用過CUDA就知道那個生態系有多重要
基本上就是GPGPU的windows
你要是全禁了說不定他們自己煉蠱還真的煉出了個什麼來

但在有CUDA用的前提下
相信我
沒有人會想幹自己的
幹出來也沒人用

大概是這樣
下面談談我對原PO論點的看法

極權政府確實可以不論效率去幹一件事
但請別忘記資源是有限的
就AI這塊

不精確地說
DL本質上就是在一片無垠的解空間中隨便找個點開始往好的方向走
直到你走到你滿意的位置
或是走不下去從頭再來

當然高手可能每次都走得比你遠
而且可能幾次就找到他滿意的位置了
啊我們這種廢物就只能多走幾百次這樣

但基本上都有丟骰子的成分在
硬體效能的意義在於每丟一次要多久
而骰子在滾的期間無論你是高手還是廢物都是在等
只是廢物如我就直接去玩Switch
高手可能去學校教書或啃paper
於此同時你的對手可能已經滾完了在丟下一次

確實多買幾顆骰子可以解決問題
但請記得
中國在這方面的對手不只是任何一個政府
還有IBM、Google、微軟、Meta、Amazon等等科技巨頭
更不用說洛馬雷神波音這些牛鬼蛇神 <--- 軍武點(X
這些企業投入的資源可不會比中國政府少
更重要的是效率絕對比政府帶頭投入高出幾個數量級

還有
骰子是那個米帝的特級廚師一家獨大
他隨時可以把你的骰子再削一刀
--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.223.90 (臺灣)

※ PTT 網址

推

awhat 05/09 22:12推解釋得很清楚

※ 編輯: FXW11314 (125.229.223.90 臺灣), 05/09/2023 22:26:57

推

TUTOTO 05/09 22:20推

推

smallreader 05/09 22:21看不懂但推

推

ggeneration 05/09 22:22所以可以說在法條裡寫上這條規則肯定是業內狠角色

推

Sirctal : 沒看前後文我還以為我在電蝦板

05/09 22:22

[菜單] 習包子大撒B AI深度學習機

推

saygogo 05/09 22:23謝謝

→

ggeneration 05/09 22:23就跟之前工控機禁運令特意加上數據傳輸限幾十mb一樣

又不是不能用，但用起來很痛苦推

sas1942 : 看不懂但推+1

05/09 22:25

推

roseritter 05/09 22:26歐歐歐清楚的科普

※ 編輯: FXW11314 (125.229.223.90 臺灣), 05/09/2023 22:33:20

推

user048288ef05/09 22:29簡單明了，推

推

darkangel11905/09 22:29我還以為是電蝦版 XD

推

mudmud 05/09 22:29推業內解說

窩不是業內QQ

推

weimr 05/09 22:30推

→

alanjiang 05/09 22:31看到4090還以為走錯版XD

推

s891510 05/09 22:32我自己沒做DL 但身邊有做相關的講難聽點就是沒錢才

→

s891510 05/09 22:32去買消費級顯卡不然都會買專用卡不是財大氣粗而

→

s891510 05/09 22:32是真的速度有差

不只是速度問題，超過VRAM限制連跑都跑不起來不說了我碩班那種一覺起來發現OOM根本沒跑完的PTSD快發作了

推

patrickleeee05/09 22:35專業推

推

Schottky 05/09 22:36我以為我走錯板

推

s8626460 05/09 22:37感謝分享,卡頻寬就好,別人一天可以訓練完的量,阿共

推

steelgate 05/09 22:37推真的時間就是金錢而且真的差很多

推

ckbling 05/09 22:37有些公司就直接找AMA或是TWCC之類的服務商租算力了

→

ckbling 05/09 22:37 省事又不用折舊

推

LanJiao 05/09 22:37後面那一段同樣道理適用於任何產業沒辦法去市場競

→

LanJiao 05/09 22:37爭只服務於黨跟國家是很難有進步的砸再多錢都一樣

→

s8626460 05/09 22:37要好幾天時間才能訓練完,時間就是金錢,科技就是為了

→

s8626460 05/09 22:37省時間

推

scratch01 05/09 22:39我也以為我在電蝦版

推

Two2Seven 05/09 22:41電蝦也不會用到CUDA 吧，適用這些設備的也要配套

推

glad850 05/09 22:43看不懂還是要推

推

gwofeng 05/09 22:43來這就是買新的 (x

推

hababahawawa05/09 22:43看不懂但還是推

推

roy2142 05/09 22:47我重複出去又進來幾次確認我在軍事版xd

→

geordie 05/09 22:47玩線上遊戲沒顯卡，就算記憶體再多一樣也是卡卡卡

→

geordie 05/09 22:47（？

→

geordie 05/09 22:48不過有顯卡是否比較吃電啊？

推

Pegasus170 05/09 22:49這篇才真正解釋到目前機器學習及巨量資料會卡的瓶

→

Pegasus170 05/09 22:49頸。不要以為運算快就好，最麻煩的是資料遞送速度

→

Pegasus170 05/09 22:49跟指令集排程最佳化能力。一個考驗運算單位的設計

→

Pegasus170 05/09 22:49，一個考驗資料輸送時的過程。還有更機車的：把上

→

Pegasus170 05/09 22:49述兩個要件串在一起最佳化。

其實資料遞送是很多應用的瓶頸，比如遊戲看蘇媽的遊戲U暴力塞cache就知道

→

otis1713 05/09 22:50他不會來，只會裝死吧

推

asskid 05/09 22:50推

推

hprince 05/09 22:52我以為到電蝦

推

andyao1562 05/09 22:52推專業

推

php4 05/09 22:53人家可以在高速公路上飆車，中國只能在省道開快一

→

php4 05/09 22:53點的概念

→

huckerbying 05/09 22:53多一個硬體鐵定會更吃電啊，只是吃多吃少而已

推

Pegasus170 05/09 22:55人家美國的高速公路就算限速100，但還有設計高流量

→

Pegasus170 05/09 22:55專用道優最佳化，你中國的省道只有三條線，就算限

→

Pegasus170 05/09 22:55速拉到100也沒用。

推

wahaha99 05/09 22:55嗯,你是對的。你說的對。

→

huckerbying 05/09 22:55現在的遊戲用顯示卡都有切換高低負載的模式，避免你

→

wahaha99 05/09 22:56我以為瓶頸會在FP64那邊,然後是有限元素分析的障礙

→

Pegasus170 05/09 22:57然後美國高速公路是5(ordinary)+1(HOV)線

→

huckerbying 05/09 22:57只看個PTT就耗能爆炸

推

gn01642884 05/09 22:57讓我想到以前寫個ML作業用CPU跑就要一天。那時候最

→

gn01642884 05/09 22:57好的lib是openCV因為可以用顯卡加速...

前輩好先人們生活真的不容易啊據說當年Dean大神是手操32顆CPU自己幹神經網路

推

execration 05/09 22:57なるほどわからん

→

gn01642884 05/09 22:58只能說時代差了幾年就差了很多

→

geordie 05/09 22:58科技始終來自於人性

推

banamelon 05/09 23:01講直白點，如果砸錢能大力出奇蹟，阿共不知道出幾

→

banamelon 05/09 23:01個台積電了

→

huckerbying 05/09 23:01我記得以前學生物科技時有教授教用Medline資料庫去

推

henrytsai 05/09 23:01推專業

推

aegis43210 05/09 23:01軍事上現在都用AI加雲端運算啦，有了星鏈，你可以即

→

aegis43210 05/09 23:01時用超級電腦計算所有戰術方案及敵我辨識

這篇主要是談訓練，應用面的話不適用

推

heinse 05/09 23:02看不懂但是推專業

→

huckerbying 05/09 23:03跑序列比對，那個時候才幾Kb的序列就要花一兩天

推

Pegasus170 05/09 23:03但是星鍊資料搬運速度有限呀…

→

aegis43210 05/09 23:04而HPC的好壞就要看拓撲學，整個主機設計的好，你時

→

aegis43210 05/09 23:04效性就贏人好幾步

→

Pegasus170 05/09 23:04雲端運算最大問題還是資料搬運速度及運算元被軟體

→

Pegasus170 05/09 23:04切割。

推

Gjerry 05/09 23:07實際上應用的時候耗費的資源比訓練的時候少，網路

→

Gjerry 05/09 23:07帶寬影響搞不好比延遲小

→

geordie 05/09 23:07現在雲端技術最成功的是資料備份吧？

推

aegis43210 05/09 23:09AI推理不需要非常大頻寬，星鏈夠用了

→

huckerbying 05/09 23:09雲端技術最成功的是叫Container"容器"

推

utn875 05/09 23:10我走錯板了…

推

Gjerry 05/09 23:11雲端備份只是一小部分，微軟，亞馬遜，谷歌提供的

→

Gjerry 05/09 23:11雲端計算業務都還在快速成長。

→

ErnstvonBohr05/09 23:11確認好幾次自己是不是在電蝦XD

推

cross980115 05/09 23:12推科普

推

Gjerry 05/09 23:13容器化讓很多服務可以在同一台主機輕量又快速的部

→

Gjerry 05/09 23:13署 (跟虛擬機比起來)

推

iKelly 05/09 23:15我也差點以為我在電蝦板

推

aegis43210 05/09 23:18美國現在領先在矽光子交換器，未來會用在10Exascale

→

aegis43210 05/09 23:18等級的超級電腦，中國是完全追不上，而IBM的量子混

→

aegis43210 05/09 23:18合運算HPC也在實作中

所以那位米帝的特級廚師把mellanox給買下來了

推

hdjj 05/09 23:26推專業

推

hahabis 05/09 23:29感謝。我終於看懂了DL的意思

推

daniel1309 05/09 23:29這篇可以存起來。

噓

junellie 05/09 23:31抱歉紅明顯。每個領域都是這樣啊，一直說美帝蠢又

→

junellie 05/09 23:31壞的，一直蠢的是你自己，覺得壞是因為你不是站在

→

junellie 05/09 23:31美帝同一個陣營

推

b10036088 05/09 23:31我看了什麼東西但還是推了

推

zseineo 05/09 23:32想說在回誰，99不意外

推

ayau 05/09 23:37推

※ 編輯: FXW11314 (125.229.223.90 臺灣), 05/10/2023 00:02:32

推

izplus 05/09 23:45以為去錯版

推

eupa1973 05/09 23:50專業

推

deepelves 05/09 23:55可是以前是有實驗室用T-Rex做DL訓練還發了paper

→

deepelves 05/09 23:56如果是成本考量應該也不是不能用4090，畢竟A800很貴

學術研究的話當然可以也有很多研究是專注在如何不耗用太多訓練資源的前提下去訓練模型但畢竟LLM的爆發告訴我們大力是真的可以出奇蹟的所以不論商場還是戰場都還是在打算力的軍備競賽這是我所謂的正經

推

OldDaiDai 05/09 23:57推

※ 編輯: FXW11314 (125.229.223.90 臺灣), 05/10/2023 00:06:54

推

topper 05/10 00:08DL是啥？

理解成AI就好

※ 編輯: FXW11314 (125.229.223.90 臺灣), 05/10/2023 00:12:32

推

hahabis 05/10 00:12應該是Deep Learning吧

推

verdandy 05/10 00:12現在序列比對到NCBI就可以免費使用，還可以比對整個

→

verdandy 05/10 00:13幾乎收錄全物種序列的資料庫，科技的進步很驚人的

推

dos01 05/10 00:13最近很多人被媒體洗一洗就已為自己很懂AI

→

dos01 05/10 00:13但說真的那些大多數都只是炒股用語看多了就知道

推

attitudium 05/10 00:13看軍武長知識

→

dos01 05/10 00:13只是某些人炒股炒一炒又想要用股價割一波韭菜

→

dos01 05/10 00:13騙一些自以為懂的進去當韭菜而已...

→

verdandy 05/10 00:14就很多人以為AI很簡單

→

dos01 05/10 00:14AI的實際應用根本沒有這麼實際大多數都還只是跑了

→

dos01 05/10 00:15半天跑出一個根本不知道幹嘛的結果

跟我的論文一樣欸啊哈哈哈哈嗚嗚嗚嗚...

※ 編輯: FXW11314 (125.229.223.90 臺灣), 05/10/2023 00:19:34

推

AnderinSky 05/10 00:19推認真科普文

推

sexyboy5566 05/10 00:20美國永遠吸引世界最頂尖的人才和企業，中國？？？

→

sexyboy5566 05/10 00:20？

推

aquarius360 05/10 00:20推專業

→

diabolica 05/10 00:27未看先推

推

b325019 05/10 00:28學術研究經費就那樣，院級研究單位也是有拿遊戲卡來

→

b325019 05/10 00:28跑的

推

will7582 05/10 00:33我可能有點離題..但這就像中國宣稱突破EDA軟體一樣

→

will7582 05/10 00:34要寫軟體本身都可以寫但沒有工廠數據配合設計模型

→

will7582 05/10 00:35那東西根本不能用美國研發幾十年的東西中國三年

→

will7582 05/10 00:36就突破?

推

b325019 05/10 00:36對岸戰狼思維只能賺快錢這種東西他們玩不來

推

jasonspacex 05/10 00:40VRAM不夠 Batch也不能開大真的會OOM鐵拳吃好吃滿

推

massrelay 05/10 00:42推說明

推

jess730612 05/10 00:57雖然我都忘記什麼時候把你列入黑單但是你是懂行的

推

nfsong 05/10 00:58看了兩遍確認我在軍武版

→

nfsong 05/10 00:58看到情報數則有大事開心地點近來被騙

推

jess730612 05/10 01:06稍微再認真看這篇就算Tech_Job板當科普文都不會打槍

推

wbreeze 05/10 01:08感謝分享

推

difvoice 05/10 01:24其實說正經完全精確，我自己做輕量化object detect

→

difvoice 05/10 01:24ion的也發了兩篇ieee前段會議的一作，我用兩張1080

→

difvoice 05/10 01:24ti跟一張3090而已

→

difvoice 05/10 01:25*不完全精確

推

viper0423 05/10 01:48非資訊類的工科社會人,內容簡單明瞭容易理解給推

推

jetalpha 05/10 02:01推說明

推

aicassia 05/10 03:39只能給推了舉例說明很清楚易懂讓我擔心了一下會

→

aicassia 05/10 03:39不會出現胡歌老公之類的

推

PopeVic 05/10 03:41推，離題最近實驗室想搞vGPU但消費級驅動沒支援，

→

PopeVic 05/10 03:41非得要去買 A 系列，專業級真的是被 NV 吃死死QQ

推

KenshinCS 05/10 03:53很好的科普

推

mekiael 05/10 05:30粉紅的教育程度只覺得錢=科技，自己不行那就用偷的

→

mekiael 05/10 05:30，用山寨的，連整個國家都是這個樣子在山寨軍武，更

→

mekiael 05/10 05:30遑論底下的人民，所謂上行下效正是如此

推

aiyouwei 05/10 06:05巷子內的

推

allan0926 05/10 06:19看起來中國的量子電腦也是吹的？

推

gogoegg 05/10 06:42他有來推文啦只是酸言酸語難怪常常有人戰他

推

crohns 05/10 07:43近十年前aws出世的時候亞洲沒什麼人在談，沒想到這

→

crohns 05/10 07:43兩年瞬間爆紅，人人在講雲，大數據，ai

推

cloudwolf 05/10 07:45推!!長知識了，謝謝!

推

mmarty 05/10 08:09看軍武漲姿勢....

推

mazyota 05/10 08:10推

→

mazyota 05/10 08:11有料的文

推

MicChung 05/10 08:15解釋得超清晰的

推

LI40 05/10 08:15推

推

b389b1c 05/10 08:23這讓我想到以前在產線的AOI爛得要死

→

b389b1c 05/10 08:23最後把ram加到500G才不會死當機

推

barry70490 05/10 08:28馬的當初就是被實驗室腦殘助力騙說兩張1080疊在一

→

barry70490 05/10 08:28起跑效能好：）

推

joe2 05/10 09:44我進來，嗯? 退出看板名，嗯??? 再進來，嗯!!!

→

joe2 05/10 09:45大型語言模型是不是用大量的歷史資料來預測未來?

推

nipage16 05/10 09:50那也不能說是預測，而是透過大量資料學習如何做出正

→

nipage16 05/10 09:50確或適當的回應吧

推

QuentinHu 05/10 09:58推專業分享

推

anarch 05/10 10:25推分享、收藏。

推

cleverjung 05/10 10:51推想到前幾天yt推給我這影片

→

cleverjung 05/10 10:51https://youtu.be/zBAxiQi2nPc

推

Pegasus170 05/10 11:44說真的，我實在不想承認現在的AI是AI，我認為只有

→

Pegasus170 05/10 11:44到DL等級。甚至很多應用只是ML+big data。

推

st89702 05/10 11:46推簡單明瞭

推

bunjie 05/10 12:02推一個簡單明瞭

推

ja23072008 05/10 13:08推

推

uohZemllac 05/10 16:35推

推

youjan 05/10 18:30科技板的好文在這個板上出現.這是好還是不好呢.

同系列文章

Re: [情報] 情報數則

其他人也閱讀了

PTT 熱門相關