[心得] 3080 深度學習 GDDR6X過熱
先講結論:
GDDR6X很燙,燙了就很不穩定
打遊戲沒事,但跑Deep learning訓練會壞掉
Deep learning這種應用建議直上帝版,甚至水冷版
以下是debug經驗分享:
之前從EVGA官網買到了一張便宜的3080
本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉
這個問題總是100%復現,有時早點掛,有時晚點掛
一開始以為是卡壞了,但拿去打APEX又都沒事
(2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的)
研究了一下這代卡的技術,通病就是GDDR6X很燙
所以我開始懷疑是顯存問題
所以我我用了一個簡單的訓練腳本來觀察卡的各項參數
(需要請自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
訓練剛開始,顯存頻率會直接拉滿到9200MHz上下
然後開始爆熱,接著就掛掉。
於是我用Afterburner將頻率下修200MHz,就不會掛了
但是跑大約10分鐘後 他就會自動降頻到5000MHz...
此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3
有夠虧
Afterburner設定如圖:
https://imgur.com/aTHIPs4
降頻示意圖
https://imgur.com/yvawLe3
現在在研究,看有沒有可以長時間讓他保持高頻的方法..
比如用8000MHz,至少沒那麼虧
或是有沒有帝版的同學可以跑看看我這份code
看是不是丐版散熱太爛的問題
PS. 為什麼不用Ubuntu
因為不能打Apex和我只會用Afterburner(ubuntu沒有)
--
因為你不是拿ROG
結論:丐版散熱爛
問題就是丐版
這就跟挖礦一樣道理
懷疑你買到卡皇 以前3080ti XC沒碰到這問題
這就是為什麼不推薦3080以上拿丐版的原因
建議風扇拉滿 Auto最高也只會跑到50%而已
換散熱貼,風扇轉到最快
散熱貼用利民或是萊爾德
3080丐版+1 直接PL鎖在250以下比較不會降頻
還有你temperature limit拉高一點
丐版散熱爛 你可以學學上面那位仁兄改裝散熱貼
power limit拉105%比較不會降頻,但你還是得去換散熱貼,
甚至是改銅片,板上之前有人分享
我猜是背板的記憶體過熱啦,畢竟只有導熱貼沒接觸散
熱器
之前有看過礦老闆背板也改風扇的
以後直接賭一把買水冷的吧
這篇是認真的嗎,大家的留言是認真的嗎?
樓下支語警察
3080沒有背面記憶體吧 = =
都沒看到錯誤訊息的內容,然後冒出了過熱的實驗跟結論
這前因後果完全是鬼轉耶
丐板就是只能拿來打遊戲用ok而已
開側板用電風扇吹啊==
不然拿卡去挖礦
用colab pro訓練16gb batch size 可以設大點
為什麼不直接找EVGA去信詢問==
自己改散熱啊
三星製程 + 美光6X不換 就不買
錯誤訊息是什麼
錯誤訊息就是cuda 讀資料無回應 整個掛掉
螢幕黑屏 顯卡自動重啟
照這測試、只打遊戲拿丐版就非常足夠了阿
我的經驗這種都是顯存錯誤居多
如果卡出廠有小超,說不定是核心時脈的問題呀
顯存降頻跑就沒事 那87%是顯存問題
你風扇調成100%看看
你先測個溫度吧
那你可以試試看不降頻進行顯存正確性的測試
然後你git沒公開 沒辦法幫你測
冷氣房加風扇直吹,下班繼續訓練通常惠關冷氣,但風扇一定要
開
有人要幫測嗎? 感謝
有道理 可以測一下@a27417332
core也可以降頻啊 散熱器是共用的
有沒有原始的完整錯誤訊息可以貼一下
預設100%TDP是320W-350W 拉到70-80%試試看?
深度學習(X eth學習(O 會不會你去隔壁還比較多人懂
降頻吧 挖礦都沒滿功率跑了
不會用QQ
用浸泡式散熱?
3090Ti 聽說不熱?
口袋不深 學習效果打折
也不是說不熱,是因為單面配置相對3090雙面配置來說比較
容易散熱,所以溫度表現好一點
不能一邊打Game一邊練…….
去買水冷套件 3000可以解決的事情
Ubuntu 可以打Apex了吧
不想降頻跑的話,就找類似EK的水冷套件吧
回a某 不行喔 就算proton相容沒問題 防外掛會故意擋掉的
改銅片唯一解,有賣模組化的
改銅牌或是把風扇拉高一點 銅片真的讚
EAC問題在steam deck出了後也差不多解決了啊
換散熱墊 礦工基本知識
EVGA顯卡水冷kit有在賣嗎
我的3080 ftw3可以幫忙試試,不過帝版也很熱情
技嘉的水冷一樣熱情
EVGA 3080 XC3 Ultra 跑沒問題耶
環境是 WSL2 Python 3.8.5 PyTorch 1.12.0
我的卡也沒問題一樣XC3
我覺得是你的殼太悶
仔細看了一下你訓練剛開始的圖 為什麼你 Test 的速度只有
我的一半?背景有跑什麼東西嗎 我上面圖的結果背景還有跑
Wallpaper engine
然後題外話 這種單純比較 model 的實驗建議固定 random se
ed 結果會更有說服力
第二次跑 把 Wallpaper engine 暫停,code 裡面打開 torch
AMP 一樣沒問題 GPU 降了三度 test accuracy 還高了一點
點
該拍機殼了
power幾瓦?
想噓顯存,不忍噓
建議直接抄隔壁版同一張3080的挖礦參數
顯存別超就好,記得降壓
散熱墊換一換,開冷氣給它吹,搞好一點的機殼,沒了
降壓可以有效降低溫度,至於卡能降多低得自己測
開冷氣開側板用電風扇直接送風再觀察溫度
顯存是什麼
丐版爛
換AC扇直吹阿
冷氣不夠冷可以用液態氮
剛剛用evga 3080 ftw測了15分鐘,沒有遇到問題,也沒
有降頻
看來是原PO的問題 還想陰我大哥
不是呀...又不是每個實驗室都有錢到翻掉
哪來那麼多Tesla能跑,配的PC很多都用消費級的卡
就沒聽過有人講消費級的卡沒特別改的狀況下硬體出事的
過熱頂多就降頻跑慢一點,目前也沒聽到會當到重開
所以才一直問錯誤訊息是什麼,說不定根本是搞錯方向
如果真的是出廠硬體就有問題,就換一張新的唄
這種繞法也不是什麼根本上的解決之道
3090、80ti都拿丐版 lab甚至沒有24小時冷氣,沒聽過出錯的
整串看下來丐版玩遊戲很ok啊 3080可以省個3000元
看起來丐版遊戲以外也沒問題啊 只有原PO那張怪怪的吧
我特別裝manjaro來玩Apex看看 可以玩 沒被防外掛踢
顯存
37
Re: [請益] 想從零開始轉行當AI軟體工程師這篇應該算是AI勸世文 如果你之前沒有任何工程背景,想要直接轉入AI的話,那真的是建議放棄。 AI發展至今,其實要入手真的非常容易,某種程度上只要知道如何呼叫API (Python為介面)就可以完成很多事情。 我經歷過幾個用deep learning的實際例子,都是要解決既定的工程問題,33
Re: 本來學ML是該轉路還是繼續鑽研一個ML應用要落地產生商業價值 在data scientist把model訓練出來之後 還有很長一段路才能真正進到生產環境 ML系統的複雜度其實非常高 從資料收集,特徵處理, 模型訓練, 模型測試, 一直到後面的模型部署,模型監測23
[請益] 散熱良好的機殼小弟目前是5600x(AS120)+3080XC3 ULTRA. 機殼是君主的fighter500 目前待機大概50度,打apex會到83-85゜會撞到溫度牆自動降頻,現在打開側蓋大概可以降個10度左右。 有嘗試過降壓超頻1825@0.85V可以過3DMARD的PR壓力測試,可是APEX常常會當掉閃退。 目前想要換一個機殼不知道有沒有辦法解決GPU溫度的問題,爬文有爬到下面這些,預算3K左右,可小爆22
Re: [閒聊] AI畫圖是不是大數據拼圖?我很久以前連waifu diffusion都還沒出來就發過了 複製貼上自己的文章算抄襲嗎 -------------------- 造成這波圖像生成革命的推手19
[問題] 初學苦手請益各位版友好 先介紹我自己,27歲女性,170/70 長期運動習慣,主要做球類運動和重量訓練,學生時期也參加過系隊、校隊 近一兩年做運動的時候發現心肺似乎下滑得很快(因為工作壓力體重上升可能是一個原因 )12
Re: [創作] 用深度學習幫分類&整理CG玩了近一個月,很理想也很方便的工具! 不過在使用階段遇到很多挫折... 因為對python不熟,光是建置環境/函示庫/到可以運行就花了兩天時間, 好不容易開始跑問題又來了,我沒有分類好的圖庫, 估狗看有沒有善心人士整理,結論是天下沒有白癡的午餐。4
Re: [閒聊] 750w夠不夠推3080?先講結論 你PSU的問題 你自己也清楚 所以送POWER原廠測問題才對 而不是自己雲一個結論說3080不能這樣用 一樣跑apex,組機一年以上每天跑3~6小時從沒你說的關機當機問題 配備4
Re: [請益] 1660S x2 or 3070 組DL server最近版上出現一些深度學習配單,覺得有一些心得可以分享,省的走冤枉路 就來回一下舊文,我最後拿3070喇 先說結論,3060 cp值最高唯一推薦,再上去建議直接攻頂3090 大部分人買顯卡都很關心效能,所以我看到有些人會拿3070, 3060ti上來問 但是跑深度學習除了效能以外,VRAM大小以及資料讀取的IO時間都會影響training效率2
Re: [菜單] 120k 深度學習機直接用回文的好了....... 深度學習吃GPU 所以選3090正解 但你有提到要插多張顯卡 如果要插多張 Z390的PCIe Lane數沒那麼多 頂多支援兩張跑 x8 而且市售3090至少吃2.5個slot......搞不好一張下去就沒空間了 要穩插兩張以上的3090 你這個預算板子大概只能找X299 CPU上10980XE