PTT評價

[心得] 3080 深度學習 GDDR6X過熱

看板PC_Shopping標題[心得] 3080 深度學習 GDDR6X過熱作者
exeex
(人非腎鹹)
時間推噓40 推:43 噓:3 →:64

先講結論:

GDDR6X很燙,燙了就很不穩定

打遊戲沒事,但跑Deep learning訓練會壞掉

Deep learning這種應用建議直上帝版,甚至水冷版




以下是debug經驗分享:


之前從EVGA官網買到了一張便宜的3080

本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉

這個問題總是100%復現,有時早點掛,有時晚點掛

一開始以為是卡壞了,但拿去打APEX又都沒事


(2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的)



研究了一下這代卡的技術,通病就是GDDR6X很燙

所以我開始懷疑是顯存問題


所以我我用了一個簡單的訓練腳本來觀察卡的各項參數

(需要請自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)



訓練剛開始,顯存頻率會直接拉滿到9200MHz上下

然後開始爆熱,接著就掛掉。


於是我用Afterburner將頻率下修200MHz,就不會掛了



但是跑大約10分鐘後 他就會自動降頻到5000MHz...

此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3

有夠虧


Afterburner設定如圖:
https://imgur.com/aTHIPs4

降頻示意圖
https://imgur.com/yvawLe3


現在在研究,看有沒有可以長時間讓他保持高頻的方法..
比如用8000MHz,至少沒那麼虧


或是有沒有帝版的同學可以跑看看我這份code

看是不是丐版散熱太爛的問題


PS. 為什麼不用Ubuntu
因為不能打Apex和我只會用Afterburner(ubuntu沒有)





--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.178.29 (臺灣)
PTT 網址

tyl51028807/13 19:01因為你不是拿ROG

oppoR2007/13 19:02結論:丐版散熱爛

oppoR2007/13 19:02問題就是丐版

oppoR2007/13 19:02這就跟挖礦一樣道理

annboy07/13 19:04懷疑你買到卡皇 以前3080ti XC沒碰到這問題

a831211607/13 19:06這就是為什麼不推薦3080以上拿丐版的原因

harry88690107/13 19:06建議風扇拉滿 Auto最高也只會跑到50%而已

zone001607/13 19:10換散熱貼,風扇轉到最快

zone001607/13 19:10散熱貼用利民或是萊爾德

AAAWhoAmI07/13 19:113080丐版+1 直接PL鎖在250以下比較不會降頻

harry88690107/13 19:16還有你temperature limit拉高一點

otosaka07/13 19:17丐版散熱爛 你可以學學上面那位仁兄改裝散熱貼

mrme94507/13 19:25power limit拉105%比較不會降頻,但你還是得去換散熱貼,

mrme94507/13 19:25甚至是改銅片,板上之前有人分享

steven3310707/13 19:25我猜是背板的記憶體過熱啦,畢竟只有導熱貼沒接觸散

steven3310707/13 19:25熱器

steven3310707/13 19:26之前有看過礦老闆背板也改風扇的

aaron555507/13 19:27以後直接賭一把買水冷的吧

a2741733207/13 19:28這篇是認真的嗎,大家的留言是認真的嗎?

sdbb07/13 19:28樓下支語警察

harry88690107/13 19:293080沒有背面記憶體吧 = =

a2741733207/13 19:29都沒看到錯誤訊息的內容,然後冒出了過熱的實驗跟結論

a2741733207/13 19:31這前因後果完全是鬼轉耶

Zenryaku07/13 19:35丐板就是只能拿來打遊戲用ok而已

tropotato07/13 19:38開側板用電風扇吹啊==

tropotato07/13 19:41不然拿卡去挖礦

tropotato07/13 19:41用colab pro訓練16gb batch size 可以設大點

stepnight07/13 19:43為什麼不直接找EVGA去信詢問==

wahaha9907/13 19:43自己改散熱啊

lolpklol097507/13 19:45三星製程 + 美光6X不換 就不買

TuCH07/13 19:45錯誤訊息是什麼

exeex07/13 19:46錯誤訊息就是cuda 讀資料無回應 整個掛掉

exeex07/13 19:46螢幕黑屏 顯卡自動重啟

SaberMyWifi07/13 19:47照這測試、只打遊戲拿丐版就非常足夠了阿

exeex07/13 19:48我的經驗這種都是顯存錯誤居多

a2741733207/13 19:48如果卡出廠有小超,說不定是核心時脈的問題呀

exeex07/13 19:50顯存降頻跑就沒事 那87%是顯存問題

joefaq07/13 19:51你風扇調成100%看看

blackway022607/13 19:52你先測個溫度吧

a2741733207/13 19:53那你可以試試看不降頻進行顯存正確性的測試

harry88690107/13 19:53然後你git沒公開 沒辦法幫你測

Bujo07/13 19:54冷氣房加風扇直吹,下班繼續訓練通常惠關冷氣,但風扇一定要

Bujo07/13 19:54

exeex07/13 19:58有人要幫測嗎? 感謝

exeex07/13 19:58有道理 可以測一下@a27417332

winiel55907/13 20:09core也可以降頻啊 散熱器是共用的

a2741733207/13 20:10有沒有原始的完整錯誤訊息可以貼一下

winiel55907/13 20:13預設100%TDP是320W-350W 拉到70-80%試試看?

tomsawyer07/13 20:15深度學習(X eth學習(O 會不會你去隔壁還比較多人懂

blackway022607/13 20:15降頻吧 挖礦都沒滿功率跑了

kevin122107/13 20:28不會用QQ

lostkimo07/13 20:28用浸泡式散熱?

click225807/13 20:493090Ti 聽說不熱?

ericinttu07/13 21:01 口袋不深 學習效果打折

mrme94507/13 21:03也不是說不熱,是因為單面配置相對3090雙面配置來說比較

mrme94507/13 21:03容易散熱,所以溫度表現好一點

www1145407/13 21:03不能一邊打Game一邊練…….

creepy07/13 21:27去買水冷套件 3000可以解決的事情

amos3062707/13 21:28Ubuntu 可以打Apex了吧

Fww07/13 21:46不想降頻跑的話,就找類似EK的水冷套件吧

cs842507/13 22:13回a某 不行喔 就算proton相容沒問題 防外掛會故意擋掉的

meowgy07/13 22:28改銅片唯一解,有賣模組化的

kenkuo168807/13 22:35改銅牌或是把風扇拉高一點 銅片真的讚

amos3062707/13 22:36EAC問題在steam deck出了後也差不多解決了啊

cat65423107/13 22:41換散熱墊 礦工基本知識

ko36363007/13 22:51EVGA顯卡水冷kit有在賣嗎

s101128207/13 23:22我的3080 ftw3可以幫忙試試,不過帝版也很熱情

currit07/13 23:28技嘉的水冷一樣熱情

nanaha07/13 23:40EVGA 3080 XC3 Ultra 跑沒問題耶

nanaha07/13 23:40https://i.imgur.com/W0Fw6EU.png

nanaha07/13 23:41環境是 WSL2 Python 3.8.5 PyTorch 1.12.0

AreLies07/13 23:54我的卡也沒問題一樣XC3

AreLies07/13 23:54我覺得是你的殼太悶

nanaha07/14 00:13仔細看了一下你訓練剛開始的圖 為什麼你 Test 的速度只有

nanaha07/14 00:13我的一半?背景有跑什麼東西嗎 我上面圖的結果背景還有跑

nanaha07/14 00:13Wallpaper engine

nanaha07/14 00:15然後題外話 這種單純比較 model 的實驗建議固定 random se

nanaha07/14 00:15ed 結果會更有說服力

nanaha07/14 00:26https://i.imgur.com/p8Ogjjy.png

nanaha07/14 00:27第二次跑 把 Wallpaper engine 暫停,code 裡面打開 torch

nanaha07/14 00:27 AMP 一樣沒問題 GPU 降了三度 test accuracy 還高了一點

nanaha07/14 00:27

logus07/14 01:21該拍機殼了

anndy07/14 01:28power幾瓦?

saito219007/14 02:30想噓顯存,不忍噓

RaiGend051907/14 02:57建議直接抄隔壁版同一張3080的挖礦參數

RaiGend051907/14 02:58顯存別超就好,記得降壓

RaiGend051907/14 02:59散熱墊換一換,開冷氣給它吹,搞好一點的機殼,沒了

RaiGend051907/14 03:01降壓可以有效降低溫度,至於卡能降多低得自己測

RaiGend051907/14 03:03開冷氣開側板用電風扇直接送風再觀察溫度

B098869808807/14 05:13顯存是什麼

imsmalling9507/14 08:16丐版爛

daae07/14 08:39換AC扇直吹阿

wolver07/14 08:56冷氣不夠冷可以用液態氮

seank011307/14 10:33剛剛用evga 3080 ftw測了15分鐘,沒有遇到問題,也沒

seank011307/14 10:33有降頻

ericinttu07/14 11:57 看來是原PO的問題 還想陰我大哥

a2741733207/14 12:13不是呀...又不是每個實驗室都有錢到翻掉

a2741733207/14 12:14哪來那麼多Tesla能跑,配的PC很多都用消費級的卡

a2741733207/14 12:15就沒聽過有人講消費級的卡沒特別改的狀況下硬體出事的

a2741733207/14 12:16過熱頂多就降頻跑慢一點,目前也沒聽到會當到重開

a2741733207/14 12:16所以才一直問錯誤訊息是什麼,說不定根本是搞錯方向

a2741733207/14 12:17如果真的是出廠硬體就有問題,就換一張新的唄

a2741733207/14 12:18這種繞法也不是什麼根本上的解決之道

Lecn07/14 15:063090、80ti都拿丐版 lab甚至沒有24小時冷氣,沒聽過出錯的

lee7911407/14 16:02整串看下來丐版玩遊戲很ok啊 3080可以省個3000元

nanaha07/15 00:31看起來丐版遊戲以外也沒問題啊 只有原PO那張怪怪的吧

amos3062707/17 17:19我特別裝manjaro來玩Apex看看 可以玩 沒被防外掛踢

stormNEW09/23 06:00顯存