PTT評價

[情報] AMD承認EPYC Rome伺服器晶片有個奇妙Bug

看板PC_Shopping標題[情報] AMD承認EPYC Rome伺服器晶片有個奇妙Bug作者
filiaslayers
(司馬雲)
時間推噓41 推:41 噓:0 →:57

看了一下好像沒人貼,雖然我只是用5600的小咖,這種高貴的u跟我沾不上邊
但看在這bug還蠻特別的就貼上來了
有高手可以說明一下這到底什麼Bug嗎?

https://www.techbang.com/posts/106924-amd-admitted-that-the-epyc-rome-server-chip-will-crash-after
https://bit.ly/3IW4dB2

AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復
AMD 在近日發佈的 EPYC 7002 「Rome」伺服器晶片指南中,承認由於時鐘倒計時器存有個BUG,導致第二代 EPYC 晶片正常運行 1044 天後出現核心卡死情況。

使用這款 EPYC 晶片的伺服器,需要每隔 2.93 年時間重新啟動一次,但AMD 官方表示不會修復上述 BUG。

AMD 在指南中表示,導致這個問題的原因是核心無法脫離 CC6 省電模式(Core C6 State),進入該模式之後,會降低電壓和時脈頻率。AMD 澄清說,誤差的時間可能取決於擴頻調製和 REFCLK 頻率參考。

AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復

Reddit 使用者 acid_migrain 經過詳細的演算,認為實際導致卡死的時間並非 1044 天,而是 1042 天 12 個小時。

AMD 於 2018 年推出 EPYC “Rome”系列伺服器晶片,部分客戶已經向 AMD 反應遇到了
這個問題。

AMD 表示沒有計畫修復該漏洞,外媒 technewsspace 判斷,不修復的理由原因之一是修復成本太高,不然就是受影響用戶規模不大。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.46.215 (臺灣)
PTT 網址
※ 編輯: filiaslayers (220.133.46.215 臺灣), 06/05/2023 20:57:52

dos01 06/05 20:58所以到底為什麼是144天?

dos01 06/05 20:58*1044

oppoR20 06/05 20:59https://i.imgur.com/M6inswG.png

luvstarrysky 06/05 21:01唉 賺最多的市場 結果客戶遇到bug

luvstarrysky 06/05 21:01還直接說不修理 有夠誇張

oppoR20 06/05 21:01因為修復成本太高

oppoR20 06/05 21:02而且人家不修財報也是繼續噴

luvstarrysky 06/05 21:02不過這個問題 重開就好了吧

tacoclement 06/05 21:05幾乎所有公司都會定期重開,大多是每

tacoclement 06/05 21:05個月至一季

luvstarrysky 06/05 21:05對阿 就算是伺服器電腦也不可能完

luvstarrysky 06/05 21:06全不維護吧

oppoR20 06/05 21:06然後a黑:有夠誇張der AMD趕快倒一倒啦

eric13141230 06/05 21:06特級A黑又來見獵心喜了

fujisawa 06/05 21:10真正會受影響的客戶很少吧 就算真的有

fujisawa 06/05 21:10用專案的方式解決應該都比較省

abc21086999 06/05 21:10那就在那天安排個系統維護就好了ㄅ

toodoo 06/05 21:17正常啊, 像Windows 95連續開機49.7天也會

toodoo 06/05 21:17因為計時器溢位而BSOD而要重開機 XD

kimula01 06/05 21:19怕啥 年度高裝檢就會重開機了啦

BDrip 06/05 21:20GPS已經溢位歸零兩次了

tacoclement 06/05 21:20不過想想也很有趣,因為內容寫到是部

tacoclement 06/05 21:20分客戶反應問題的,表示這些客戶仍屬

tacoclement 06/05 21:20於超長時間不關機XD

MK47 06/05 21:22那你加一個沒1042天重啟的task吧 不過能發

MK47 06/05 21:22現這bug的機房很猛耶 三年多都沒有重開XD

lazioliz 06/05 21:33

Amulet1 06/05 21:33你倒是關機阿lol

comipa 06/05 21:353年多連fw update都沒有...蠻屌的XD

ChangWufei 06/05 21:372年10個月又10天不重開就會遇到 好喔

zxzx8059 06/05 21:37公司每季都會斷電檢查高壓設備,根

zxzx8059 06/05 21:37本沒機會開三

zxzx8059 06/05 21:37年XDD

lc85301 06/05 21:38A黑集合,集合了

stepnight 06/05 21:40三年早該碰到歲修了吧

giancarlo82 06/05 21:403年不重開 這公司的工程師心臟真大

basacola 06/05 21:40重開機不就好了 公司買來都沒有有伺服

basacola 06/05 21:40器維護時間可以搞嗎

mrme945 06/05 21:46真的有公司可以這麼久不重開耶好猛

blueballer 06/05 21:48不可能三年不維護,所以基本不影響使

blueballer 06/05 21:48用 所以就不修了

weltschmerz 06/05 21:48還好吧 巴哈一堆電腦也是沒關機過的

spfy 06/05 21:48直接好像有哪款NAS用的CPU兩年多會掛?

weltschmerz 06/05 21:48在那邊好像關機電腦會爆炸一樣= =

spfy 06/05 21:48(*之前) 也無解所以時間到就GG的?

oppoR20 06/05 21:50不是兩年吧 是好幾年

oppoR20 06/05 21:51C2000 CPU

oppoR20 06/05 21:51DS1515+等

tomsawyer 06/05 22:02哪有好幾年 cisco說1.5年可能發生 大

tomsawyer 06/05 22:02概3年左右壽命

knml 06/05 22:15歲修重開不就得了

Arashi0731 06/05 22:17就算是伺服器想要完全不重啟也很困難

rabbit61677 06/05 22:21這種超多核心的大部份都VM或AP堆疊

rabbit61677 06/05 22:22就算一台重開,整體服務也不受影響

rabbit61677 06/05 22:23看起來就軟體很難修,3年都下一代了

birdy590 06/05 22:40做 planned outage 就好了 幾年都不更新

ayasesayuki 06/05 22:40修這個沒什麼意義 能撐3年不重開發

ayasesayuki 06/05 22:40現這bug也是厲害

birdy590 06/05 22:40其實也不太可能 而且還有安全隱患

cmj 06/05 22:41三年多沒重開在工廠產能滿載時很正常吧

atpx 06/05 22:45server不太可能3年不重開,機電系統總要停電

atpx 06/05 22:46檢查.牽涉到消防安全法規

yenchieh1102 06/05 22:49會被發現的意思就是有哪個衰小的東

yenchieh1102 06/05 22:49西跑了兩年多快要出來了結果當機了

yenchieh1102 06/05 22:49嗎xDDD

friedpig 06/05 22:51修復成本就是要重開光罩重弄一顆阿

friedpig 06/05 22:52直接給你一顆milan換還比較實際

friedpig 06/05 22:53反正MB幾乎都是相容的 就幫你無痛升級

aries5420 06/05 22:59資訊工程師:我們下車再上車重新試試

avans 06/05 23:01https://i.imgur.com/nLJzuCh.png

avans 06/05 23:02好像與資料型態益位有關係 猜的

avans 06/05 23:09https://i.imgur.com/yVf89sq.png

poco0960 06/05 23:24AMD TIMER

NanaMizuki 06/05 23:31用這種cpu的機器半年沒重開就很強了

ab37695543xs 06/05 23:33完全沒因為其他任何因素持續運行三

ab37695543xs 06/05 23:33年也是很猛了

guanting886 06/05 23:413年不重開還好吧.放在aws 的 win s

guanting886 06/05 23:41erver 已經700多天沒重開了

guanting886 06/05 23:44不過跑在VM上的虛擬伺服器重開也無

guanting886 06/05 23:44助於事,只有整片Server那一台整個

guanting886 06/05 23:44重啟才有用

avans 06/05 23:4728*2^53=0x380000000000000,我圖打錯成253

poco0960 06/05 23:49我公司那幾台linux跟vm機是除了停電以外

poco0960 06/05 23:50沒重開過的啊...

xam 06/05 23:50如果客戶實際應用不會碰到可以不用修..

xam 06/05 23:50客戶更怕你修這個又搞了一個更詭異的bug吧

demon159000 06/05 23:57阿就放出個維修時間 給他重開機 遊戲

demon159000 06/05 23:58不也是週期性維修時間

yys310 06/06 00:11都不用維修的嗎?

b325019 06/06 00:13你VM沒重開不代表host沒重開啊w

mainsa 06/06 00:22可以這麼久不重開我反而比較佩服欸

chenchunjui 06/06 01:17沒防斷電的話 挺厲害的 我們沒這問題

TFnight 06/06 01:50都不update的嗎…

jeta890119 06/06 05:44欸.. 我們機房真的有主機連開超過三年

jeta890119 06/06 05:44不關的

jbuilder1022 06/06 06:37除非有ha不然server重開都是風險

MrDisgrace 06/06 09:58三年不重開才碰的到XDD

MisterSmile 06/06 10:02媒體搬文章也不把原文解釋寫清楚