Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?
※ 引述《hugh509 ((0_ 0))》之銘言:
: 先說我不懂AI運算
: 只是看了林亦的新影片
: https://youtu.be/UsfmqTb2NVY
現在所謂的DL,第一需要的是運算,第二才是記憶體頻寬。
M2Ultra的gpu就27.2tflops(fp32),跟3080差不多,但ampere有兩倍的(fp16+fp32accumulate)還有4x的(fp16)。現在fp16訓練就很夠了,擔心你可以用fp16+fp32模式,那也是2x你m2 ultra。
https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf
https://tinyurl.com/yuak5w5d
4090是82.6tflops(fp32),330.3tflops(fp16)。m2ultra連車尾都看不到,可憐啊。
然後M2Ultra的31.6tops,那應該是int8無誤如果是int4那就更可憐。4090是660.6(int8)tops與1321.2(int4)tops。這已經是被超車好幾十圈了。(tops是inference用的)
H100 datasheet
https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheethttps://tinyurl.com/bdfuutbe
h100 pcie是最低階的
756tflops(tf32)
1513tflop(fp16)
h100是狠狠的虐了所有人包含a100。2x~4x(a100)
https://www.mosaicml.com/blog/amd-mi250
AMD的mi250不到a100的80%,mi300的specs其實跟mi250差不多,mi300主要是apu功能。
只有google的tpu跟intel的gaudi2跟a100有輸有贏。
https://mlcommons.org/en/training-normal-30/
gaudi2在gpt3的訓練大概是h100的1/3性能。
intel為什麼要取消rialto bridge?現在ai當道,fp64強的hpc架構根本毫無用處。AMD因為只有mi300所以只能硬上了,但383tflops(fp16)要怎麼跟1500+tflops的h100比?
intel現在把資源集中在gaudi3/4,期望2年內可以看到老黃的車尾。
有人以為老黃只是因為cuda軟體贏。其實nn很容易移植到其它架構,老黃是硬體大贏+長期耕耘ai。
--
MI300應該沒有跟250差不多 … apu只是其
中一個型號 mi300x才是全部gpu
mi300x我記得fp32沒輸h100多少喔
而且老黃是tensor core
現在也只有知道多少cu 不知道頻率
這根本是外行話。 nn本來就是tensor。 有756tflops的tf32幹麼用51tflops的fp32。 h100還有fp8,有些training有用到更是可怕的效率。
樓上射惹
反正老黃就是拿遊戲卡來撐場子
他計算速度主要是開大batch size
這樣確實不用算力也能有效加速運算效
率
夢裡什麼都有。AMD戰未來。
為何您會得出MI300跟MI250差不多的結論
呢?
沒有架構大改。現在公開的數據就沒有變動很大。
※ 編輯: oopFoo (36.224.228.156 臺灣), 07/03/2023 12:47:14先不管IA有沒有輸這麼多 那影片下面一堆人
贊同蘋果要超越老黃 看的我好像走錯世界線
現在一堆在講AI的都讓我覺得很莫名奇妙。
也有跑ai模型理論很好的人,對硬體完全不
懂,也是意見很奇杷。
你怎麼會期待讀資訊科的人就會組電腦
寫軟體只在意我的模型到底塞不塞的下去
尼484沒看懂我在講啥
h100 tf32 756
mi250 384
mi300x cu數4mi250的1.6倍
再加上頻率差 尼自己算一下
等等我好像看錯惹
384應該是mi300a的fp16 尷尬
不過就算目前mi300x有接近h100效能好了
DL公司應該還是會對他觀望
主要目前你各位還是太黏NVDA
H100強在BF16和自己開發的TF32,這兩
種場景都比CDNA3強很多
但mi300在int8和int4相對mi250有4倍以
上的提升
mi300有400tops,假設是int8好了,h100的
我看惹一下 mi300在fp16含以下應該
mi300x大概h100的一半附近
目前LLM運算應用效率4沒到50%才對
主要都卡ram
而且那是a100的狀態
a100->h100 都是80GB hbm2e->hbm3
tensor core運算效能多很多
能用到多少就很難說惹
寫錯mi250大概400tops。mi300大概1600tops
h100是3026tops,350w。mi300要?800w?
int8/int4這種inference的東東,xilinx有
比較划算的東東。MTL也有30?tops的vpu,這
一塊還有空間給IA兩家機會搶。
爆
Re: [新聞] 超微AI晶片將追趕輝達講這就表示尼不懂R TPU一部分的問題就在asic惹 估狗AI晶片最重要的應用是廣告推薦DLRM 不是現在流行的chatbot/LLM 尼asic做成那樣惹 就不用來跟gpu比惹 我說我現在的港覺喇43
Re: [新聞] 輝達AI有影 台積電7奈米利多今天黃仁勳有講一些話 這是老黃今天講的影片 (字幕可以用 中文) Nvidia 跟 ASML 台積電 新思科技(Synopsys)合作 輝達推出應用於微影運算的AI產品「cuLitho」 「cuLitho」能將運算速度加快40倍,功率也從35兆瓦下降至5兆瓦,23
[標的] NVDA.US 過前高之前都可以買?1. 標的:NVDA.US Nvidia 2. 分類:討論 3. 分析/正文:最近靠著AI很火紅的NVIDIA漲得有點猛 歷史高點是2021/11創下的346元 當時的背景是加密貨幣在浪潮上25
[情報] 老黃40系列將用台GG 5nm 2022推出根據wccftech消息 DigiTimes爆料了部分老黃下一代40系列顯卡的消息了 其中一段內文: 老黃兩年一度的顯卡將在2022推出 以遊戲和元宇宙為基礎14
Re: [新聞]全面禁止高階AI晶片出口中國要看懂這個新聞需要一些對於高速運算的基本知識。 輝達的GPU產品分成三種不同等級與用途,第一種叫做消費用晶片,也就是大家常常聽到跟使用的GTX跟RTX,主要用途在於遊戲運算以及虛擬貨幣挖礦,主要安裝在伺服器跟個人電腦上面 第二種等級的 GPU 是nvidia quadro系列,這種等級的GPU是與用來做3D繪圖運算用,用來渲染3D影像,主要安裝在工作站級的電腦上面。 最後一種等級的GPU是Tesla系列的A100跟更新的H100,他們的價格完全不是前面兩種等級可以比的,這種等級的GPU是安裝在高速運算中心,提供最高的算力。 另外這三種等級的晶片雖然都有其專有設計的目的,但是並非只能用在那個領域,要用A100來挖礦或是用RTX來跑深度學習都完全沒有問題的,他們的差別在於最高算力以及能耗上面,A100跟H100有著遠比其他等級晶片要高出許多的算力,要達到同樣算力,要用更多的能源,或是更多的空間以及更多成本。11
[情報] 1.8萬核心核彈!NV第1款5nm H100真身首曝今天晚上,NVIDIA GTC 2022春季開發者大會就將召開,黃仁勳也將發表主題演講 幾乎肯定會發布基於Hopper架構的新一代高性能計算GPU和相關產品。 就在最後時刻,H100加速計算卡的渲染圖曝光了: SXM樣式,整體異常緊湊,整個電路板幾乎滿滿的都是各種元器件,中間自然就是GH100核 心。7
[情報] 白皮書曝光NVIDIA Hopper大晶片關鍵規格NVIDIA下一代H100加速卡提供支援的GH100晶片,紙面規格已經讓人感到十分驚訝 不過週末曝光的白皮書又讓我們對其有了更深入的了解 據悉NVIDIA正在積極利用台積電的N4(4nm EUV)先進製程 來打造Hopper GPU,而H100大晶片更是被六個HBM3高頻寬顯示記憶體堆棧給環繞著。 TechPowerUp指出GH100計算晶片擁有800億個龐大的電晶體管數量- 加值信仰一下 最近記者問Generative AI太昂貴了 (e.g., ChatGPT) 老黃說只花10個million 做這類AI算法 一點都不貴 真是太便宜了
39
[請益] 怎麼讓電腦自動壞掉?27
[情報] 功耗預計為 300W - 5070Ti 有 8960 CUDA24
[情報] 最強Z890 ITX 4條M.2微星Z890I-Edge-Ti11
[請益] 風扇換塔扇風扇選擇6
[開箱] 記憶體OC輕鬆達到11036!華擎Z890 太極OCF5
[開箱] Thermalright索摩樂PA140 BLACK6
[菜單] 35k-40k遊戲機6
[請益] 無上方網孔機殼推薦