Re: [新聞] 稱霸 AI 推理性能,NVIDIA B200 晶片海
相關文章可以參考這個
https://36kr.com/p/2927059579722630
比較有意義的是這邊
https://spectrum.ieee.org/new-inference-chips
前言
雖然大家都在討論AI要怎樣獲利 但AI產品要獲利前 有一個很重要的大前提
就是AI infrastructure得先成熟 也就是如何讓巨大數量消費者能在平台上(Large-scale)能得到平台上的服務 這個第一步關鍵就是Inference 上的成本 算力提升也意味單位
成本下降
自從LLM興起後(GenAI) 直到去年都比較是Training上的改進 像是軟體端有Deep-Speed
陸續整合到LLM/Transformer上 能把訓練數度提高百倍(意味成本降低百倍)
硬體端有A100->H100 (Transformer加速) HBM容量變大 等等此類
但針對AI商業化的Inference塊一直很不明朗
去年之前 我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰
今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地
這都意味以後的服務平台成本會下降 以現在GPT-4o 25.00元 你可以使用1M tokens
(註2) 想像一下 以後的成本可以降到100倍以上 同時也意味AI infra在走向產業落地
而第二個連結(ieee)就是開始在量化Inference的成本/能力 裡面用秒來計算能提供多少客戶請求(queries)
裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計 會成為將來主流
他能在LLM包山包海的下游任務(例如 文字總結 寫程式 醫療問題) 能動態選取專家
所以在MoE上表現好 對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4)
處理位元數降低好處會帶來運算速度增快 運算成本降低 但通常缺點就是效能會變很糟
(正確率下降 模型準度降低) 但NVDA弄出了一個4位元版本 且準度沒有太大犧牲
Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM )
第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏
就算校正GPU數量 狗家的TPU也是沒佔上風(註3)
處此之外 還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 )
可以看見當算力拉高高算力 高power 巨大集群 系統容易崩潰 就連老黃都無法避免
然而這在A100叢集 崩潰幾乎沒有出現過 這也意味眾家對手再拉高power 算力
軟體容易不穩定而崩潰 在這個AI軍備競賽下 時間永遠是個最重要的成本 這也意味
其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家)
最後一個總結 老黃的核心思想就是算力 (硬體+軟體+巨大cluster)
當年老黃在顯卡大戰說過 我每半年提高顯卡算力一倍 雖然一堆遊戲廠商
跟我說他家電動遊戲不需要這樣強顯卡 但我們不能照遊戲廠商需求來設計
我們給他們更好的顯卡 這樣他們才能設計更好的遊戲 我們可以創造需求
同樣 只要對先進算法有需求 算力就會存在 顯卡大戰所有的套路 我們會再重新走一次
而AI這個路線也是如此 因為Scaling Law已經講明 算力無窮止盡造就無窮智能
就算今天LLM技術落伍 只要有需求先進的算法 就會需要算力 Scaling Law就是摩爾定律CPU當年無限開發計算能力 有了軟體業 顯卡無限開發算力 有了電動產業
這也是為何Eric Schmidt說 政府用算力10的26次方flops當作監管條件
其他政治上的風險
https://www.youtube.com/watch?v=UczALD7ZZDU
--
最近韭菜力有點高 QnQ 你們買股請用閒錢買....不然就會像我一樣要去賣玉蘭花
--
註1:Deep Speed是微軟一個重大的軟體加速設計 這讓我想起Bill 之前說的
https://www.youtube.com/watch?v=jpfC7rzoX2A
capacitiy, "but re-engineering their application"
註2:Gen AI/LLM 把所有資訊都是用token計價 文字上來說2~3token等於一個英文word
You miss 100% of the shots you don't take 這句話大概等於11 tokens
在影像的話 如果以一張512x512像素來說 有一個不嚴謹的公式
total tokens = 85 + 170 * n, (n=512 在這邊)
註3: 謠言果家的私有雲會用狗家TPU 但Inference結果現在看來 我很好奇果家
會願意放棄這樣香的NV Inference架構 用狗家TPU
註4: 亞痲已經開始大量用RAG+LLM 作為改善shopping 和查詢物品的使用者體驗
如果為真 我們會看到亞痲跟軟家大量在AI Infra 軟體上改進等
※ 引述《enouch777 (雷)》之銘言:
: 原文標題:稱霸 AI 推理性能,NVIDIA B200 晶片海放 AMD MI300X
: ※請勿刪減原文標題
: 原文連結:
: https://bit.ly/4dIpmfq
: ※網址超過一行過長請用縮網址工具
: 發布時間:
: September 2, 2024 by 陳 冠榮
: ※請以原文網頁/報紙之發布時間為準
: 記者署名:September 2, 2024 by 陳 冠榮
: ※原文無記載者得留空
: 原文內容:
: 由產業人士和學術界組成的開放工程聯盟(MLCommons)自 2018 年推出 MLPerf 產業基準
: ,是衡量機器學習性能、提高科技透明度的常見指標。隨著科技大廠針對 MLPerf Inferenc
: e v4.1 提出測試資料,尤其 NVIDIA 下一代 Blackwell GPU 首次參與測試,讓業界看出各
: 家晶片性能提升至什麼程度。
: MLPerf Inference v 4.1 測試結果有一系列值得關注的新增內容,像是 MLPerf 首次引進
: MoE(Mixture of Experts Models,混合專家模型)性能評估,特別採用開源 Mixtral 8×
: 7B 模型。這一輪基準測試更展示一些令業界關注的晶片和系統,有些還是首次公開測試結
: 果,比方說 AMD MI300X、Google TPU v6e(Trillium)、英特爾 Granite Rapids、Unteth
: er AI speedAI 240 等,還有最受市場矚目的 NVIDIA B200。
: 雖然 Blackwell GPU 交付到客戶手中還需要幾個月時間,但 MLPerf Inference 4.1 測試
: 結果可讓客戶一窺即將到來的強大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo
: rmer 引擎和 FP4 Tensor 核心,處理 MLPerf 設定的 Llama 2 70B 模型,首次測試結果顯
: 示性能較自家 Hopper 架構的 H100 高出 4 倍之多。
: 而在單一 B200、H200 及競爭對手 MI300X 的比較,MLPerf Inference v 4.1 測試結果運
: 用 Llama 2 70B 計算每秒生成 token 數,可看出 B200 的表現遙遙領先 H200 和 MI300X
: ,性能平均達到 H200 約 2.5 倍,更是 MI300X 的 4 倍左右。可見主流的 H200 明顯勝過
: MI300X,換成下一代 B200 更是大勝。
: 值得關注的是,MI300X 規格如電晶體、HBM 等比起 H200 複雜,封裝複雜度更高,可推測
: AMD 這款 AI 晶片成本高昂,卻要賣得更便宜才能與 NVIDIA 競爭。信昕產研從這一輪 MLP
: erf 測試結果分析,MI300X 合理價格可能要比目前 H200 低約 30%。
: 換個角度來看,市場可能對於 NVIDIA 產品毛利高有些意見,一旦性能強大的 NVIDIA GPU
: 價格再低一點,恐無對手與之競爭。
: 心得/評論:
: https://i.imgur.com/DhaD9B1.jpeg
: 結果只在伯仲之間,還小輸
: 現在看起來黃的B200提升驚人。雖然現在晚一點才會來。但看來護城河已經建好了
: ※必需填寫滿30正體中文字,無意義者板規處分
--
推
漲知識給推~
雖然我覺得Intc連半個都稱不上XD
感謝LD老大分享~
居然沒推到,補一下。
推 已經歐印NVDL了 誰來69樓救我
Nv能否持續領先
推 長知識了
我說過惹老黃這逼系列地位類似哀鳳4
出來94掃場 他把能想到的花招都用上惹
下一代的問題4會變成哀鳳五還哀鳳六 很難說
哇 謝LD!希望我也能Learning到飛黃騰達
沒新招就挨奉五 有新招就挨鳳六
ww3之後美國會徹底衰弱,中間會一堆國家沒有電!
感謝 LD大分享 !
我該歐印nvdl嗎
感謝大大分享
所以結論是all in NVDA對吧
推 NVDA
感謝分享
相信老黃 財富自由
台灣一直歡迎資料中心來蓋XDD 不知道在想啥
99MU
恐懼來自於算力不足,對吧。
專業推
推 老黃就是強
推一個
結論歐印NVDA
當大家都要買nvdl 跟全部人都在拉抬目標價
你就知道 該如何處置手上的股票了
以token 練丹是可怕的商業模式,東西被重新估價
哇,一早看到L大的信心加持 感恩
Inference server 真正的需求等手機普遍都有能跑 L
LM 再看吧?雖然 edge 端能跑的 model 比 GPT-4o
廢,但一般使用需求其實也用不上多強的 LLM
好
感謝專家分析與分享
推
AI推論接下來各大CSP會用博通設計的ASIC來想辦法取
代,到時看才知道鹿死誰手
感謝提供基礎知識
all in NVDL 一波退休!
99nvdl
ASIC取代別鬧惹,關鍵應該是明年的chatgpt5 ,LLM
進化才是終端市場爆發的時候
感謝分享
推分享
推
蝦? 用 ASIC? 想太多了吧
嚇你 甩你 磨你
B系列GPU已經就 800mm2吃到光罩極限,要再增加電晶
體就只能靠製程。兩顆大晶片進CoWoS-L封裝成B200又
因熱膨脹係數delay,至於老黃說什麼修光罩改善良率
看起來是在解Critical Path積熱,但有沒有效可以繼
續觀望。
老黃要變下一代,GG CoWoS下一代(2027)可能有機會
,熱膨脹問題還是跑不掉
專業推
樓上真好心 幫輝達裡幾百萬千萬年薪工程師們擔心
老黃救我
AI推論當然用ASIC,用GPGPU很耗電好嗎?
現在各家的NPU則是一種DSP,算是過渡方案
已歐印
謝謝分享,果家用狗家的我相信只先分散風險總不能
單靠一家,能用大叢集的就兩家目前來看
今晚又電梯向下了
電梯向下跟老黃也沒關係啊 總經數據開這樣大家一起
爆
爆
Re: [新聞] 超微AI晶片將追趕輝達講這就表示尼不懂R TPU一部分的問題就在asic惹 估狗AI晶片最重要的應用是廣告推薦DLRM 不是現在流行的chatbot/LLM 尼asic做成那樣惹 就不用來跟gpu比惹 我說我現在的港覺喇爆
Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售你劃錯重點, 先不論這篇論文的可行性與實用性, 你真的劃錯重點了 算力重要嗎? 重要但是不是影響販售/採購晶片的主因,81
Re: [新聞] 輝達最新AI晶片驚傳設計瑕疵 外媒爆出我聽來的消息 這時候問老黃那邊的人大概很難摸到問題在哪 因為問題高機率是瞎掰的 CSP那邊的人的講法 現實是CSP覺得h100->b100換代成本太高72
Re: [心得] 戴爾受惠ai,此時此刻大漲21%版上還是要有些正能量的討論, 我還是逆風說一下我個人的看法, 先說結論, 我個人比較看好DELL, 其次是技嘉, HPQ我個人最不看好, 另外,23
Re: [新聞] 減少依賴輝達 傳微軟將推自研首款AI晶片每次討論到Nvidia 就會引戰, 但是看到一堆不實的指控, 又會讓我忍不住想說明, 然後就引戰刪文,無限循環 先說結論:CUDA25
Re: [請益] 憑良心說AI要怎麼賺錢?在疫情的時候.許多SaaS如雨後春筍般冒出來.當時檢視這些廠商賺不賺錢的時候, 市場會憑藉貨幣化能力予以定價.貨幣化能力不足,但本夢比極強,市場也是買單.反之亦然. 所以這個問題的本質,我認為要回歸到AI貨幣化的能力,也就是如何把AI變現. 這個問題分成四個層面來探討. 第一層:造鏟者11
Re: [討論] AI晶片現在業界單純說AI晶片是太籠統的說法了, 為了獲得最高效能與最高CP值, 業界把AI晶片細分成以下幾類, 1. Training 訓練: 這是目前業界最難做的部分,10
Re: [情報] 究竟是 PC 革命還是另一個曇花?淺談 Win稍微分享一下自己使用心得 目前 ms的copilot(企業版) 公司用 chatgpt(自己付費版)2
Re: [黑特] AI什麼時後崩盤自從 Hinton 提出反向傳播演算法以來,人工智慧領域在過去幾十年來並沒有出現真正意義上的突破。目前的進展主要集中在透過收集更多訓練資料和建立更大的神經網路來提高模型效能。然而,這種粗放的做法並沒有觸及問題的核心,只是不斷填滿內核空間,並沒有帶來演算法層面的革新。 雖然像 CNN 和 Transformer 這樣的架構看似新穎,但實際上,如果運算能力夠強大,這些技巧也並非必要。理論上,一個兩層的無限寬神經網路就足以擬合任何複雜邊界,並且擁有無限大的模型容量。 真正的突破需要在演算法層面實現創新,而計算力只是次要因素。目前, 整個人工智慧框架都建立在統計機器學習的基礎上,這限制了我們的思維和探索。 我們局限於inference 要嘛 Frequentist ,不然就 Bayesian inference,
XX
[心得] 大家小心凱基證券會亂報違約交割14
[情報] 11/21 WCI 下跌 0.8%5
Re: [情報] MSTR 漲幅超越NVDA TSLA2
[標的] 8044.TW 網家 統一私募入股多2
Re: [新聞] 談川普當選影響 力積電黃崇仁:免擔心「6
[標的]NVDL高歌離席 再慢慢找新標的2X
[標的] 2330台積電 年底前 跟著我們空下去