Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

waitrop 發表於 2024/2/29 上午11:38:32

看板Stock標題Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售作者

(嘴砲無雙)時間Feb 29 11:38:32 2024推噓爆推:119 噓:4 →:134

你劃錯重點,
先不論這篇論文的可行性與實用性,
你真的劃錯重點了

算力重要嗎?
重要但是不是影響販售/採購晶片的主因,
這個年代是用軟體思考的年代,
有兩個軟體方面的主因是AI晶片的關鍵:
1. LLM
2. API/framework: CUDA, OpenCL, tensorflow, pytorch

很多人嗆我說廢話,
但是很多人卻是連廢話都不懂,
LLM 全名叫做 "Large" language model,
都已經叫做Large 了,
還放在最前面以表示重要性,
所以能夠處理"Large" 模型的能力遠比算力重要的多,
這篇文章有圖形解釋cpu vs gpu vs tpu的差別,
https://www.linkedin.com/pulse/
cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/
所以拿這三者來比較算力是很蠢的事情,
這三者的算力彼此之間個差了十倍到百倍的差距,
比方說我有一大串數字/資料要做運算,
cpu 必須每個數字/資料做運算之後相加減,
gpu 把數字/資料放進兩個矩陣一次就算完,
tpu 直接把算法設計成硬體邏輯,
數字/資料放進tpu可以直接得到結果,

所以你看出問題了嗎?
當你的資料與模型太大會塞不進去矩陣 (v-ram),
同樣的道理,
資料與模型太大會塞不進去tpu裡頭 (v-ram),
現代化的AI 瓶頸已經從算力提升到模型太大,
而這就是NVDA 厲害的地方,
一顆GPU v-ram 不夠塞進資料與模型,
沒關係, NVDA 把GPU 串連起來,
數百萬顆的GPU 串連 v-ram提升數百萬倍,
總可以塞進資料與模型來運算了吧,
請參考"電池串連"原理就可以了解我在說什麼

TPU 原本把算法設計成硬體邏輯是個優點,
但是在串連運算上面卻成了缺點,
矩陣運算可以串連串起來運算,
邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現,
所以TPU 被綁在自身v-ram 的大小限制上面,
太大的模型與資料無法放進v-ram 就無法運算,
不過還是有解決方法,
這邊就不多說了

所以算力重要嗎?
在LLM 面前真的不是最主要的考量

2. CUDA 版上吵翻天了,
不需要多說了,
你算力就算能比NVDA快上萬倍,
你也要能夠繞過CUDA 再說,
更何況算力有沒有比較快都很難說

※ 引述《oopFoo (3d)》之銘言：
: 千禧年的網路泡沫，也是先炒作硬體商，Cisco, Sun...，Sun還有"dot in dot-com"的廣告。
: 網路確實是改變世界，但真正大賺的是軟體公司，而且是完全新鮮的軟體公司。
: 這次AI浪潮，應該也是類似。
: N家這次炒作這麼高，是因為真的，Compute是供不應求。每個大公司都怕買不夠，跟不上。
: 但最近一些AI的發展，也許會發現，這些Compute是不需要的。
: Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity，這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。
: Mamba我很看好，它的作者之一也是"Flash Attention"的作者。
: 但昨天一篇新的論文，可能是真的翻天覆地的開始。
: https://arxiv.org/abs/2402.17764
: "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
: https://news.ycombinator.com/item?id=39535800
: hn的討論。
: 現在討論的共識是，可行，理論基礎很扎實。各路人馬開始指出，從2006年開始的這方面研究，已經找出好多篇證實這方向是可行的。
: 現在的LLM是用fp16(16bits)，這方法可1.58bits，(討論說可以縮到0.68bits)
: 然後本來是fp dot product的只要int add。
: 輕鬆10x的效能，新ASIC針對Ternary weight發展可以輕鬆100x的效能改善？
: 如果這篇證實是可行的，AI起跑點重新設置，所有公司的價值都要重新計算。
: 這篇的作者群很有資歷，但很有趣的是，主要是來自北京/清華大學。美國猛力壓制中國的運力運算，造就不太需要Compute的方法的發現，戳破美國AI泡沫，這會是非常的諷刺。

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國)

※ PTT 網址

推

pmes9866 02/29 11:40好的歐印TQQQ

推

leochen124 02/29 11:41謝謝分享

推

poisonB 02/29 11:44何必跟一知半解的認真

推

Aska0520 02/29 11:44感謝分享 ALL IN NVDA

推

kid1a2b3c4d 02/29 11:44講中文啦QQ

→

aimlikenoob 02/29 11:45問就是買

→

tctv2002 02/29 11:48嗯嗯跟我想的一樣

→

fatb 02/29 11:49閱

推

rkilo 02/29 11:51謝分享

推

sam90205 02/29 11:52何必認真看到那篇論文的產地就可以end了.

推

kducky 02/29 11:5500757會漲嗎0.0

推

roseritter 02/29 11:55推. 硬體受限情況下只能從其他地方突破惹

推

ab4daa 02/29 11:55歐印TQQQ

推

a069275235 02/29 11:55樓下幫我看一下這一大篇有沒有股點

GPU => NVDA vram => hbm => MU switch => AVGO 包牌 => QQQ

→

roseritter 02/29 11:55中國的HBM不知道何時商業量產

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09

推

Altair 02/29 11:56豪!!! 所以要歐印誰?

→

kausan 02/29 11:57所以沒有比cuda更屌的東西你還是要舔nv

有比cuda更屌的東西, 但是掌握在七巨頭手上

→

a069275235 02/29 11:58感恩明牌五星推！

推

abc21086999 02/29 11:59我記得原Po是在G工作的FTE

推

j65p4m3 02/29 11:59好窩歐印

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04

推

esproject 02/29 12:04幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋

推

leoloveivy 02/29 12:06但如果要tpu 一定是port一個可以的model v-ram加上

→

leoloveivy 02/29 12:06去面積大價錢還是比H100划算吧嗎

推

lonzoball02 02/29 12:06繞過去就好了

推

iamjojo 02/29 12:11推解釋這我看得懂

推

minikai 02/29 12:12問就是TQQQ

推

WTF55665566 02/29 12:14那文就是裝逼拐個彎吹支那或成最大贏家而已

→

WTF55665566 02/29 12:14欠打臉

推

TheObServer 02/29 12:15請問什麼東西比庫打還猛？

CUDA 是最底層的軟硬體介面, 提供軟體(寫程式)得到硬體加速的效果, 但是Google 的Tensorflow, 以及Meta/Facebook 的Pytorch, 是建構在CUDA 之上的python API 套件, 現在已經很少人直接寫CUDA, 大部分的人都用pytorch or tensorflow, 我個人的經驗是pytorch 比較容易, tensorflow 比較底層比較複雜, 但是相對的tensorflow 提供更強大與更自由的設計功能, 不論是Google or FB, tensorflow or pytorch, 在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速

→

JKjohnwick 02/29 12:16中國的科技業不是只能代工跟抄襲嗎

→

AndyMAX 02/29 12:17switch ==> Nintendo

→

TheObServer 02/29 12:17不會是量子電腦吧

推

subi 02/29 12:18現在好像開始談LPU了

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:22:48

推

motan 02/29 12:21好，結論就是輝達強暴了

推

ymlin0331 02/29 12:21包牌是TQQQ啦

推

fmp1234 02/29 12:27關鍵就是要大

推

truelove356 02/29 12:29NV不是要搶AVGO的地盤

推

csluling 02/29 12:30本來就是，不然一直在衝v-ram幹嘛，一堆北七一直在

→

csluling 02/29 12:30講算力瓶頸

推

zoze 02/29 12:30AMD能分一杯羹嗎

→

csluling 02/29 12:31出新卡建新機就是一直在關注v-ram多大才知道能跑多

→

csluling 02/29 12:31大模型

推

ppuuppu 02/29 12:32讚讚

→

csluling 02/29 12:33不過pytorch不算是繞過CUDA吧，頂多說可以對硬體有

→

csluling 02/29 12:33指哪算哪效果吧？

pytorch or tensorflow 搭配自家的driver+kernel+firmware+tpu/asic, 就可以繞過cuda, 但是自家的那套東西不對外販售

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:35:18

推

Ashand 02/29 12:35SOXX

推

leochen124 02/29 12:36所以現在新創都在做inference的加速嗎

是的, 新創 training 玩不起, 除了openai夠錢也夠名聲能夠玩training 另外, inference 尤其是 edge AI 會是下一個戰場, 只是我不知道居然來的這麼快, 我原本估計要兩三年後才會到來

推

LieTo 02/29 12:36繞過CUDA的意思是也可以不用NV的晶片嗎?

是的, 但是目前只有七巨頭五仙女有能力繞過cuda

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:39:17

→

LimYoHwan 02/29 12:37https://i.imgur.com/GxJuHEi.jpeg

推

easyman 02/29 12:37這篇論文其實是-1，0，1 , 其實應該很適合整合在

→

easyman 02/29 12:37flash TLC上面。或者三檔電壓的RAM上面。如果

→

easyman 02/29 12:37放在FPGA上，就是2bit 加法器。

→

LimYoHwan 02/29 12:37快一倍走了韭菜套滿手割肉再進去

推

leochen124 02/29 12:38現在應該是還有那些國家的LLM的sever還沒被滿足,才

→

leochen124 02/29 12:38能確定有沒有overbooking

推

cowaksor 02/29 12:40好的信貸加質押tqqq

→

Lipraxde 02/29 12:46Edge inference 到處都在推，簡直殺紅眼了XD

推

smallcheng 02/29 12:46AMD除了價格優勢，在技術上有什麼優勢跟著NV喝湯嗎

推

Fww 02/29 12:47推你認真，下面那篇真的不知在幹嘛

→

TsmcEE 02/29 12:50包牌不應該是tqqq嗎

推

energyy1104 02/29 12:52個人認為真正的護城河是NVLink跟NVSwitch

推

pponywong 02/29 12:52Edge side只可能做inference阿

→

energyy1104 02/29 12:52CUDA的重要性恐怕還要排在這兩個後面

→

pponywong 02/29 12:53另外training的成本也很大不可能繞過去

→

pponywong 02/29 12:53目前openai 是用富爸爸的azure data center

→

s90002442 02/29 12:53結論：單押g

→

pponywong 02/29 12:54你要搞模型你還是要花錢買NPU(TPU)或是GPU

推

william85 02/29 12:55推

推

Gipmydanger 02/29 12:55推

推

pponywong 02/29 12:56除了谷歌的TPU 目前只有微軟說要自己做下單給牙膏

→

pponywong 02/29 12:57其他都還是用NV CUDA 像是META跟TSLA 就買幾十萬片

推

sdbb 02/29 12:57拜託別刪，謝謝

→

LDPC 02/29 12:58狗家忘了下車嗚嗚嗚嗚 99狗家 QQ

→

pponywong 02/29 13:02另外就原Po講的 AI model會越來越大你圖形辨識跟

→

pponywong 02/29 13:03GPT到現在Sora的模型不是同一個量級的增長

→

pponywong 02/29 13:03你要進入到下一個階段的AI 你就只能繼續擴大算力

→

pponywong 02/29 13:04可能Sora需要30萬張H100 下一個AI就需要100萬張

→

pponywong 02/29 13:04然後這些training是沒辦法繞過的你要進場玩你就只

→

pponywong 02/29 13:05能花錢

→

clamperni 02/29 13:05基本麵吃起來

→

yiefaung 02/29 13:06TPU也有TPU pod好嗎…

推

leochen124 02/29 13:07請問inference就不用把整個大模型放到vram嗎

→

LDPC 02/29 13:14樓上用切的QQ 參照Model parallelism

→

LDPC 02/29 13:14所以gpu之間通訊速度很重要這是老黃的大招

→

LDPC 02/29 13:154090有等效A100算力但4090多卡之間通訊太慢

推

ohmypig 02/29 13:15請問原po 對Alphawave IP 這家的看法？傳輸速度會

→

ohmypig 02/29 13:15是下一個gating 嗎？

推

leochen124 02/29 13:16謝謝L大解說

→

LDPC 02/29 13:17https://zhuanlan.zhihu.com/p/107101727

推

Samurai 02/29 13:21我廢物只想知道要歐印哪隻

推

ProTrader 02/29 13:22原po說的內容外行人可能真的搞不董"大型"

推

tchen4 02/29 13:22看不懂先給推

推

csluling 02/29 13:23原po跟L大都好心人

→

ProTrader 02/29 13:23用生活中的東西來說台鐵高鐵都是大型

→

ProTrader 02/29 13:23但是台鐵高鐵的速度差異很明顯

推

zhi5566 02/29 13:24Waitrop發一篇文我就買一些TQQQ

→

ProTrader 02/29 13:24如果你家有超跑跑的比高鐵快那還是迷你型沒用

推

clisan 02/29 13:24謝謝說明

推

usb4 02/29 13:25TPU好像可以串連了? google上次說training用自家TPU

推

xm3u4vmp6 02/29 13:25超低延遲網卡直連暫存器這樣才能擴展

→

ProTrader 02/29 13:26我記得在10多年前流行大數據的時候開始有"大型"

→

ProTrader 02/29 13:27現在的大型需求真正變的火熱

推

dongdong040502/29 13:28NVDA真的是安心買，未來它的saas 會越賺越多

推

ctes940008 02/29 13:29歐印

→

Alwen 02/29 13:31看到sora橫空出世，我只覺得老黃infiniband贏麻惹

推

pponywong 02/29 13:31GPU之間的溝通速度就是AVGO(博通)的強項了

→

Alwen 02/29 13:32以後都是要求串連數十萬顆起跳

推

stlinman 02/29 13:32v-ram就是關鍵啦! 串連效益/成本就NV最高，其他怎麼

→

stlinman 02/29 13:32怎麼打?

→

pponywong 02/29 13:32所以AI5才有AVGO 他是專門做傳輸ASIC的

→

stlinman 02/29 13:32老黃說買越多省越多不是在騙人的!

推

ProTrader 02/29 13:33原po說的兩點也是教主說的老黃包圍網的成敗因素

→

ProTrader 02/29 13:33只要這兩點不突破包圍網就徒勞無功老黃繼續統霸天下

→

horb 02/29 13:37感謝分享

→

LDPC 02/29 13:39所以蘇媽才要跟AVGO聯手啊蘇媽就是需要個"amd link"

推

pponywong 02/29 13:39真的怕就買台積就好我是覺得NVDA的護城河非常深

→

LDPC 02/29 13:40蘇媽+何國源資產+VictorPeng+陳福陽打老黃

→

LDPC 02/29 13:41旁邊吃瓜看戲 QQ順便可以看彼此策略攻防戰

推

pponywong 02/29 13:41AVGO的Tomahawk5 應該是市面上唯一800G 的switch ic

→

Alwen 02/29 13:44黃董手都伸到saas惹，進度真的很快

推

ejnfu 02/29 13:44NVDA AMD QQQ全買就好

推

stlinman 02/29 13:47老黃把供應鏈都綁樁顧好了! 其他家想追上先不考慮

→

stlinman 02/29 13:48技術成本能不能追上，光是產能卡不卡的到都是問題!

推

leoying 02/29 13:49推一個解釋的很清楚

推

leoying 02/29 13:53不太懂為什麼AMD要找avgo合作，它自己不是有Xilinx.

推

s987692 02/29 13:55PyTorch+rocm就饒過cuda了

→

donkilu 02/29 13:55你要每個廠商各自做自己的TPU driver compiler SDK

→

donkilu 02/29 13:56還只能自家內部用用這樣搞到最後有比較省嘛...

→

joygo 02/29 13:57現在問題就是真的能讓ai 突破的是學者吧，不是工程

→

joygo 02/29 13:57師，好用，用習慣才是重點

→

donkilu 02/29 13:57如果是成熟準備上線的產品還好說現在軍備競賽階段

→

donkilu 02/29 13:57如果自家晶片研發不順把軟體研發拖垮豈不是更慘

→

donkilu 02/29 13:58大廠多少還是要買雙保險

我待過四五間中美科技巨頭, 這些AI伺服器我在十年前就在研發, 中美檯面上的AI伺服器很多我都有參與研發過, 當年跟這幾家公司的高層開會的時候, 就有討論過這個問題, 答案是NVDA 賣太貴了, 自研不只是為了2nd solution, 也是因為自研再怎麼花錢都比買NVDA 便宜, 然後你又搶不到足夠的NVDA GPU, 所以能夠自研能夠用asic tpu 等方式的就盡量用, 不能用的應用再買NVDA GPU, 對於search, youtube, 天貓掏寶, amazon search, facebook image/vedio等等, 需求量夠大, 自研絕對省很多

推

jagger 02/29 14:01推

推

zhi5566 02/29 14:06AVGO到底還可不可以買啊

→

LDPC 02/29 14:06http://tinyurl.com/2znsvsxa QQ 旁邊看戲

→

LDPC 02/29 14:06我有買AVGO

推

zhi5566 02/29 14:07AVGO除了技術強 CEO更強有其他風險嗎

→

zhi5566 02/29 14:09是不是無腦AI5 就可以

推

leoying 02/29 14:13我還真的只有買AI5, 連QQQ都不想買

推

rebel 02/29 14:13TQQQ王以後可以不要隨便砍你自己的文章嗎文章是

→

rebel 02/29 14:13你的但下面很多推文很有參考價值我印像中我的推

→

rebel 02/29 14:13文就砍了至少三次實際上應該是更多尊重一下推文

對不起! 因為我常常會不小心講話得罪人, 所以看到有人對我的發言很有意見感覺又得罪人了, 就乾脆刪掉免得惹麻煩, 我下次不會再刪文了, 抱歉!

推

AoA1 02/29 14:14好文

推

kducky 02/29 14:14有時候是編輯文章同時推文被吃掉吧？

推

zhi5566 02/29 14:1550% qqq/tqqq+ 50% AI5 洗頭+局部加強?

推

kis28519 02/29 14:17推

推

rebel 02/29 14:19不是他是整個文章砍掉

推

goldmouse 02/29 14:21看完了所以要買那隻

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 14:41:24

推

wst24365888 02/29 14:37推

推

LDPC 02/29 14:40有時真的得砍文我也常砍因為有時講太多業界的

→

LDPC 02/29 14:41會讓自己也有點麻煩像果家就在這方面抓很嚴格QQ

→

roseritter 02/29 14:42所以我都手動備分XD

→

roseritter 02/29 14:42關鍵有時在推文點一下就會有更多想法

→

LDPC 02/29 14:42TQQQ王是好人QQ 我周遭同事沒人上批踢踢講業內事情

推

truelove356 02/29 14:45AVGO漲最少

推

ru04hj4 02/29 14:45看完只看到包牌 QQQ

推

meaa3 02/29 14:49弱弱地問七巨頭五仙女是指？？？

推

ProTrader 02/29 14:50我還以為你是手動砍文是為了低調因為說太多

→

moonshade 02/29 14:56tpu也可以設計成可以解hierarchical問題的

推

strlen 02/29 15:03是擔心歐美cancel culture嗎？唉

推

johnlin35 02/29 15:08推

推

thomaspig 02/29 15:11推

推

rebel 02/29 15:12好啦我也說了文章畢竟是你發的你還是有砍文的權

→

rebel 02/29 15:12力只是很多推文很有幫助不希望回來要找找不到折

→

rebel 02/29 15:12衷也許你就編輯把你的部份不適合的砍掉就好供參

推

stosto 02/29 15:16CPU怎麼會在你比較清單上

因為前面推文有提到用CPU就可以, 我拿CPU來比較只是想說根本不可能用CPU算AI, → oopFoo : GPU做inference。普通CPU就可用了，這是關鍵。 02/29 09:44

→

stosto 02/29 15:19Tpu 的問題就是硬體已經作死了，應用面變成侷限在

→

stosto 02/29 15:19某些問題上，超出這些問題就不能用了

推

ca1123 02/29 15:22推TQQQ王

推

vlstone 02/29 15:23推分享謝謝

推

marke18 02/29 15:30推~~

推

richaad 02/29 15:34https://i.imgur.com/9n1nQ3w.jpg

→

richaad 02/29 15:34看看cuda 這個量級，後者要追上至少5年以上

我不知道為何AMD 要推ROCm, OpenCL 是 open source, 已經累積很多的成果以及CUDA 轉譯, 不懂為何不繼續OpenCL

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:36:24 ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:39:56

推

ProTrader 02/29 15:48可能是AMD為了自研市場布局嗎? 因為便宜就有市場

→

ProTrader 02/29 15:48然後蘇媽想要把自研整個吃下來?

推

metallolly 02/29 15:52有文科翻譯機可以翻譯一下嗎

推

smallmac 02/29 15:54大家有注意到Meta找陳陽福去當Board Member嗎?一兩

→

smallmac 02/29 15:54週前的新聞

推

smallmac 02/29 15:56Sorry 是陳福陽

教主說的NVDA 包圍網裡頭最積極的應該是Meta 組博客, 也可以理解, 他畢竟是臉書創辦人, 是真的對臉書有感情的, 第二積極的是微軟與AMD蘇大媽, 至於其他的七巨頭專業經理人CEO 都自身難保或是志不在幹大事, 尤其某公司的CEO, 敵人就在本能寺 (公司總部), 不在NVDA

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:01:42

推

roseritter 02/29 16:24你就是在酸狗家XD

噓

a000000000 02/29 16:30他那葛paper也有講vram需求會變小很多模型越大差

→

a000000000 02/29 16:30越多好像號稱70b的可以差到40倍

推

roseritter 02/29 16:31問個不專業問題 V-RAM大小跟成本正相關可以理解

→

roseritter 02/29 16:32那設計之初就把記憶體放大某個安全係數相較於總

噓

a000000000 02/29 16:32他那東西關鍵來來去去還是training沒講有省

→

a000000000 02/29 16:33現狀4能train大model的地方沒幾葛尼要大家都用尼

→

a000000000 02/29 16:33那套那也要資源夠多當side project

→

roseritter 02/29 16:33成本 V-RAM還是比較便宜的吧我看蘇嬤的同級產品

→

roseritter 02/29 16:34v-ram都刻意比N社大

我個人看法, vram 放越大成本越高, 蘇媽同等級vram 都比N大我也有發現, 所以蘇媽的毛利比老黃低呀! 以老黃角度, vram 少一點可以省一些成本, 毛利拉高, 而且可以變相讓買家多買一些gpu, 反正目前市場是有在賣AI 晶片的就他一家, 其他的都不成威脅而且沒有記憶體安全係數這種東西, 因為模型大到一顆GPU一定裝不下

→

a000000000 02/29 16:34省bit的東西印象中ai剛流行就一堆人搞惹起碼10+年

→

a000000000 02/29 16:34有些東西變成標準 tf32 tf16 bf16那些的

→

a000000000 02/29 16:35標準要那些大公司才推得動

→

a000000000 02/29 16:35如果只是想湊葛asic概念去賭的小公司一堆死惹

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:43:53

噓

a000000000 02/29 16:47尼對vram的理解就錯惹

→

a000000000 02/29 16:48單卡vram夠大單卡可以跑的模型就大

"單卡vram夠大單卡可以跑的模型就大", 沒錯, 但是在LLM面前, vram 再怎麼大單卡都塞不下, 數量級完全不同

→

a000000000 02/29 16:48像tpu v5那種單顆16G然後拉一堆光纖對連的方案就很

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:50:03

→

a000000000 02/29 16:49慘因為那種link的pJ/bit大概是cowos的幾十倍

→

a000000000 02/29 16:49簡單講人家單卡塞的下的狀態功耗優勢明顯

推

FMANT 02/29 16:51所以要不要繼續捏NVDA????

→

FMANT 02/29 16:51就這個問題

→

a000000000 02/29 16:53蘇媽的192夠塞那種70b惹而且70B也很多夠用惹

→

a000000000 02/29 16:54我覺得那種Tb級的下代model跑起來成本也不低

→

a000000000 02/29 16:55市場可能會先慢慢消化gpt4等級的應用

推

fancydick50102/29 17:48hbm是mu喔還以為是韓國那兩家

推

xoy232 02/29 17:52這篇給推 NV要爆噴了

推

KrisNYC 02/29 18:09爆一爆吧基礎邏輯大家都應該有目前cuda硬解不可避

→

KrisNYC 02/29 18:09有能力搞底層繞過cuda相關運算法則的都是巨頭

推

lavign 02/29 18:28colab選TPU跑深度學習超級慢

→

ookimoo 02/29 18:34相對很快，很強，但是沒用，下去吧電子垃圾

推

richaad 02/29 18:39最近Google AI別鬧了，生成圖片一直出大包，美國國

→

richaad 02/29 18:39父變黑人

推

oneIneed 02/29 18:42不明覺厲

→

fallen01 02/29 18:55遙望Cuda當年唸書就有了寒窗十年

推

dodobaho 02/29 19:09正解

推

pk655tw 02/29 19:33謝謝TQQQ王願意分享

推

ymlin0331 02/29 20:02all in NVDA很怕被機構惡搞

→

ymlin0331 02/29 20:02all in TQQQ比較穩定啦

推

stosto 02/29 20:47HBM hynix一直都有，跟nv合作很久了

→

stosto 02/29 20:47m家是去年殺出來的

→

stosto 02/29 20:48最近也有新聞說m家先整合進H200了

→

stosto 02/29 20:48三星目前我所知是完全沒有

推

colinshih 02/29 21:22TPU 在做矩陣convolution, 核心的運算透過systolic

→

colinshih 02/29 21:22 array 執行。它基本就是將資料的時序關係投影到特

→

colinshih 02/29 21:22定運算平面最大化運算效率。大矩陣分割在影像處理是

→

colinshih 02/29 21:22基本問題。即便超大activation 也可以透過多個TPU

→

colinshih 02/29 21:22 協同處理。運算只在乎資料彼此關係, systolic arra

→

colinshih 02/29 21:22y 只是這些運算的不同種抽象形態表示對應的都是同

→

colinshih 02/29 21:22樣的matrix convolution. 差別最多在於資料流處理

→

colinshih 02/29 21:22的差異。這種硬體架構對於邏輯設計算是基本的只是

→

colinshih 02/29 21:22教科書裡面的例子

推

ProTrader 02/29 21:50樓上的說法是 TPU如何用演算法克服"大型"

→

ProTrader 02/29 21:51對TPU設計廠商來說只是基本工?

→

ProTrader 02/29 21:52類似在學校學生超大數乘法的演算法作業?

→

Lipraxde 02/29 22:06切圖、串連再厲害，ram 不夠大就是虧啦，像武器一

→

Lipraxde 02/29 22:06樣，一寸長一寸強

推

ProTrader 02/29 22:33所以蘇媽喜歡的是那種很大很大可以一次放進去

→

ProTrader 02/29 22:34所有資料的vram

推

pponywong 02/29 22:47重點還是你vram硬體設計再大也不可能塞得下一個

→

pponywong 02/29 22:47model 所以意義在哪裡

推

ProTrader 02/29 23:02應該是以後會有 "大型" "小型" 兩種市場需求吧

推

silentneko 03/01 00:34推雖然很多看不懂@@

推

aegis43210 03/01 01:13LPU的成本太高了啦，塞一堆sram，哪來那麼高的良率

→

aegis43210 03/01 01:13及封裝量能來玩這個，成本效益還是輸ASIC

→

aegis43210 03/01 01:18西台灣就是有算力瓶頸才開始玩模型剪枝，等到未來各

→

aegis43210 03/01 01:18行各業都需要AI推論時就會很有用，不過西台灣也只能

→

aegis43210 03/01 01:18這樣玩，L20的推論只是堪用，所以配合中芯晶片的無

→

aegis43210 03/01 01:18奈之舉

推

colinshih 03/01 01:45Protrader: 20-30年前很多應用的論文在不同領域，和

→

colinshih 03/01 01:45TPU 的問題基礎類似。

推

yumumu 03/01 06:58讚

噓

astroboy0 03/01 07:15ㄏㄏ怎麼沒有人提挖礦潮要回來，老黃又要賺兩邊

→

astroboy0 03/01 07:16怎麼看都是老黃繼續輾壓，市值能多高？或是搞拆股

推

Prado4840 03/01 16:44技術上是一回事、但不代表有訂單、不代表LLM是強需

→

Prado4840 03/01 16:44求。好吧我是借機希望有人可以回答我的疑惑

→

Lipraxde 03/02 11:22LLM 比專家系統的助理好多了，不過要變成強需求的

→

Lipraxde 03/02 11:22話可能要先解決準確度的問題，不然 LLM 就像在作夢

同系列文章

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

其他人也閱讀了

PTT 熱門相關

Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售