PTT評價

Re: [新聞] 跳過 CUDA,Deepseek 用精細的 PTX 寫成

看板Gossiping標題Re: [新聞] 跳過 CUDA,Deepseek 用精細的 PTX 寫成作者
s213092921
(麥靠貝)
時間推噓15 推:20 噓:5 →:46

《轉載》

網路上傳deepseek繞過了輝達cuda,我跟大家講一下deepseek到底做了什麼。

輝達嚴格來說是一個平台性公司,並不止是硬件,硬件只不過是一個載體,它的護城河是cuda計算平台,所有高性能並行計算的祖師爺,只要你用輝達的顯卡做高性能計算,就要透過cuda計算平台。

你說用AMD的顯示卡,嗨,它沒有生態呀,就像android和windows phone那麼大的差別。 你買蘋果手機,不是買的硬體,而是IOS整個生態,這個生態也是用戶黏性的核心,cuda也是如此,你搞高效能運算,週邊的配套生態工具都是cuda的,你總不能自己再開發一套出來,就像你一個開發電商的會去再造個JAVA的輪子嗎? 輝達打來十年的領先時間。 所以各大公司都被英偉達狂宰,有苦難言。

總之一句話,英偉達創造了當代高效能運算的所有標準軟體、硬體以及工俱生態,你想寫個demo用啥都行,你想上生產除了輝達別無選擇,這就是過去十年AI圈的現實 ,天下苦達子久矣。

Deepseek開源以後利用Meta二十分之一的成本,完成了比Meta性能好十倍的大模型,達到了與全球領先chatgpt最新版本相當的實力。

Deepseek不僅公佈了開源了程式碼,公開了測試方式與數據,還發表了全新架構的論文,這相當於一把梭了。

各路人馬一開始不相信,然後開始扒deepseek,用deepseek的源代碼,測試數據,樣本等可以完全復現一次deepseekR1的訓練過程,成本就是那麼低,這讓所有人都閉嘴了。

有點從不服的心態變成你是挺牛逼的意思了,接著研究細節,然後從論文中發現了deepseek改造了輝達底層的cuda生態,用比cuda更底層的ptx語言重寫了cuda的硬件邏輯,讓其中有20個流處理器硬體做了CUDA規定以外的事,彌補了閹割版顯示卡在網路通訊上的不足,相當於繞過輝達的管理平台與運算生態,直接給輝達的硬體發號施令 。

這是英偉達股價崩盤的核心邏輯,輝達的最大護城河讓人挖開了一個洞。 輝達是個霸氣十足的太歲,如今deepseek在太歲頭上動土了。

deepseek可以這麼做,就代表別人也可以這麼做。有人問了那之前沒人能想到嗎?

這個問題很好,之前一定有大神想過,但是有很多問題導致無法實現。 一是在大模型剛出現的時候一片藍海,大家空間無限大,都在忙著攻城略地,速度和效率是最大優先級,沒人給你時間去搞底層語言編程這玩意,特別是美國人,花錢能解決的事不叫問題,不就是美元嘛,印就完了,錢有得是,輝達的顯卡隨便買,誰腦子有洞給自己找麻煩?

中國不一樣,被美國制裁只能用閹割卡,還不能隨便買,資源極度匱乏,必須用最小的硬體壓榨出最大的性能出來,只能劍走偏鋒。 所以用ptx繞過cuda這件事只會發生在中國,不可能發生在美國,邏輯不允許

第二點是大語言模型的發展進入了一個全新的時期,工作效率理解力推理能力精度都有了質的飛躍,deepseek是用deepseek推理模型本身完成了海量的ptx代碼優化工作,這才使deepseek 的新版本有可能繞過CUDA完成程式指令集的巨量任務。 ptx是變種的組合語言,如果用真人寫,以現在的資料量累死也寫不完,但是AI它效率高呀,怎麼寫也不累…

輝達現在的危機是怎麼給投資人說cuda依然在未來幾十年的地位無法被撼動,但顯然他們還沒找到答案。 誰能想到AI的教宗竟然被AI給革了命,這找誰說理去。

我再強調一遍,國運,不在於人,而在於勢,美國的勢沒了,這才是最恐怖的。


小結:Deepseek好像用自家模型完成PTX的工作量

-----
Sent from JPTT on my Vivo V2227A.

--
Gossiping 綜合 ◎[八卦] 本板沒有特定立場
PTT八卦板自創立以來,一直秉持著公正、中立的立場,
以一個自由且不受限制之資訊交流平台而自居,
從而廣受國內外人士好評愛戴。
是故,由眾多使用者推舉出任之板主,
自然需承襲八卦板的一貫作風:只問對錯,不問立場。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.23.183 (臺灣)
PTT 網址

bluebluelan 01/31 14:57這篇是AI寫出來的吧

pupudice 01/31 14:59推 祖國要走10大運年了 2035一統天下

StylishTrade 01/31 15:01用AI寫模型 真假?

StylishTrade 01/31 15:01完蛋了 天網真的要來了

StylishTrade 01/31 15:01AI會自我進化了

StylishTrade 01/31 15:04CUDA是人類寫的 輸給AI寫的了

mfhsieh2 01/31 15:05PTX是 CUDA的一部分。一句話結案。

suijojo 01/31 15:07講解的很清楚,謝謝。

kingstongyu 01/31 15:09所以deepseek可以繞開微軟還有瀏覽器

sky777 01/31 15:09講半天結論還是繞不開輝達硬體....

sky777 01/31 15:10.

kingstongyu 01/31 15:11當初微軟開發簡體的WIN95是不是真有

kingstongyu 01/31 15:12必要?!

kingstongyu 01/31 15:13輝達的顯卡還是要插在裝有X86架構的

kingstongyu 01/31 15:14主板上,請問DEEPSEEK能繞開LINUX嗎?!

enunion 01/31 15:14

vn509942 01/31 15:17CUDA C/C++ → PTX → SASS(機器碼)

vn509942 01/31 15:20PTX是CUDA Compilation Toolchain之環節

shadow0326 01/31 15:22

kingstongyu 01/31 15:23所以deepseek能繞開IEEE的標準?!

tinlans 01/31 15:26就是 20 年前手刻 JVM byte code 同概念

tinlans 01/31 15:27能手寫 invokevirtual、fmul 那些而已

shadow0326 01/31 15:28是在供殺毀 PTX還不一樣是輝達的指令

shadow0326 01/31 15:28

bitcch 01/31 15:30一直都是在輝達的硬體上跑 只是用不同軟體

gueswmi 01/31 15:32ptx指令更方便 細調用控制gpu與記憶體

gueswmi 01/31 15:33繞個甚麼咚咚

gueswmi 01/31 15:34用遊戲理解 捏臉原本可調1-255,

gueswmi 01/31 15:35用ptx 參數可調1-65535

kingstongyu 01/31 15:35輝達設計的指令集架構,還有編譯器

kingstongyu 01/31 15:37所以輝達不需將資訊顯示在電腦上,人

kingstongyu 01/31 15:38與人都是靠機器語言翻譯成腦電波及天

kingstongyu 01/31 15:38線在溝通的?!

kingstongyu 01/31 15:40任天堂紅白機都是靠組合語言將遊戲寫

kingstongyu 01/31 15:43入卡帶裡,PS1並未替自家設計的圖形處

kingstongyu 01/31 15:43理器命名

newbrain 01/31 15:44賣鏟子的剩台積電

kingstongyu 01/31 15:44圖形處理器就是GPU

PRME 01/31 15:52cuda就是原來cpu幹的,把他給gpu平行運算,

PRME 01/31 15:52在丟回去,本質還是c

PRME 01/31 15:54因為ai用cpu太慢了

qxpbyd 01/31 15:59就原本用高階語言寫 發現速度太慢就用組語

gueswmi 01/31 16:01deepseek 在華爾街眼裡 更少的計算 更少

gueswmi 01/31 16:02的記憶體。

set852064 01/31 16:13推這篇

neo5277 01/31 16:13ptx這段跟非算力富翁這段是很確實的

goodhike 01/31 16:19還不是要買nv的卡 而且發展更快 需求只

goodhike 01/31 16:19會更多

ChenDotQ 01/31 16:27這篇會引來支語警察

dixsion 01/31 16:42

newyorker54 01/31 17:05google的tensor flow架構就沒有用cud

newyorker54 01/31 17:05a輝達有崩壞嗎?也沒有。

newyorker54 01/31 17:07deepseek 只是用一部份的ptx, 其他還

newyorker54 01/31 17:07是用H800跑,還是用cuda的指令集啊

azaz12345 01/31 17:20其實就只是有沒有最佳化而已,總之NV

azaz12345 01/31 17:20對他的cuda工具還有最佳化的成長空間

azaz12345 01/31 17:20,還是掌握在NV手上啊

JasonKOU 01/31 18:10意思是可以繞開cuda conpiler的某些限

Siu 01/31 19:19不完美同意 發現一顆燈泡當十顆用的方法

Siu 01/31 19:20美國也可以十顆燈泡當一百顆用

Siu 01/31 19:21我覺得以後可能不準越獄了 還不快買

lockeyman 01/31 19:51有沒有能證明這篇的專業解說

genaro 01/31 19:52

wowtaiwanese 01/31 20:27文章很好,但是你轉載不附上來源?

s213092921 01/31 21:36FB看到的

previa 02/03 07:56這篇正解,哥2008年就在用CUDA最早期版本

previa 02/03 07:56當時還要學怎麼利用記憶體延遲交錯load

previa 02/03 07:56資料優化效率,後來這都compiler做掉

previa 02/03 07:57用AI大規模針對不同硬體改底層語言可行啊

previa 02/03 07:58未來很有機會換一個底層就用AI改底層bind

previa 02/03 07:58binding跟linking的底層物件