Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成

s213092921 發表於 2025/1/31 下午2:55:07

看板Gossiping標題Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成作者

(麥靠貝)時間Jan 31 14:55:07 2025推噓15 推:20 噓:5 →:46

《轉載》

網路上傳deepseek繞過了輝達cuda，我跟大家講一下deepseek到底做了什麼。

輝達嚴格來說是一個平台性公司，並不止是硬件，硬件只不過是一個載體，它的護城河是cuda計算平台，所有高性能並行計算的祖師爺，只要你用輝達的顯卡做高性能計算，就要透過cuda計算平台。

你說用AMD的顯示卡，嗨，它沒有生態呀，就像android和windows phone那麼大的差別。你買蘋果手機，不是買的硬體，而是IOS整個生態，這個生態也是用戶黏性的核心，cuda也是如此，你搞高效能運算，週邊的配套生態工具都是cuda的，你總不能自己再開發一套出來，就像你一個開發電商的會去再造個JAVA的輪子嗎？輝達打來十年的領先時間。所以各大公司都被英偉達狂宰，有苦難言。

總之一句話，英偉達創造了當代高效能運算的所有標準軟體、硬體以及工俱生態，你想寫個demo用啥都行，你想上生產除了輝達別無選擇，這就是過去十年AI圈的現實，天下苦達子久矣。

Deepseek開源以後利用Meta二十分之一的成本，完成了比Meta性能好十倍的大模型，達到了與全球領先chatgpt最新版本相當的實力。

Deepseek不僅公佈了開源了程式碼，公開了測試方式與數據，還發表了全新架構的論文，這相當於一把梭了。

各路人馬一開始不相信，然後開始扒deepseek，用deepseek的源代碼，測試數據，樣本等可以完全復現一次deepseekR1的訓練過程，成本就是那麼低，這讓所有人都閉嘴了。

有點從不服的心態變成你是挺牛逼的意思了，接著研究細節，然後從論文中發現了deepseek改造了輝達底層的cuda生態，用比cuda更底層的ptx語言重寫了cuda的硬件邏輯，讓其中有20個流處理器硬體做了CUDA規定以外的事，彌補了閹割版顯示卡在網路通訊上的不足，相當於繞過輝達的管理平台與運算生態，直接給輝達的硬體發號施令。

這是英偉達股價崩盤的核心邏輯，輝達的最大護城河讓人挖開了一個洞。輝達是個霸氣十足的太歲，如今deepseek在太歲頭上動土了。

deepseek可以這麼做，就代表別人也可以這麼做。有人問了那之前沒人能想到嗎？

這個問題很好，之前一定有大神想過，但是有很多問題導致無法實現。一是在大模型剛出現的時候一片藍海，大家空間無限大，都在忙著攻城略地，速度和效率是最大優先級，沒人給你時間去搞底層語言編程這玩意，特別是美國人，花錢能解決的事不叫問題，不就是美元嘛，印就完了，錢有得是，輝達的顯卡隨便買，誰腦子有洞給自己找麻煩？

中國不一樣，被美國制裁只能用閹割卡，還不能隨便買，資源極度匱乏，必須用最小的硬體壓榨出最大的性能出來，只能劍走偏鋒。所以用ptx繞過cuda這件事只會發生在中國，不可能發生在美國，邏輯不允許

第二點是大語言模型的發展進入了一個全新的時期，工作效率理解力推理能力精度都有了質的飛躍，deepseek是用deepseek推理模型本身完成了海量的ptx代碼優化工作，這才使deepseek 的新版本有可能繞過CUDA完成程式指令集的巨量任務。 ptx是變種的組合語言，如果用真人寫，以現在的資料量累死也寫不完，但是AI它效率高呀，怎麼寫也不累…

輝達現在的危機是怎麼給投資人說cuda依然在未來幾十年的地位無法被撼動，但顯然他們還沒找到答案。誰能想到AI的教宗竟然被AI給革了命，這找誰說理去。

我再強調一遍，國運，不在於人，而在於勢，美國的勢沒了，這才是最恐怖的。

小結：Deepseek好像用自家模型完成PTX的工作量

-----
Sent from JPTT on my Vivo V2227A.

--
Gossiping 綜合 ◎[八卦] 本板沒有特定立場
PTT八卦板自創立以來，一直秉持著公正、中立的立場，
以一個自由且不受限制之資訊交流平台而自居，
從而廣受國內外人士好評愛戴。
是故，由眾多使用者推舉出任之板主，
自然需承襲八卦板的一貫作風：只問對錯，不問立場。

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.23.183 (臺灣)

※ PTT 網址

噓

bluebluelan 01/31 14:57這篇是AI寫出來的吧

推

pupudice 01/31 14:59推祖國要走10大運年了 2035一統天下

推

StylishTrade 01/31 15:01用AI寫模型真假?

→

StylishTrade 01/31 15:01完蛋了天網真的要來了

→

StylishTrade 01/31 15:01AI會自我進化了

推

StylishTrade 01/31 15:04CUDA是人類寫的輸給AI寫的了

噓

mfhsieh2 01/31 15:05PTX是 CUDA的一部分。一句話結案。

→

suijojo 01/31 15:07講解的很清楚，謝謝。

推

kingstongyu 01/31 15:09所以deepseek可以繞開微軟還有瀏覽器

→

sky777 01/31 15:09講半天結論還是繞不開輝達硬體....

→

sky777 01/31 15:10.

→

kingstongyu 01/31 15:11當初微軟開發簡體的WIN95是不是真有

→

kingstongyu 01/31 15:12必要?!

→

kingstongyu 01/31 15:13輝達的顯卡還是要插在裝有X86架構的

→

kingstongyu 01/31 15:14主板上,請問DEEPSEEK能繞開LINUX嗎?!

推

enunion 01/31 15:14推

→

vn509942 01/31 15:17CUDA C/C++ → PTX → SASS（機器碼）

→

vn509942 01/31 15:20PTX是CUDA Compilation Toolchain之環節

噓

shadow0326 01/31 15:22蛤

→

kingstongyu 01/31 15:23所以deepseek能繞開IEEE的標準?!

→

tinlans 01/31 15:26就是 20 年前手刻 JVM byte code 同概念

→

tinlans 01/31 15:27能手寫 invokevirtual、fmul 那些而已

→

shadow0326 01/31 15:28是在供殺毀 PTX還不一樣是輝達的指令

→

shadow0326 01/31 15:28集

推

bitcch 01/31 15:30一直都是在輝達的硬體上跑只是用不同軟體

→

gueswmi 01/31 15:32ptx指令更方便細調用控制gpu與記憶體

→

gueswmi 01/31 15:33繞個甚麼咚咚

→

gueswmi 01/31 15:34用遊戲理解捏臉原本可調1-255，

→

gueswmi 01/31 15:35用ptx 參數可調1-65535

推

kingstongyu 01/31 15:35輝達設計的指令集架構,還有編譯器

→

kingstongyu 01/31 15:37所以輝達不需將資訊顯示在電腦上,人

→

kingstongyu 01/31 15:38與人都是靠機器語言翻譯成腦電波及天

→

kingstongyu 01/31 15:38線在溝通的?!

→

kingstongyu 01/31 15:40任天堂紅白機都是靠組合語言將遊戲寫

→

kingstongyu 01/31 15:43入卡帶裡,PS1並未替自家設計的圖形處

→

kingstongyu 01/31 15:43理器命名

推

newbrain 01/31 15:44賣鏟子的剩台積電

→

kingstongyu 01/31 15:44圖形處理器就是GPU

推

PRME 01/31 15:52cuda就是原來cpu幹的，把他給gpu平行運算，

→

PRME 01/31 15:52在丟回去，本質還是c

→

PRME 01/31 15:54因為ai用cpu太慢了

推

qxpbyd 01/31 15:59就原本用高階語言寫發現速度太慢就用組語

→

gueswmi 01/31 16:01deepseek 在華爾街眼裡更少的計算更少

→

gueswmi 01/31 16:02的記憶體。

推

set852064 01/31 16:13推這篇

推

neo5277 01/31 16:13ptx這段跟非算力富翁這段是很確實的

推

goodhike 01/31 16:19還不是要買nv的卡而且發展更快需求只

→

goodhike 01/31 16:19會更多

推

ChenDotQ 01/31 16:27這篇會引來支語警察

推

dixsion 01/31 16:42推

推

newyorker54 01/31 17:05google的tensor flow架構就沒有用cud

→

newyorker54 01/31 17:05a輝達有崩壞嗎？也沒有。

→

newyorker54 01/31 17:07deepseek 只是用一部份的ptx, 其他還

→

newyorker54 01/31 17:07是用H800跑，還是用cuda的指令集啊

噓

azaz12345 01/31 17:20其實就只是有沒有最佳化而已，總之NV

→

azaz12345 01/31 17:20對他的cuda工具還有最佳化的成長空間

→

azaz12345 01/31 17:20，還是掌握在NV手上啊

推

JasonKOU 01/31 18:10意思是可以繞開cuda conpiler的某些限

噓

Siu 01/31 19:19不完美同意發現一顆燈泡當十顆用的方法

→

Siu 01/31 19:20美國也可以十顆燈泡當一百顆用

→

Siu 01/31 19:21我覺得以後可能不準越獄了還不快買

推

lockeyman 01/31 19:51有沒有能證明這篇的專業解說

推

genaro 01/31 19:52推

→

wowtaiwanese 01/31 20:27文章很好，但是你轉載不附上來源？

→

s213092921 01/31 21:36FB看到的

推

previa 02/03 07:56這篇正解，哥2008年就在用CUDA最早期版本

→

previa 02/03 07:56當時還要學怎麼利用記憶體延遲交錯load

→

previa 02/03 07:56資料優化效率，後來這都compiler做掉

→

previa 02/03 07:57用AI大規模針對不同硬體改底層語言可行啊

→

previa 02/03 07:58未來很有機會換一個底層就用AI改底層bind

→

previa 02/03 07:58binding跟linking的底層物件

同系列文章

Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成

其他人也閱讀了

PTT 熱門相關