Re: [問卦] DeepSeek成本這麽低的原因是啥？

OnePiecePR 發表於 2025/1/30 下午5:08:43

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥？作者

OnePiecePR

(OPPR)時間Jan 30 17:08:43 2025推噓10 推:10 噓:0 →:62

PTT評價

分兩個部分來說，

———————————————
第一個部分是澄清：

DeepSeek 是微調別人做的基本模型。

比如臉書 meta 花數千萬美金或上億美金做出模型 llama.

而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣（猜的）微調成taide 模型釋出.
某美國大約花279美金推出一個不錯的微調模型，sky .

還要說的，千萬不要這麼瞧不起微調啊！
問問中央大學的蔡老師就知道。

———————————————

第二部分才是 DeepSeek的省錢：

首先，他做模型訓練時有挑過一個步驟SFT)，所以比較省錢；
基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強（？可能啦、自己去測）；

第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法），
我們老百姓在用的時候因為用蒸餾模型的話，
會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴，其實營運時很多人用，費用也是驚人。

如果 DeepSeek 這次真的讓世人接受，那麼可能是中國在GPU 受限（雖然 DeepSeek可能也有50000張GPU)後找到一種定位。

當然我們台灣應該也看見我們也是有可能發展模型的可能！
我就躍躍欲試～

———————————————
———————————————
以下偏技術解說：

1. 要從基本模型（比較像背書、像鸚鵡一直講話，而不太懂對話），到我們熟悉的 ChatGPT 大約要做一種指示訓練，指示訓練就是先教模型不要只會背書、要學會對話（第一個微調出現了，叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話（RLHF):

DeepSeek 他比較不在乎太多對話流暢或者 ai 主權（照論文說的、實際要自己試試），他要挑戰的是最近風頭上的推論能力的提升，所以他略過花錢的 SFT, 同時把 RLHF 改成真的有用的 RL。然後就推力能力不錯了，又省錢。
（其實後來又加回來窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點點資料，偏邏輯、推論格式的訓練，所以很省錢）

這樣子就大功告成、訓練好了。

訓練好了但是我們在問他的時候，因為模型大，也是浪費時間、算力、金錢，所以他就把原來做好的模型用蒸餾法縮小。

這篇論文，算是簡單易懂，
根據政大蔡炎龍教授的指示，大家可以挑戰看看，不要網路上亂停。
（其實論文裡有很多還要討論的事情，但是我猜想 DeepSeek 團隊微調能力與理論觀念很好、都能避開點點點…）

蒸餾法很有趣，李宏毅老師的 yt 影片有教，可能是2018、19 的課程、大概是深度學習的下一步的課程。

以上是肥宅今年 ptt 額度，大年初二一次用完。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.87.88 (臺灣)

※ PTT 網址

→

kingstongyu 01/30 17:10參數微調只是換句或說,邏輯意義上差

推

VOLK11 01/30 17:10https://i.imgur.com/O3nSbTX.jpeg

→

kingstongyu 01/30 17:10不多,AI能做到的不只有聊天,理工科學

→

VOLK11 01/30 17:11有看到fb的介紹，看起來就一群年輕理工宅

→

VOLK11 01/30 17:11阿

→

kingstongyu 01/30 17:11術上也能跟你解釋,但問歷史就會錯誤

推

yamhome 01/30 17:11DS就大學生專題水準的AI

→

VOLK11 01/30 17:11而且顏值都還不錯，女的正，男的也相貌端

→

VOLK11 01/30 17:12正

→

kingstongyu 01/30 17:12百出,但歷史那東西寫在書上就夠了對

→

kingstongyu 01/30 17:12時代的進步影響不大

→

VOLK11 01/30 17:13蘿莉只是這個項目的統籌而已吧，後面是一

→

VOLK11 01/30 17:13個team

→

kingstongyu 01/30 17:13AI每次的對話都會產生參數的微調

→

VOLK11 01/30 17:14顏值和氣質都不錯

→

VOLK11 01/30 17:14這讓毆想到台清交的理工宅有那個開發項目

→

VOLK11 01/30 17:14和一點錢也會做得很好

→

VOLK11 01/30 17:15偶，更正

→

VOLK11 01/30 17:16台灣要重視研發，不能只做代工，要不然永

→

VOLK11 01/30 17:16遠寄人籬下，冏

→

VOLK11 01/30 17:17台灣不要被美中兩國強權制肘，就是自己要

→

VOLK11 01/30 17:17有能力，不是去鬥在野黨，然後和信徒去宮

→

VOLK11 01/30 17:17廟吸香灰，搞啥啊

推

shokotan 01/30 17:18這個蒸餾https://youtu.be/9CCn9uPfJ64

→

VOLK11 01/30 17:18國際政治不是鄉土劇，內鬥內行，民盡黨有

→

VOLK11 01/30 17:18點國際觀和（格局）好嗎？

→

VOLK11 01/30 17:19看起來一個總統當得和里長差不多

→

OnePiecePR 01/30 17:19深度學習就是簡單啊，所以年輕人學了

→

OnePiecePR 01/30 17:19就用啊，就改變世界啊。老人家也可以

→

OnePiecePR 01/30 17:19啊，但是要放掉自己已有的賴以維生的

→

OnePiecePR 01/30 17:20傳統就比較猶豫

推

lasekoutkast 01/30 17:21感謝分享

→

VOLK11 01/30 17:21一個國家後生柯畏，英雄出少年，一代比一

→

VOLK11 01/30 17:21代強，國家才有希望

→

VOLK11 01/30 17:21但是尼們政黨到底給年輕人怎樣的環境和可

→

VOLK11 01/30 17:21發揮的空間呢？？

推

VOLK11 01/30 17:24後生可畏，更正

→

VOLK11 01/30 17:25然後不要擔心培養人才會被他國延攬去，我

→

VOLK11 01/30 17:25們人民有戰爭風險都沒跑了

→

VOLK11 01/30 17:25還是有些年輕菁英愛台灣，寧願留在台灣不

→

VOLK11 01/30 17:25會離開

推

VOLK11 01/30 17:28...

→

VOLK11 01/30 17:28真的台灣賺到國外的大錢，然後錢淹到頭，

→

VOLK11 01/30 17:28還怕沒有補助能力

→

VOLK11 01/30 17:28現在是台灣遇到產業轉型的瓶頸，只好省稅

→

VOLK11 01/30 17:28金，怕以後國債比更高阿

→

erisiss0 01/30 17:28笑死，還大學水準的ai。那華爾街不就被

→

erisiss0 01/30 17:29中國隨便做出來的大學水準ai打到起飛

→

VOLK11 01/30 17:29...

→

VOLK11 01/30 17:29台灣沒辦法開源，只好節流，要不然要國家

→

VOLK11 01/30 17:30真的破產借錢都借不到嗎？？

→

erisiss0 01/30 17:30你是說中國的大學生隨便搞的ai直接幹出

→

erisiss0 01/30 17:30人家幾千億的效果，你比黨還能吹

推

lanslore 01/30 17:40推分享

推

trasia 01/30 18:02天啊跟人類6歲神經裁剪一樣感謝欄主

推

VOLK11 01/30 18:05樓上，他們不是大學生，應該起碼碩士到博

→

VOLK11 01/30 18:05士的學歷

→

VOLK11 01/30 18:06然後能入團隊一定也經過篩選的阿，這世界

→

VOLK11 01/30 18:07本來就是菁英大車拼，是菁英當領頭羊才能

→

VOLK11 01/30 18:07改變世界

→

VOLK11 01/30 18:09Ai就是人工智慧阿，到底對未來世界有什麼

→

VOLK11 01/30 18:09作用，

→

VOLK11 01/30 18:09我自己是覺得人類不是神，不用去想要取代

→

VOLK11 01/30 18:09什麼創造感

→

VOLK11 01/30 18:09但是人工智能的科技應用到底在現實生活中

→

VOLK11 01/30 18:09發揮哪些功效，就繼續觀察

→

VOLK11 01/30 18:10...

→

VOLK11 01/30 18:10只是大國強權就要面子，科技競賽不會終止

→

VOLK11 01/30 18:10只是個人站在環保觀點，對省能源開發Ai 是

→

VOLK11 01/30 18:11贊成的

→

VOLK11 01/30 18:11科技還是要盡量節能，讓地球生態永續發展

推

theshape87 01/30 20:16說得蠻清楚的

同系列文章

[問卦] DeepSeek成本這麽低的原因是啥？

其他人也閱讀了

PTT 熱門相關