PTT評價

Re: [問卦] DeepSeek成本這麽低的原因是啥?

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥?作者
OnePiecePR
(OPPR)
時間推噓10 推:10 噓:0 →:62

分兩個部分來說,

———————————————
第一個部分是澄清:

DeepSeek 是微調別人做的基本模型。

比如臉書 meta 花數千萬美金或上億美金做出模型 llama.

而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
某美國大約花279美金推出一個不錯的微調模型,sky .

還要說的,千萬不要這麼瞧不起微調啊!
問問中央大學的蔡老師就知道。

———————————————

第二部分才是 DeepSeek的省錢:

首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;
基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己去測);

第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
我們老百姓在用的時候因為用蒸餾模型的話,
會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴,其實營運時很多人用,費用也是驚人。


如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也有50000張GPU)後找到一種定位。

當然我們台灣應該也看見我們也是有可能發展模型的可能!
我就躍躍欲試~

———————————————
———————————————
以下偏技術解說:

1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的 ChatGPT 大約要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調出現了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):

DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他要挑戰的是最近風頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的有用的 RL。然後就推力能力不錯了,又省錢。
(其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點點資料,偏邏輯、推論格式的訓練,所以很省錢)

這樣子就大功告成、訓練好了。

訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原來做好的模型用蒸餾法縮小。

這篇論文,算是簡單易懂,
根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂停。
(其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好、都能避開點點點…)

蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的下一步的課程。

以上是肥宅今年 ptt 額度,大年初二一次用完。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.87.88 (臺灣)
PTT 網址

kingstongyu 01/30 17:10參數微調只是換句或說,邏輯意義上差

VOLK11 01/30 17:10https://i.imgur.com/O3nSbTX.jpeg

kingstongyu 01/30 17:10不多,AI能做到的不只有聊天,理工科學

VOLK11 01/30 17:11有看到fb的介紹,看起來就一群年輕理工宅

VOLK11 01/30 17:11

kingstongyu 01/30 17:11術上也能跟你解釋,但問歷史就會錯誤

yamhome 01/30 17:11DS就大學生專題水準的AI

VOLK11 01/30 17:11而且顏值都還不錯,女的正,男的也相貌端

VOLK11 01/30 17:12

kingstongyu 01/30 17:12百出,但歷史那東西寫在書上就夠了對

kingstongyu 01/30 17:12時代的進步影響不大

VOLK11 01/30 17:13蘿莉只是這個項目的統籌而已吧,後面是一

VOLK11 01/30 17:13個team

kingstongyu 01/30 17:13AI每次的對話都會產生參數的微調

VOLK11 01/30 17:14顏值和氣質都不錯

VOLK11 01/30 17:14這讓毆想到台清交的理工宅有那個開發項目

VOLK11 01/30 17:14和一點錢也會做得很好

VOLK11 01/30 17:15偶,更正

VOLK11 01/30 17:16台灣要重視研發,不能只做代工,要不然永

VOLK11 01/30 17:16遠寄人籬下,冏

VOLK11 01/30 17:17台灣不要被美中兩國強權制肘,就是自己要

VOLK11 01/30 17:17有能力,不是去鬥在野黨,然後和信徒去宮

VOLK11 01/30 17:17廟吸香灰,搞啥啊

shokotan 01/30 17:18這個蒸餾https://youtu.be/9CCn9uPfJ64

VOLK11 01/30 17:18國際政治不是鄉土劇,內鬥內行,民盡黨有

VOLK11 01/30 17:18點國際觀和(格局)好嗎?

VOLK11 01/30 17:19看起來一個總統當得和里長差不多

OnePiecePR 01/30 17:19深度學習就是簡單啊,所以年輕人學了

OnePiecePR 01/30 17:19就用啊,就改變世界啊。老人家也可以

OnePiecePR 01/30 17:19啊,但是要放掉自己已有的賴以維生的

OnePiecePR 01/30 17:20傳統就比較猶豫

lasekoutkast 01/30 17:21感謝分享

VOLK11 01/30 17:21一個國家後生柯畏,英雄出少年,一代比一

VOLK11 01/30 17:21代強,國家才有希望

VOLK11 01/30 17:21但是尼們政黨到底給年輕人怎樣的環境和可

VOLK11 01/30 17:21發揮的空間呢??

VOLK11 01/30 17:24後生可畏,更正

VOLK11 01/30 17:25然後不要擔心培養人才會被他國延攬去,我

VOLK11 01/30 17:25們人民有戰爭風險都沒跑了

VOLK11 01/30 17:25還是有些年輕菁英愛台灣,寧願留在台灣不

VOLK11 01/30 17:25會離開

VOLK11 01/30 17:28...

VOLK11 01/30 17:28真的台灣賺到國外的大錢,然後錢淹到頭,

VOLK11 01/30 17:28還怕沒有補助能力

VOLK11 01/30 17:28現在是台灣遇到產業轉型的瓶頸,只好省稅

VOLK11 01/30 17:28金,怕以後國債比更高阿

erisiss0 01/30 17:28笑死,還大學水準的ai。那華爾街不就被

erisiss0 01/30 17:29中國隨便做出來的大學水準ai打到起飛

VOLK11 01/30 17:29...

VOLK11 01/30 17:29台灣沒辦法開源,只好節流,要不然要國家

VOLK11 01/30 17:30真的破產借錢都借不到嗎??

erisiss0 01/30 17:30你是說中國的大學生隨便搞的ai直接幹出

erisiss0 01/30 17:30人家幾千億的效果,你比黨還能吹

lanslore 01/30 17:40推分享

trasia 01/30 18:02天啊 跟人類6歲神經裁剪一樣 感謝欄主

VOLK11 01/30 18:05樓上,他們不是大學生,應該起碼碩士到博

VOLK11 01/30 18:05士的學歷

VOLK11 01/30 18:06然後能入團隊一定也經過篩選的阿,這世界

VOLK11 01/30 18:07本來就是菁英大車拼,是菁英當領頭羊才能

VOLK11 01/30 18:07改變世界

VOLK11 01/30 18:09Ai就是人工智慧阿,到底對未來世界有什麼

VOLK11 01/30 18:09作用,

VOLK11 01/30 18:09我自己是覺得人類不是神,不用去想要取代

VOLK11 01/30 18:09什麼創造感

VOLK11 01/30 18:09但是人工智能的科技應用到底在現實生活中

VOLK11 01/30 18:09發揮哪些功效,就繼續觀察

VOLK11 01/30 18:10...

VOLK11 01/30 18:10只是大國強權就要面子,科技競賽不會終止

VOLK11 01/30 18:10只是個人站在環保觀點,對省能源開發Ai 是

VOLK11 01/30 18:11贊成的

VOLK11 01/30 18:11科技還是要盡量節能,讓地球生態永續發展

theshape87 01/30 20:16說得蠻清楚的