Re: [問卦] DeepSeek成本這麽低的原因是啥?
分兩個部分來說,
———————————————
第一個部分是澄清:
DeepSeek 是微調別人做的基本模型。
比如臉書 meta 花數千萬美金或上億美金做出模型 llama.
而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
某美國大約花279美金推出一個不錯的微調模型,sky .
還要說的,千萬不要這麼瞧不起微調啊!
問問中央大學的蔡老師就知道。
———————————————
第二部分才是 DeepSeek的省錢:
首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;
基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己去測);
第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
我們老百姓在用的時候因為用蒸餾模型的話,
會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴,其實營運時很多人用,費用也是驚人。
如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也有50000張GPU)後找到一種定位。
當然我們台灣應該也看見我們也是有可能發展模型的可能!
我就躍躍欲試~
———————————————
———————————————
以下偏技術解說:
1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的 ChatGPT 大約要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調出現了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):
DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他要挑戰的是最近風頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的有用的 RL。然後就推力能力不錯了,又省錢。
(其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點點資料,偏邏輯、推論格式的訓練,所以很省錢)
這樣子就大功告成、訓練好了。
訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原來做好的模型用蒸餾法縮小。
這篇論文,算是簡單易懂,
根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂停。
(其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好、都能避開點點點…)
蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的下一步的課程。
以上是肥宅今年 ptt 額度,大年初二一次用完。
--
參數微調只是換句或說,邏輯意義上差
不多,AI能做到的不只有聊天,理工科學
有看到fb的介紹,看起來就一群年輕理工宅
阿
術上也能跟你解釋,但問歷史就會錯誤
DS就大學生專題水準的AI
而且顏值都還不錯,女的正,男的也相貌端
正
百出,但歷史那東西寫在書上就夠了對
時代的進步影響不大
蘿莉只是這個項目的統籌而已吧,後面是一
個team
AI每次的對話都會產生參數的微調
顏值和氣質都不錯
這讓毆想到台清交的理工宅有那個開發項目
和一點錢也會做得很好
偶,更正
台灣要重視研發,不能只做代工,要不然永
遠寄人籬下,冏
台灣不要被美中兩國強權制肘,就是自己要
有能力,不是去鬥在野黨,然後和信徒去宮
廟吸香灰,搞啥啊
國際政治不是鄉土劇,內鬥內行,民盡黨有
點國際觀和(格局)好嗎?
看起來一個總統當得和里長差不多
深度學習就是簡單啊,所以年輕人學了
就用啊,就改變世界啊。老人家也可以
啊,但是要放掉自己已有的賴以維生的
傳統就比較猶豫
感謝分享
一個國家後生柯畏,英雄出少年,一代比一
代強,國家才有希望
但是尼們政黨到底給年輕人怎樣的環境和可
發揮的空間呢??
後生可畏,更正
然後不要擔心培養人才會被他國延攬去,我
們人民有戰爭風險都沒跑了
還是有些年輕菁英愛台灣,寧願留在台灣不
會離開
...
真的台灣賺到國外的大錢,然後錢淹到頭,
還怕沒有補助能力
現在是台灣遇到產業轉型的瓶頸,只好省稅
金,怕以後國債比更高阿
笑死,還大學水準的ai。那華爾街不就被
中國隨便做出來的大學水準ai打到起飛
...
台灣沒辦法開源,只好節流,要不然要國家
真的破產借錢都借不到嗎??
你是說中國的大學生隨便搞的ai直接幹出
人家幾千億的效果,你比黨還能吹
推分享
天啊 跟人類6歲神經裁剪一樣 感謝欄主
樓上,他們不是大學生,應該起碼碩士到博
士的學歷
然後能入團隊一定也經過篩選的阿,這世界
本來就是菁英大車拼,是菁英當領頭羊才能
改變世界
Ai就是人工智慧阿,到底對未來世界有什麼
作用,
我自己是覺得人類不是神,不用去想要取代
什麼創造感
但是人工智能的科技應用到底在現實生活中
發揮哪些功效,就繼續觀察
...
只是大國強權就要面子,科技競賽不會終止
只是個人站在環保觀點,對省能源開發Ai 是
贊成的
科技還是要盡量節能,讓地球生態永續發展
說得蠻清楚的
40
首PoDeepseek 橫空出世 應該讓大家都嚇了一跳 程式碼是開源的 有高手看的出來訓練成本這麼低的原因是啥嗎? --![[問卦] DeepSeek成本這麽低的原因是啥? [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/g10pOKob.png)
10
目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高
跟大麥克指數一樣 大麥克便宜 就是因為人工成本便宜 勞工便宜 其實花費金額根本沒啥好談的 Deepseek的好處其實不是便宜勞工![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://upload.wikimedia.org/wikipedia/commons/b/b4/Big_Mac_hamburger_-_Croatia.jpg)
18
因為DeepSeek本質上是優化,而不是從頭幹一個LLM。 他是拿Meta的開源模型當基底,然後用OpenAI去產訓練資料, 再加上創新的Fine Tuning技巧去進行優化的, 並不是真的用5%的成本跟算力就可以完成OpenAI走過的路徑。 的確DeepSeek(以及近期中國各家公司爭先恐後發表的模型)模型上提出了創新的方法4
Hi 可否問一下比較不專業的問題 1. 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著也許 還有其它步驟)的這個作法 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)6
沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)![[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂 [爆卦] 數發部次長造謠Deepseek成本不只550萬鎂](https://i.imgur.com/jmMt7gnb.jpeg)
爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片![Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預 Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預](https://i.imgur.com/HlQlJzkb.png)
爆
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/lunsvb2b.jpg)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AIX
Re: [黑特] 有一說一 拿政治歷史問題去問ai的都是87?這邊應該要說的比較清楚的是模型的背後其實就是統計建模的概念,不管是LLM或vLLM都是 。像LLM越是沒有信心的知識在取樣下一個Token時越難取樣出事實,所以模型其實是很好控 制的,越是複雜或是有爭議的事件模型除非人工強化不然他就越容易產生幻覺(Hallucinat ion)。所以拿某些歷史尤其是冷門的歷史事件或政治人物他越不容易回答正確。 不過模型也需要為人服務,所以當初不管OpenAI或是DeepSeek 再訓練時才會引入強化學習1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
Re: [閒聊] Deepseek的角色扮演Deepseek目前是有同時釋出開源模型(權重、Code、訓練模型的方法報告都開源)的,走跟 llama一樣的路線,所以理論上只要GPU卡夠你就可以建一個完全一樣的環境包含重新微調模 型讓DeepSeek 做瑟瑟的事情跟串接對話還有Agent去執行任務。 目前初步測試繁中能力真的屌打一堆拿喇嘛微調的台灣llama模型,重點是MoE的架構可以很 省GPU(如果是llama同精度需要32張H100卡才能佈起來)。其實這次比較新釋出的是他的R1