Re: [問卦] DeepSeek成本這麽低的原因是啥？

OnePiecePR 發表於 2025/1/30 下午6:46:40

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥？作者

(OPPR)時間Jan 30 18:46:40 2025推噓 6 推:6 噓:0 →:0

※ 引述《pttdocc》之銘言：
:
: 1.
: 大致照你這邊提到的部份那麼Deepseek 主要省訓練成本的部份主要是跳過SFT(或著: 也許
:
: 還有其它步驟)的這個作法
:
:
: 而不是像一些報導說的直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型):
: 是嗎? (distill這邊省的是讓大家也能用便宜硬體來跑)

沒有錯，
成本除了 “訓練微調出模型”，還有”應用時推論營運成本”
1. 訓練主要跳過 SFT,
2. 推論營運的成本就是雲端假設大家的應用成本，也同時帶動本地假設的可能。

所以我 Mac M2 Max，有 64GB ram，跑 DS 70B 速度還不錯，30B 完全舒服。

我也準備好錢等 n舍的 project digits 了

: 2. 那麼我想單就distill這部份 OPENAI自已應該也能夠distill出規模較小
:
: 能力接近ChatGPT的模型只是OPENAI要爭取大筆補助又要線上收費所以沒必要作出或是:
: 發佈這個來搬石頭砸自已的腳
:
:
: 請問我上面的理解大致正確嗎? 謝謝

知識蒸餾技術很普遍，
但知識蒸餾多少會損及準確率，
要看 OpenAI 自己的斟酌。

OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的，我是沒研究，但是大家看 OpenAI 總是看最強大的。
我們也總是覺得高智慧的回應是真理。

而 DS 是挑戰者、他猛攻推理能力，這是近期被指出通往 AGI 的可能技術，

DS 先準備好一個基本模型，是一個小參數量的基本模型，所以已經有語言能力，
然後他從大的 DS 模型自動產生有推理步驟的資料（人工篩選高品質資料），
把有語言能力的小模型去學習「大模型的推理問題的輸入輸出的資料」，然後小模型就有了推論能力。會不會學了推論能力損及語言能力，這個就要多一些實作累積經驗。

所以猛攻推理能力、能夠有所幫助，這樣前提下，是不是語言能力下降可能他不算在乎，他也可能就比較不看鄉民的測試或唐鳳的報告了。

其他補充：
DS 的 RL-only 與蒸餾的資料都是從大模型產生，不需要人提供。

當然資料的源頭總是已知答案的知識…這個就不多說了。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.87.88 (臺灣)

※ PTT 網址

推

jeffguoft 01/30 19:24推推

推

pttdocc 01/30 20:05推比較了解一些了多謝解釋

推

cerberi 01/30 20:11推