PTT評價

Re: [問卦] DeepSeek成本這麽低的原因是啥?

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥?作者
OnePiecePR
(OPPR)
時間推噓 6 推:6 噓:0 →:0

※ 引述 《pttdocc》 之銘言:
:
: 1.
: 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著: 也許
:
: 還有其它步驟)的這個作法
:
:
: 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型):
: 是嗎? (distill這邊省的 是讓大家也能用便宜硬體來跑)

沒有錯,
成本除了 “訓練微調出模型”,還有”應用時推論營運成本”
1. 訓練主要跳過 SFT,
2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。

所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。

我也準備好錢等 n舍的 project digits 了



: 2. 那麼我想單就distill這部份 OPENAI自已應該也能夠distill出規模較小
:
: 能力接近ChatGPT的模型 只是OPENAI要爭取大筆補助 又要線上收費 所以沒必要作出或是:
: 發佈這個來搬石頭砸自已的腳
:
:
: 請問我上面的理解大致正確嗎? 謝謝

知識蒸餾技術很普遍,
但知識蒸餾多少會損及準確率,
要看 OpenAI 自己的斟酌。

OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的,我是沒研究,但是大家看 OpenAI 總是看最強大的。
我們也總是覺得高智慧的回應是真理。


而 DS 是挑戰者、他猛攻推理能力,這是近期被指出通往 AGI 的可能技術,

DS 先準備好一個基本模型,是一個小參數量的基本模型,所以已經有語言能力,
然後他從大的 DS 模型自動產生有推理步驟的資料(人工篩選高品質資料),
把有語言能力的小模型去學習 「大模型的推理問題的輸入輸出的資料」,然後小模型就有了推論能力。會不會學了推論能力損及語言能力,這個就要多一些實作累積經驗。

所以猛攻推理能力、能夠有所幫助,這樣前提下,是不是語言能力下降可能他不算在乎,他也可能就比較不看鄉民的測試或唐鳳的報告了。

其他補充:
DS 的 RL-only 與 蒸餾的資料都是從大模型產生,不需要人提供。

當然資料的源頭總是已知答案的知識…這個就不多說了。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.87.88 (臺灣)
PTT 網址

jeffguoft 01/30 19:24推推

pttdocc 01/30 20:05推 比較了解一些了 多謝解釋

cerberi 01/30 20:11

loveyou9527 01/30 20:20推 內行

Rpck1034 01/30 20:21文組青鳥才不懂這些

Rpck1034 01/30 20:24他們只在意抗中保台