Re: [問卦] DeepSeek成本這麽低的原因是啥?
※ 引述 《pttdocc》 之銘言:
:
: 1.
: 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著: 也許
:
: 還有其它步驟)的這個作法
:
:
: 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型):
: 是嗎? (distill這邊省的 是讓大家也能用便宜硬體來跑)
沒有錯,
成本除了 “訓練微調出模型”,還有”應用時推論營運成本”
1. 訓練主要跳過 SFT,
2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。
所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。
我也準備好錢等 n舍的 project digits 了
: 2. 那麼我想單就distill這部份 OPENAI自已應該也能夠distill出規模較小
:
: 能力接近ChatGPT的模型 只是OPENAI要爭取大筆補助 又要線上收費 所以沒必要作出或是:
: 發佈這個來搬石頭砸自已的腳
:
:
: 請問我上面的理解大致正確嗎? 謝謝
知識蒸餾技術很普遍,
但知識蒸餾多少會損及準確率,
要看 OpenAI 自己的斟酌。
OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的,我是沒研究,但是大家看 OpenAI 總是看最強大的。
我們也總是覺得高智慧的回應是真理。
而 DS 是挑戰者、他猛攻推理能力,這是近期被指出通往 AGI 的可能技術,
DS 先準備好一個基本模型,是一個小參數量的基本模型,所以已經有語言能力,
然後他從大的 DS 模型自動產生有推理步驟的資料(人工篩選高品質資料),
把有語言能力的小模型去學習 「大模型的推理問題的輸入輸出的資料」,然後小模型就有了推論能力。會不會學了推論能力損及語言能力,這個就要多一些實作累積經驗。
所以猛攻推理能力、能夠有所幫助,這樣前提下,是不是語言能力下降可能他不算在乎,他也可能就比較不看鄉民的測試或唐鳳的報告了。
其他補充:
DS 的 RL-only 與 蒸餾的資料都是從大模型產生,不需要人提供。
當然資料的源頭總是已知答案的知識…這個就不多說了。
--
推推
推 比較了解一些了 多謝解釋
推
推 內行
文組青鳥才不懂這些
他們只在意抗中保台
40
首PoDeepseek 橫空出世 應該讓大家都嚇了一跳 程式碼是開源的 有高手看的出來訓練成本這麼低的原因是啥嗎? --![[問卦] DeepSeek成本這麽低的原因是啥? [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/g10pOKob.png)
10
目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高
跟大麥克指數一樣 大麥克便宜 就是因為人工成本便宜 勞工便宜 其實花費金額根本沒啥好談的 Deepseek的好處其實不是便宜勞工![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://upload.wikimedia.org/wikipedia/commons/b/b4/Big_Mac_hamburger_-_Croatia.jpg)
18
因為DeepSeek本質上是優化,而不是從頭幹一個LLM。 他是拿Meta的開源模型當基底,然後用OpenAI去產訓練資料, 再加上創新的Fine Tuning技巧去進行優化的, 並不是真的用5%的成本跟算力就可以完成OpenAI走過的路徑。 的確DeepSeek(以及近期中國各家公司爭先恐後發表的模型)模型上提出了創新的方法10
分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/O3nSbTXb.jpeg)
4
Hi 可否問一下比較不專業的問題 1. 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著也許 還有其它步驟)的這個作法 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)
29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
12
Re: [討論] 其實Deepseek真的很厲害了DeepSeek可以下載到自己電腦跑、ChatGPT不行, 這在商業使用的場景上就有蠻大的差異 昨天很多人在傳說用(線上版)的DeepSeek會把資料傳給中國,這當然是對的, 但過去一兩年我們幫客戶評估AI專案時, 在串GPT-API上常常會碰到我們或我們的客戶其實也不想把資料傳給OpenAI,8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/uznnxpcb.jpeg)
1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事![Re: [問卦] ChatGpt為什麼開始變笨了? Re: [問卦] ChatGpt為什麼開始變笨了?](https://static.arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png)
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據我先講我非AI專業 但這件事情基本就是鬼扯 甚麼叫做利用O1蒸餾出R1 你要用API抓多少資訊量跟TOKEN才做得出來 然後這件事情OPENAI還會不知道?