Re: [問卦] DeepSeek成本這麽低的原因是啥?
※ 引述《app325 (艾波)》之銘言:
: Deepseek 橫空出世
: 應該讓大家都嚇了一跳
: 程式碼是開源的
: 有高手看的出來訓練成本這麼低的原因是啥嗎?
目前的推測應該是跳過了訓練模型的部分
也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯或空轉,也就是之前新聞在說的「蒸餾技術」
AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮(Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高效的推理能力。這種技術能夠在減少計算成本的同時,保留較好的性能,特別適合資源受限的設備(如手機、嵌入式設備等)。
### 知識蒸餾的基本概念
1. 教師模型(Teacher Model)
- 一個預先訓練好的大型 AI 模型,通常是性能較強但計算量較大的深度學習模型。
2. 學生模型(Student Model)
- 一個較小的 AI 模型,它的目標是學習教師模型的知識,達到類似的預測效果,但計算量更小、效率更高。
3. 蒸餾過程(Distillation Process)
- 讓學生模型學習教師模型的 軟標籤(Soft Labels),即教師模型對數據的概率分佈,而不僅僅是標準的硬標籤(Hard Labels)。
- 通常會引入一個 溫度參數(Temperature)來調整教師模型的輸出,使得學生模型能更有效地學習隱含知識。
### 知識蒸餾的應用
- 語音識別(如 Siri、Google Assistant)
- 自然語言處理(如 BERT 蒸餾版 DistilBERT)
- 圖像識別(如 MobileNet)
- 推薦系統(如個性化推薦)
這種方法可以讓 AI 模型在保證準確度的前提下,變得更輕量、高效,適用於移動設備、邊緣計算等場景。
--
所以呢?中國崛起了?
前面才一篇問OpenAI怎麼傻傻還在找
肯亞人tag資料 顆顆
簡單說就是抄作業
占OPEN AI的便宜,但微軟也很樂意,因為始
終都得用到open ai的大模型,橫豎都賺
笑死,抄作業日本怎不抄,韓國不抄,美
國不抄,俄羅斯不抄
是真把天下人當白癡嘛,用抄的人家早就
被掀翻了,還輪得到華而街地震嗎
不是都說開源了嗎 看一下訓練那段程式是
還推測 人家有放出論文的
這篇文章都像deeoserk或gpt生出來的
這篇肯定是AI寫出來的 太假了
論文上是說他是自己教自己
還有訓練品質 deepseek 運用大量的專家
模型來訓練
open ai又沒授權 其實就是偷竊
美國也說台灣偷美國的晶片業
因為重點不在這邊阿!用抄的誰都會CC
40
首PoDeepseek 橫空出世 應該讓大家都嚇了一跳 程式碼是開源的 有高手看的出來訓練成本這麼低的原因是啥嗎? --![[問卦] DeepSeek成本這麽低的原因是啥? [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/g10pOKob.png)
跟大麥克指數一樣 大麥克便宜 就是因為人工成本便宜 勞工便宜 其實花費金額根本沒啥好談的 Deepseek的好處其實不是便宜勞工![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://upload.wikimedia.org/wikipedia/commons/b/b4/Big_Mac_hamburger_-_Croatia.jpg)
18
因為DeepSeek本質上是優化,而不是從頭幹一個LLM。 他是拿Meta的開源模型當基底,然後用OpenAI去產訓練資料, 再加上創新的Fine Tuning技巧去進行優化的, 並不是真的用5%的成本跟算力就可以完成OpenAI走過的路徑。 的確DeepSeek(以及近期中國各家公司爭先恐後發表的模型)模型上提出了創新的方法10
分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/O3nSbTXb.jpeg)
4
Hi 可否問一下比較不專業的問題 1. 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著也許 還有其它步驟)的這個作法 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)6
沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。
57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。![Re: [討論] 其實Deepseek真的很厲害了 Re: [討論] 其實Deepseek真的很厲害了](https://imgcdn.cna.com.tw/www/WebPhotos/1024/20250129/1200x800_wmkn_324524490661_0.jpg)
44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/9N2QFY1b.png)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
21
[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾阿肥實在受不了一堆文盲吵不對焦還硬要吵 來先來看看 GPT是怎麼解釋蒸餾的 覺得太長的可以直接下滑到總結 Q: 在Deep learning領域 什麼是蒸餾? 以下來自ChatGPT的回答:![[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾 [問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾](https://i.imgur.com/VCuiyUXb.jpeg)
18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://i.imgur.com/wNCJOYBb.jpg)
6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/uznnxpcb.jpeg)
1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI
Re: [討論] 搞半天中國高潮一天有沒有可能是抄的?知識蒸餾的技術解說在此,我用一個簡要的方式講給大家 老師上了十幾年的課程,花了十幾小時編撰講義,告訴學生哪些題目比較容易考、哪些解題 模式必考。 這套授業模式是不是很像課後補習班的考前題庫班?1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平