PTT評價

Re: [問卦] DeepSeek成本這麽低的原因是啥?

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥?作者
greenmoon00
(翠月之境ewtalk宣告放棄S)
時間推噓10 推:10 噓:0 →:10

※ 引述《app325 (艾波)》之銘言:
: Deepseek 橫空出世
: 應該讓大家都嚇了一跳
: 程式碼是開源的
: 有高手看的出來訓練成本這麼低的原因是啥嗎?

目前的推測應該是跳過了訓練模型的部分

也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯或空轉,也就是之前新聞在說的「蒸餾技術」

AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮(Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高效的推理能力。這種技術能夠在減少計算成本的同時,保留較好的性能,特別適合資源受限的設備(如手機、嵌入式設備等)。

### 知識蒸餾的基本概念
1. 教師模型(Teacher Model)
- 一個預先訓練好的大型 AI 模型,通常是性能較強但計算量較大的深度學習模型。

2. 學生模型(Student Model)
- 一個較小的 AI 模型,它的目標是學習教師模型的知識,達到類似的預測效果,但計算量更小、效率更高。

3. 蒸餾過程(Distillation Process)
- 讓學生模型學習教師模型的 軟標籤(Soft Labels),即教師模型對數據的概率分佈,而不僅僅是標準的硬標籤(Hard Labels)。
- 通常會引入一個 溫度參數(Temperature)來調整教師模型的輸出,使得學生模型能更有效地學習隱含知識。

### 知識蒸餾的應用
- 語音識別(如 Siri、Google Assistant)
- 自然語言處理(如 BERT 蒸餾版 DistilBERT)
- 圖像識別(如 MobileNet)
- 推薦系統(如個性化推薦)

這種方法可以讓 AI 模型在保證準確度的前提下,變得更輕量、高效,適用於移動設備、邊緣計算等場景。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.46.140.244 (泰國)
PTT 網址

neofire 01/30 16:04所以呢?中國崛起了?

mamorui 01/30 16:06前面才一篇問OpenAI怎麼傻傻還在找

mamorui 01/30 16:06肯亞人tag資料 顆顆

sevenny 01/30 16:07簡單說就是抄作業

atlaswhz 01/30 16:12占OPEN AI的便宜,但微軟也很樂意,因為始

atlaswhz 01/30 16:12終都得用到open ai的大模型,橫豎都賺

erisiss0 01/30 16:17笑死,抄作業日本怎不抄,韓國不抄,美

erisiss0 01/30 16:17國不抄,俄羅斯不抄

erisiss0 01/30 16:18是真把天下人當白癡嘛,用抄的人家早就

erisiss0 01/30 16:18被掀翻了,還輪得到華而街地震嗎

ga544523 01/30 16:26不是都說開源了嗎 看一下訓練那段程式是

henry1234562 01/30 16:29還推測 人家有放出論文的

saltation 01/30 16:30這篇文章都像deeoserk或gpt生出來的

shokotan 01/30 16:38這篇肯定是AI寫出來的 太假了

Amulet1 01/30 16:40論文上是說他是自己教自己

IDfor2010 01/30 16:45還有訓練品質 deepseek 運用大量的專家

IDfor2010 01/30 16:45模型來訓練

Leo4891 01/30 16:49open ai又沒授權 其實就是偷竊

Malthael 01/30 16:50美國也說台灣偷美國的晶片業

gbman 01/30 19:28因為重點不在這邊阿!用抄的誰都會CC