Re: [問卦] DeepSeek成本這麽低的原因是啥？

greenmoon00 發表於 2025/1/30 下午4:02:56

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥？作者

(翠月之境ewtalk宣告放棄S)時間Jan 30 16:02:56 2025推噓10 推:10 噓:0 →:10

※ 引述《app325 (艾波)》之銘言：
: Deepseek 橫空出世
: 應該讓大家都嚇了一跳
: 程式碼是開源的
: 有高手看的出來訓練成本這麼低的原因是啥嗎？

目前的推測應該是跳過了訓練模型的部分

也就是說不是從0開始構築AI模型，而是用成熟的AI模型來訓練，避免掉很多無謂的試錯或空轉，也就是之前新聞在說的「蒸餾技術」

AI 系統中的「蒸餾技術」（Knowledge Distillation，知識蒸餾），是一種模型壓縮（Model Compression）方法，主要用來讓較小的模型學習較大模型的知識，同時保持高效的推理能力。這種技術能夠在減少計算成本的同時，保留較好的性能，特別適合資源受限的設備（如手機、嵌入式設備等）。

### 知識蒸餾的基本概念
1. 教師模型（Teacher Model）
- 一個預先訓練好的大型 AI 模型，通常是性能較強但計算量較大的深度學習模型。

2. 學生模型（Student Model）
- 一個較小的 AI 模型，它的目標是學習教師模型的知識，達到類似的預測效果，但計算量更小、效率更高。

3. 蒸餾過程（Distillation Process）
- 讓學生模型學習教師模型的軟標籤（Soft Labels），即教師模型對數據的概率分佈，而不僅僅是標準的硬標籤（Hard Labels）。
- 通常會引入一個溫度參數（Temperature）來調整教師模型的輸出，使得學生模型能更有效地學習隱含知識。

### 知識蒸餾的應用
- 語音識別（如 Siri、Google Assistant）
- 自然語言處理（如 BERT 蒸餾版 DistilBERT）
- 圖像識別（如 MobileNet）
- 推薦系統（如個性化推薦）

這種方法可以讓 AI 模型在保證準確度的前提下，變得更輕量、高效，適用於移動設備、邊緣計算等場景。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.46.140.244 (泰國)

※ PTT 網址

推

neofire 01/30 16:04所以呢？中國崛起了？

推

mamorui 01/30 16:06前面才一篇問OpenAI怎麼傻傻還在找

→

mamorui 01/30 16:06肯亞人tag資料顆顆

推