[問卦] 語言模型用蒸餾是不是要寫上純度?
大家都說deepseek蒸餾gpt來的
廣義上來說 GPT也是蒸餾整個網路資料來的
然後李飛飛用50美金重現deepseek的論文 算不算二次蒸餾三次蒸餾
那這樣以後語言模型是不是都要標註純度?
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 14.52.5.227 (韓國)
※ PTT 網址
→
大概87%
推
就是temp阿
推
我都改用發酵
推
二鍋頭60趴啦 供參
推
二個75%是150%
44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/9N2QFY1b.png)
47
Re: [情報] 50美元訓練出媲美DeepSeek R1好的 google 要不要把昨天財報上的說750億設備支出 變成50美元支出? 李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://i.imgur.com/wNCJOYBb.jpg)
7
[問卦] ChatGPT o3新模型怎麼防蒸餾?Deepseek公布了低成本蒸餾法 能把現成的LLM模型以另一個模型蒸餾出來 省去初期開發成本以極低的成本搶佔資本市場 o3新模型就面臨抉擇 1.開放API等著被模型各種蒸餾6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/uznnxpcb.jpeg)
6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。6
Re: [問卦] DeepSeek是真貨,版圖會不會大改?Deepseek真正改變的是讓開源生態系注入了新的活水,過去半年其實大家都是被OpenAI的生 態系越玩越死,新創很怕自己做出的服務馬上就被閉源的chatGPT直接取代,然後要做出服 務還要付出大筆服務費,要自己搭還需要大量計算能力。 但DeepSeek R1直接告訴你要讓語言模型有推理能力根本不需要真的做大,要訓練推理能力 也不需要讓人去轉出人類的思考過程(TTT模式),直接拿好的基礎我們去蒸餾再去給他環4
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這裡的說法如果是正確的話,那DeepSeek就不是只靠蒸餾來達成的. Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese Startup 這個CEO就是指控DeepSeek事實上擁有並使用50000個H100 GPU的人.![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://observer.com/wp-content/uploads/sites/2/2025/01/GettyImages-1540568234.jpg?quality=80)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
63
[問卦] CloudFlare又掛了?27
[問卦] 沒人發現今日小紅書,明日就是PTT??![[問卦] 沒人發現今日小紅書,明日就是PTT?? [問卦] 沒人發現今日小紅書,明日就是PTT??](https://i.imgur.com/Oh5UTjvb.jpeg)
37
[問卦] 台女:性騷擾本來就是我來定義![[問卦] 台女:性騷擾本來就是我來定義 [問卦] 台女:性騷擾本來就是我來定義](https://i.mopix.cc/NRU3Hs.jpg)
30
[問卦] 2025年底了今年的代表字是? 好的部分27
[問卦] 8歲小朋友霸凌案,教會了我們什麼?0.025
[問卦] 男女去泡溫泉,啪啪機率多高?20
[問卦] 穿越異世界的始袓?14
[問卦] K董張國煒FB一直找我談投資 該答應嗎13
[問卦] 八歲賴兒如此勁爆 四叉貓怎麼沒去肉搜?![[問卦] 八歲賴兒如此勁爆 四叉貓怎麼沒去肉搜? [問卦] 八歲賴兒如此勁爆 四叉貓怎麼沒去肉搜?](https://i.imgur.com/ANeaGhqb.gif)
13
[問卦] 週末了一人po一張奶子圖啦![[問卦] 週末了一人po一張奶子圖啦 [問卦] 週末了一人po一張奶子圖啦](https://i.imgur.com/HZttOLIb.jpeg)
10
[問卦] 台灣到底多少人不用上班?12
[問卦] 20年前五百萬可以買什麼等級的房子?9
[問卦] 澤倫斯基如果說要幫忙解決敵國的經濟問題8
[問卦] 台客劇場怎麼了?10
[問卦] 立法20個菸頭才能買一包菸可行嗎?8
[問卦] 明年WBC中華台北對日本運彩怎麼買?4
[問卦] 美國會不會後悔二戰資助俄國9
Re: [問卦] 織田信長是一位很糟糕的大名吧?7
[問卦] 真正的共產主義會在美國誕生嗎?2
[問卦] 台灣詐騙為什麼抓不到源頭?![[問卦] 台灣詐騙為什麼抓不到源頭? [問卦] 台灣詐騙為什麼抓不到源頭?](https://i.imgur.com/vip2ESDb.jpeg)
6
[問卦] 從全台每人被摸走60萬才是最強詐騙集團吧![[問卦] 從全台每人被摸走60萬才是最強詐騙集團吧 [問卦] 從全台每人被摸走60萬才是最強詐騙集團吧](https://i.mopix.cc/FDTOHG.jpg)
8
Re: [新聞] 快訊/8歲兒子霸凌同學惹議 賴瑞隆自責![Re: [新聞] 快訊/8歲兒子霸凌同學惹議 賴瑞隆自責 Re: [新聞] 快訊/8歲兒子霸凌同學惹議 賴瑞隆自責](https://i.mopix.cc/FDTOHG.jpg)
5
[問卦] Dcard彩虹 #第一次3P 我還是唯一的受= =6
[問卦] 家戶收入多少算中產?7
[問卦] 有沒有周杰倫+阿信+F3的八卦?![[問卦] 有沒有周杰倫+阿信+F3的八卦? [問卦] 有沒有周杰倫+阿信+F3的八卦?](https://i.kfs.io/album/global/287281918,0v2/fit/500x500.jpg)
7
[問卦] 網路攝影機那麼容易被駭喔?8
[問卦] 為啥中國的短影音可以紅到國外 台灣不行6
[問卦] 王心凌紐約中央公園野餐,484可愛?![[問卦] 王心凌紐約中央公園野餐,484可愛? [問卦] 王心凌紐約中央公園野餐,484可愛?](https://i.imgur.com/sTGQVGfb.jpeg)
7
[問卦] 在中華民國 詐騙害人家破人亡 會有什麼7
[問卦] PTT能活這麼久其實很厲害了吧![[問卦] PTT能活這麼久其實很厲害了吧 [問卦] PTT能活這麼久其實很厲害了吧](https://i.imgur.com/bW9xTDQb.jpg)