Re: [情報] 50美元訓練出媲美DeepSeek R1
※ 引述《LimYoHwan (gosu mage)》之銘言:
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393
連結或內文,完全是錯的。
根本是腦殘媒體在亂寫。與論文事實不符。
先說論文結論:
模型表現:
經過不斷的做實驗試錯,
終於從59000筆訓練資料中,
找到一組1000筆AI訓練資料,
可以在"部分考卷"上贏 OpenAI的一個很爛的模型,o1-preview。
其他考卷考出來的分數,依然慘輸給 deepseek-R1,ChatGPT-o1。
成本:不到50美元。
也是只看 fine-tune 1000題,一次的成本。
而且,試了不知道幾次,
終於找到一次,
可以在部分考卷上贏一個很爛的模型。
媒體文章中,忽略不計的成本,至少包含:
base模型訓練的成本(至少占成本99%)
研究人員不斷試錯找1000題的成本。
多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。
其他錯誤資訊,媒體的內文寫:
研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。
完全錯誤。原始論文寫:
先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。
最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。
真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。
而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調
結論:
研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。
一堆外行人,連論文都不看,在造假新聞。
媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。
--
股版人看不懂英文
讚
反正這裏是股版
專業
這就如同酒精釀造工藝,一般不懂的人認知上它就是某
蒸餾原理,只是有加上一些前後加工的工序,本質上對
一般人來說用「蒸餾」這個辭最好理解啊,未來這種類
蒸餾或前後資料篩選再tune的東西會一籮筐,前面幾個
還分得出來差異,到後面出來幾百幾千個時,誰還分得
出來用哪個方法?反而叫蒸餾是一般人最好理解的
不然為什麼一堆-0.06的噴上天
台灣媒體就不讀書 當然不會認真寫
蒸餾不一定是監督式學習,但微調是監督式學習,樓
上怎麼可以說都一樣叫蒸餾
簡單來說 只要你能從六萬筆資料中找到那1000筆資料
你就可以弄出跟gemini很接近的能力
也就是說 如何找到那1000筆資料的技術應該可以賣錢
按你描述是從Gemini蒸餾微調Qwen沒錯啊
至於訓練出來的東西 就隨便應用端去天馬行空了
笑不給他資料庫看他怎麼學習
大大 建議你自刪 這就是蒸餾。是你自己不懂
這也是蒸餾的一種…
整篇誤導
推,看不懂
作者自己paper都說 1000題從gemini thinking distil
l
這已經不是你第一次亂嗆 結果自己搞錯=_=
paper 第一頁 右下方就講distilled from gemini thi
nking experimental
穩
專業給推
貼出來騙人下車的啊
哪來專業..=_=
必須推。s1來蹭r1的。s1論文根本就不實際,也不實用
s1這篇論文只是來騙篇數的。phd的悲哀。
論文主旨是test-time compute 也放在標題了。Ilya
在2024 Neurips 也講inference time compute.
宣傳成本什麼的很好笑
這篇論文的distilled意思,與前幾年大家在做transfo
rmer模型時的蒸餾,完全不同意思。是違反學術常規定
義,自創的定義,意思是用Gemini 模型,生成新的訓
練資料。硬扯沒意義,論文實際上跑出來的分數就是大
輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫
。
推一個 這才是認知中的學術研究
我對於研究成果沒有否定,但新聞媒體亂報也是事實。
蒸餾模型model distillation本來是模型權重數量壓縮
的一種技術。結果這篇文章用的蒸餾,意思是用模型生
成訓練用的文字資料,不是學術界正式的用語。所以目
前只能放在arxiv,連正式的學術審稿都沒過。
基底模型是Qwen2.5-32B,然後少量Gemini模型生成資
料微調參數,再怎麼蒸餾,硬要扯,也是在蒸餾Qwen2.
5-32B的能力。
現在學術研究為了比快,有人會先放在arrive,宣示
自己的成果。
蒸餾老半天,結果還是輸deepseek-R1阿。論文都寫了
。
研究貢獻也不在 "媲美deepseek-R1" 明明就輸很大,
標題亂寫而已。
我書讀的不多
所以結論是deepseek r1繼續用?
推
結論NVDA續抱
說個笑話李飛飛不懂學術界正式用語!
白痴媒體真的多,不過想想也是因為有這些股市才能賺
蒸餾沒錯啊 但確實也是在fine tune
原來是Dr,專業
Dr大真的專業的,很多人看新聞不自己去查一下
有人會不認識這Dr兄? 還在那反駁Dr兄,以後好人就
越來越少人發文了
這咖我記得業內人士也在推面板股的,我有沒有記錯
?
爆
首Po標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
33
基本上這是一個完全由美國本土的大學團隊成員 研究的成果,李飛飛是從小就移民美國的美國 人,本身是美國國家工程學會院士,如果這個也 算捲的話應該是美國人自己也在卷AI科技而且 還比之前的DS更狠,就看之後能不能提供上傳![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
47
好的 google 要不要把昨天財報上的說750億設備支出 變成50美元支出? 李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
9
大家都被訓練成本給迷惑 說穿了訓練AI就像培養人才 真正重點是"教材內容正確性",以及"學習成果的評價回饋" (就是老師要改作業) 對應的是"輸入資料正確性",並且存在"有效的回饋機制來修正權重" 資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完9
讀完了 稍微整理一下這篇 這篇基本上就是#1dccCRfj 就是CoT synthetic dataset 透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務 而此時新模型能更好地學會思考 這篇文章列了好幾個synthetic dataset的樣板![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://i.ibb.co/7dS1fSnD/Screen-Shot-2025-02-06-at-9-38-26-AM.png)
這位大大 你真的很喜歡批評別人耶 這篇示範的是synthetic dataset disillation概念 為何叫做是dislillation是因為用大模型的知識去創作出的數據集 還推說這是這篇作者自己捏造蒸留定義 學術圈沒人這樣做... 這樣很不好耶...這明明就是一個正統的學術圈常用詞![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://huggingface.co/blog/assets/open-r1/thumbnails.png)
2
我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現 包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到 這才是最奇怪的。 今日鼓點:大A乘風直上,就像哪吒2的票房 ※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/Run03PWXGBc/mqdefault.jpg)
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)![[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂 [爆卦] 數發部次長造謠Deepseek成本不只550萬鎂](https://i.imgur.com/jmMt7gnb.jpeg)
40
Re: [閒聊] DeepSeek是不是真的很強?這串一堆外行 首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低 先說訓練成本低14
[爆卦] 50美元訓練出媲美DeepSeek R1李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe![[爆卦] 50美元訓練出媲美DeepSeek R1 [爆卦] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
10
Re: [問卦] DeepSeek成本這麽低的原因是啥?分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/O3nSbTXb.jpeg)
6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。5
Re: [爆卦] 50美元訓練出媲美DeepSeek R1李飛飛就是讓模型學習 - 考試技巧 1. 找已經上過課的學生教技巧:教 Qwen 32B 開源模型 2. 寫考古題:59,000題中挑1,000題 3. 不會就跳過:終止控制 4. 不要輕易作答:延長控制
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據我先講我非AI專業 但這件事情基本就是鬼扯 甚麼叫做利用O1蒸餾出R1 你要用API抓多少資訊量跟TOKEN才做得出來 然後這件事情OPENAI還會不知道?2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平