Re: [爆卦] 50美元訓練出媲美DeepSeek R1
※ 引述《JQK2 (ACE)》之銘言:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
李飛飛就是讓模型學習 - 考試技巧
1. 找已經上過課的學生教技巧:教 Qwen 32B 開源模型
2. 寫考古題:59,000題中挑1,000題
3. 不會就跳過:終止控制
4. 不要輕易作答:延長控制
5. 練習考試時間分配:動態計算分配
只教考試技巧,訓練時間當然短
-
R1 寫的論文摘要:
這篇論文提出名為「s1」的測試階段擴展方法,透過兩種創新技術顯著提升語言模型的數學推理能力。研究團隊在Qwen2.5-32B-Instruct模型基礎上,僅使用1,000個精選樣本進行監督微調,即達到超越OpenAI o1-preview模型的表現。
> 核心技術亮點:
1. s1K數據集三階段篩選法
結合「難度」(雙模型過濾易答題)、「多樣性」(50個數學子領域)與「質量」(格式檢查+API錯誤剔除)三項指標,從59,000個候選問題中精選1,000個高品質樣本。此方法使模型訓練效率提升59倍,卻能達成相近準確率。
2. 預算強制調控機制
* 終止控制:當推理過程超出設定長度時,強制插入「Final Answer:」終止符
* 延長控制:偵測到過早結束時,自動追加「Wait」提示詞誘導模型二次檢查
此技術使AIME24競賽數學題準確率從50%提升至57%,且能線性擴展計算資源與表現的關係。
> 成本優化關鍵:
研究未採用蒸餾技術,而是透過:
* 極簡數據策略:1,000樣本僅需26分鐘(16×H100 GPU)完成微調
* 動態計算分配:測試階段依題目難度彈性調整運算資源,避免固定長度造成的資源浪費 * 開源生態整合:直接基於現有Qwen2.5模型改裝,省去從頭訓練成本
實驗結果顯示,該方法在MATH500和AIME24數學競賽題分別取得95%和57%準確率,較原始模型提升27%。特別在「概率論博士資格考題」等專業領域,透過預算強制機制可誘導模型自我修正錯誤,展現類似人類的反覆驗證思維特徵。
--
猜題喔 XD
要刷題還得是國人
重點在於它那1000題是人類挑的
但答案是Gemini 2.0給的
所以最終表現還不錯
通義千問+Gemini 也是中美合作了XD
李飛飛的方向是對的 但猜題本身就很難
以後AI會不會寫共筆
找學霸o3寫完共筆後,猜題100分
以前AI都是裸考,之後都要上補習班了
所以現在是在比填鴨式囉?
翻譯:三思而後行ok,思慮過重會損傷脾胃
應考模式果然是訓練的最佳方法
爆
[情報] 50美元訓練出媲美DeepSeek R1標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
40
Re: [閒聊] DeepSeek是不是真的很強?這串一堆外行 首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低 先說訓練成本低29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。3
[討論] 研究揭開DeepSeek弱點:三心二意最新研究揭示: 在遇到高難度問題時 DeepSeek推理大模型可能像三心二意的學生一樣頻繁切換解題思路 而因缺乏深入探索而失敗2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
爆
[問卦] 現在的HR都愛問一些奇怪問題嗎![[問卦] 現在的HR都愛問一些奇怪問題嗎 [問卦] 現在的HR都愛問一些奇怪問題嗎](https://i.urusai.cc/QtYfe.png)
爆
[問卦] 去銀行一次提領一百![[問卦] 去銀行一次提領一百 [問卦] 去銀行一次提領一百](https://i.imgur.com/eiBR27jb.jpeg)
爆
[問卦] 11/4離職 11/26出包,公司叫離職的負責?![[問卦] 11/4離職 11/26出包,公司叫離職的負責? [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://img.youtube.com/vi/uGOWqxN_avw/mqdefault.jpg)
爆
Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?![Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責? Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://i.imgur.com/AN84rLmb.jpeg)
89
[問卦] 霸凌同學 有好聽說法嗎85
[問卦] 吳郭魚片寫台灣鯛魚片484詐騙?![[問卦] 吳郭魚片寫台灣鯛魚片484詐騙? [問卦] 吳郭魚片寫台灣鯛魚片484詐騙?](https://img.youtube.com/vi/dtuSqd-TcxU/mqdefault.jpg)
79
[問卦] 美財長貝森特:美是中國盟友也是台灣盟友![[問卦] 美財長貝森特:美是中國盟友也是台灣盟友 [問卦] 美財長貝森特:美是中國盟友也是台灣盟友](https://i.imgur.com/W29EoF5b.png)
71
[問卦] 台女脆文:瑞幸咖啡穩死的!![[問卦] 台女脆文:瑞幸咖啡穩死的! [問卦] 台女脆文:瑞幸咖啡穩死的!](https://i.mopix.cc/NRU3Hs.jpg)
67
[問卦] 現在可以在總統府前罵總統嗎96
[問卦] 真的有記者去含檢察官的屌換情報?61
[問卦] 八歲就開扁同學以後能成大事嗎56
[問卦] CloudFlare又掛了?36
[問卦] 全聯鯛魚搞到要國賠了![[問卦] 全聯鯛魚搞到要國賠了 [問卦] 全聯鯛魚搞到要國賠了](https://i.imgur.com/flM1A6bb.png)
86
[問卦] 脆女:第一胎沒300萬 別生小孩了!![[問卦] 脆女:第一胎沒300萬 別生小孩了! [問卦] 脆女:第一胎沒300萬 別生小孩了!](https://i.mopix.cc/NRU3Hs.jpg)
45
[問卦] 8歲就嗆要打死人,長大能做什麼?![[問卦] 8歲就嗆要打死人,長大能做什麼? [問卦] 8歲就嗆要打死人,長大能做什麼?](https://i.imgur.com/eVKUCT4b.jpeg)
42
[問卦] 為何08年大家22k時沒人躺平 現在卻一堆?![[問卦] 為何08年大家22k時沒人躺平 現在卻一堆? [問卦] 為何08年大家22k時沒人躺平 現在卻一堆?](https://i.mopix.cc/P0cKXZ.jpg)
39
[問卦] 燒臘便當這樣多少合理?![[問卦] 燒臘便當這樣多少合理? [問卦] 燒臘便當這樣多少合理?](https://i.imgur.com/FLuRAsfb.jpeg)
40
[問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼![[問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼 [問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼](https://i.imgur.com/I9muINnb.jpeg)
36
[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?![[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎? [問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?](https://i.mopix.cc/wyBvTF.jpg)
32
[問卦] 為什麼女生興趣都寫旅遊跟美食49
[問卦] 蝙蝠俠幹嘛不把小丑做掉![[問卦] 蝙蝠俠幹嘛不把小丑做掉 [問卦] 蝙蝠俠幹嘛不把小丑做掉](https://img.youtube.com/vi/cm3Chp2u7HY/mqdefault.jpg)
30
[問卦] Telegram才更該禁吧爆
Re: [新聞] 不只一人受害!賴瑞隆兒涉「校園霸凌3同30
[問卦] 檢驗結果為什麼是助理扛?![[問卦] 檢驗結果為什麼是助理扛? [問卦] 檢驗結果為什麼是助理扛?](https://img.youtube.com/vi/ftuuVwvhvKM/mqdefault.jpg)
29
[問卦] 2025年底了今年的代表字是? 好的部分28
[問卦] 8歲打人是「小朋友之間的摩擦」那18歲?![[問卦] 8歲打人是「小朋友之間的摩擦」那18歲? [問卦] 8歲打人是「小朋友之間的摩擦」那18歲?](https://i.meee.com.tw/QWoHrWC.jpg)
28
[問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵?![[問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵? [問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵?](https://i.ytimg.com/vi/zU_l0NR7HFE/maxresdefault.jpg)
27
[問卦] 王子甩掉粿粿的機率多高25
[問卦] 沒事就吹,出事就推 會想到誰31
Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助![Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助 Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助](https://attach.setn.com/newsimages/2025/12/02/5367966-PH.jpg)