Re: [爆卦] 50美元訓練出媲美DeepSeek R1

kinda 發表於 2025/2/6 下午8:02:30

看板Gossiping標題Re: [爆卦] 50美元訓練出媲美DeepSeek R1作者

(天天)時間Feb 6 20:02:30 2025推噓 5 推:5 噓:0 →:8

※ 引述《JQK2 (ACE)》之銘言：
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
李飛飛就是讓模型學習 - 考試技巧

1. 找已經上過課的學生教技巧：教 Qwen 32B 開源模型
2. 寫考古題：59,000題中挑1,000題
3. 不會就跳過：終止控制
4. 不要輕易作答：延長控制
5. 練習考試時間分配：動態計算分配

只教考試技巧，訓練時間當然短

-
R1 寫的論文摘要：

這篇論文提出名為「s1」的測試階段擴展方法，透過兩種創新技術顯著提升語言模型的數學推理能力。研究團隊在Qwen2.5-32B-Instruct模型基礎上，僅使用1,000個精選樣本進行監督微調，即達到超越OpenAI o1-preview模型的表現。

> 核心技術亮點：
1. s1K數據集三階段篩選法
結合「難度」（雙模型過濾易答題）、「多樣性」（50個數學子領域）與「質量」（格式檢查+API錯誤剔除）三項指標，從59,000個候選問題中精選1,000個高品質樣本。此方法使模型訓練效率提升59倍，卻能達成相近準確率。

2. 預算強制調控機制
* 終止控制：當推理過程超出設定長度時，強制插入「Final Answer:」終止符
* 延長控制：偵測到過早結束時，自動追加「Wait」提示詞誘導模型二次檢查
此技術使AIME24競賽數學題準確率從50%提升至57%，且能線性擴展計算資源與表現的關係。

> 成本優化關鍵：
研究未採用蒸餾技術，而是透過：
* 極簡數據策略：1,000樣本僅需26分鐘（16×H100 GPU）完成微調
* 動態計算分配：測試階段依題目難度彈性調整運算資源，避免固定長度造成的資源浪費 * 開源生態整合：直接基於現有Qwen2.5模型改裝，省去從頭訓練成本

實驗結果顯示，該方法在MATH500和AIME24數學競賽題分別取得95%和57%準確率，較原始模型提升27%。特別在「概率論博士資格考題」等專業領域，透過預算強制機制可誘導模型自我修正錯誤，展現類似人類的反覆驗證思維特徵。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)

推

StylishTrade 02/06 20:04猜題喔 XD

→

lastphil 02/06 20:07要刷題還得是國人

推

aa1477888 02/06 20:07重點在於它那1000題是人類挑的

→

aa1477888 02/06 20:07但答案是Gemini 2.0給的

→

aa1477888 02/06 20:07所以最終表現還不錯

→

aa1477888 02/06 20:08通義千問+Gemini 也是中美合作了XD

推

aa1477888 02/06 20:11李飛飛的方向是對的但猜題本身就很難

→

kinda 02/06 20:12以後AI會不會寫共筆

→

kinda 02/06 20:13找學霸o3寫完共筆後，猜題100分

→

kinda 02/06 20:16以前AI都是裸考，之後都要上補習班了

推

selfhu 02/06 20:50所以現在是在比填鴨式囉？

→

shooding 02/07 00:34翻譯:三思而後行ok,思慮過重會損傷脾胃

推

cerberi 02/07 06:00應考模式果然是訓練的最佳方法

同系列文章

[爆卦] 50美元訓練出媲美DeepSeek R1

其他人也閱讀了

PTT 熱門相關