Re: [情報] 50美元訓練出媲美DeepSeek R1
https://arxiv.org/abs/2501.19393
讀完了 稍微整理一下這篇 這篇基本上就是#1dccCRfj 就是CoT synthetic dataset
透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務
而此時新模型能更好地學會思考
這篇文章列了好幾個synthetic dataset的樣板
https://ibb.co/YFNLCNcS
也用了另外大模型去確認CoT Synthetic dataset 品質
Table 5. Summary of our dataset s1K. Token count measured by the
Qwen-2.5 tokenizer. We prompt Claude to produce keywords given
several questions from the domain.
這篇最大亮點是提供開源了思考練的合成數據(CoT Sythetic dataset) 樣本和樣板
剛好彌補之前所說第三方想重新複製deep-r1 但缺數據
https://huggingface.co/blog/open-r1
(版上好多ai專家說 還說捨抹不可能拿opean api去做數據 真的是...)
然後為何以前沒人做? 因為沒有第一代母體大模型
但雖然CoT (思考鏈 也就是讓模型慢慢想 不要一步到位想出答案 而是把問題
拆解N各步驟任務子問題 一步步去解決 上面的合成數據就是在做這類似事情)
可以提升效能 但這手段也是要付出一些代價
以我自己做過的LLM翻譯模型為例 在infenrece端 使用CoT 可以直接把BLEU/COMET
衝上個20% 但付出的代價就是 速度變慢五倍 (類比人類反應時間) 在許多落地場景
基於使用者體驗 速度是有嚴格定義 (比方說翻譯一句話 最多只能用多少秒)
那遇到這種問題 要如何解決?
"遇到不能解決的事情 就用C4炸彈" <謠言終結者>
"遇到效能或速度拉不起來 就用大算力" < @v@b >
(註:當然 在inference端 能提供多少樣戶
queries 算力也是個重要指標 參照 #1crWnRFw 第二個連結 評價GB200 用戶請求效能)
在AI算法 除了效能 成本外 還有一個重要指標 就是速度 很多探討你會注意到
其實速度沒放在裡面一起評價 這造成一種錯覺 會誤認算力需求可以透過算法去減輕
事實上很多算法拉升效能 降低成本 此時會付出記憶體代價 或者速度產出變慢的代價
而許多落地產景 恰巧速度是很重要的體驗 (QQ 不能分享例子 不然會被抓走)
然後老黃的親兒子coreweave 也上線了
https://blogs.nvidia.com/blog/blackwell-coreweave-gb200-nvl72-instances-cloud/
現在基於一堆優秀第一代母體大模型 天網出來也是遲早的事情 @n@/
我們離電池之日不遠了
然後蘇媽有給了一個ASIC和GPU大戰的看法 改天再分享@@/
※ 引述《LimYoHwan (gosu mage)》之銘言:
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393
--
今年依舊要靠老黃吃穿了
可以炸薯條了嗎?
薯條加大
下個月加拿大薯條關稅+10% 不囤NV 先囤薯條 Y@o@Y
LD大薯條王一生平安。
推推 期待下一篇加碼
CW的圖示看起來像一隻手,比著錢錢…
"遇到效能或速度拉不起來 就用大算力"
能賺錢了再叫我
我要去種馬鈴薯了
爆
首Po標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
33
基本上這是一個完全由美國本土的大學團隊成員 研究的成果,李飛飛是從小就移民美國的美國 人,本身是美國國家工程學會院士,如果這個也 算捲的話應該是美國人自己也在卷AI科技而且 還比之前的DS更狠,就看之後能不能提供上傳![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
47
好的 google 要不要把昨天財報上的說750億設備支出 變成50美元支出? 李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
9
大家都被訓練成本給迷惑 說穿了訓練AI就像培養人才 真正重點是"教材內容正確性",以及"學習成果的評價回饋" (就是老師要改作業) 對應的是"輸入資料正確性",並且存在"有效的回饋機制來修正權重" 資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完23
連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯,![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/yD5Zdk79X68/mqdefault.jpg)
這位大大 你真的很喜歡批評別人耶 這篇示範的是synthetic dataset disillation概念 為何叫做是dislillation是因為用大模型的知識去創作出的數據集 還推說這是這篇作者自己捏造蒸留定義 學術圈沒人這樣做... 這樣很不好耶...這明明就是一個正統的學術圈常用詞![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://huggingface.co/blog/assets/open-r1/thumbnails.png)
2
我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現 包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到 這才是最奇怪的。 今日鼓點:大A乘風直上,就像哪吒2的票房 ※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/Run03PWXGBc/mqdefault.jpg)
爆
Re: [請益] 費半成份股全線崩盤 怎麼辦?既然有人提推論,我就講看看訓練端 DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本 和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練 未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million 簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要![Re: [請益] 費半成份股全線崩盤 怎麼辦? Re: [請益] 費半成份股全線崩盤 怎麼辦?](https://i.imgur.com/ZrjivY5b.jpeg)
29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
10
Re: [討論] OpenAI GPT o1模型阿肥外商碼農阿肥啦! 目前技術太多都說得太雲裡霧裡,但是截至目前為止針對o1其實OpenAI透露出來的技術細 節都不如過往得多,像之前GPT-4跟GPT-3.5過往還有完整的文件跟引用可以窺探,所以就 不做過份的臆測了。 以目前的一些文件上有提到的可以確定這次o1使用了CoT這絕對是一個Agent沒錯(跟過往![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://arcprize.org/media/images/blog/ap-blog-o1.jpg)
6
Re: [問卦] DeepSeek怎麼一天就走下神壇?專業一句話就是 R1是一個"方法論"而不是模型 v3是新模型範式的概念驗證 建議先去看 LATS 或 ANPL 比較好理解什麼叫"方法論" 先講v3價值:打破了以往單一模型走scaling law 成本是近似指數或n^2誇張上升 原本AI能力要變強 原本是要暴脹式的砸錢 軍備競賽般的資本競賽 v3 open的paper說明了 用成千上百個小model集合也能做出類似效果 不用被大n懲罰1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
2
Re: [爆卦] 中央研究院詞庫小組大型語言模型阿肥外商碼農阿肥啦! 今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點, 大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓 練數據集當中去模仿數據源的分佈。 當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC3
Re: [請益] Deepseek v3 對台積電有影響嗎的確會讓人好奇DeepSeek-V3的訓練方式, 但成本降低如此之多,另外一個思考點,是不是除了科技巨頭外, 更多公司願意投入資本支出來建立自己的模型? 而且隨著技術發展,模型建立的成本一定會快速下降。 DeepSeek-V3比較的 Claude.ai/Qwen2.5/LLaMA3.1![Re: [請益] Deepseek v3 對台積電有影響嗎 Re: [請益] Deepseek v3 對台積電有影響嗎](https://i.imgur.com/ZGzxwgNb.jpg)
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據我先講我非AI專業 但這件事情基本就是鬼扯 甚麼叫做利用O1蒸餾出R1 你要用API抓多少資訊量跟TOKEN才做得出來 然後這件事情OPENAI還會不知道?2
Re: [問卦] ChatGPT問世,臺灣的AI大師在想什麼?阿肥外商碼農阿肥啦! 當前LLM像chatGPT即使問世,依舊還是有很多前沿問題沒解決,模型即使透過Instructio ns 由人工引導學習,還是很難達到真正的在線學習,人腦卻是可以時時重塑世界模型, 而且當前很多新研究都發現人腦耗電非常低但新皮質效能卻很高,而且LLM在很多層面即 使優於人腦,但是他卻缺少部分的世界模型。