PTT評價

Re: [情報] 50美元訓練出媲美DeepSeek R1

看板Stock標題Re: [情報] 50美元訓練出媲美DeepSeek R1作者
DrTech
(竹科管理處網軍研發人員)
時間推噓23 推:26 噓:3 →:44

※ 引述《LimYoHwan (gosu mage)》之銘言:
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg

: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1: 。
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393

連結或內文,完全是錯的。
根本是腦殘媒體在亂寫。與論文事實不符。

先說論文結論:

模型表現:
經過不斷的做實驗試錯,
終於從59000筆訓練資料中,

找到一組1000筆AI訓練資料,
可以在"部分考卷"上贏 OpenAI的一個很爛的模型,o1-preview。

其他考卷考出來的分數,依然慘輸給 deepseek-R1,ChatGPT-o1。



成本:不到50美元。
也是只看 fine-tune 1000題,一次的成本。

而且,試了不知道幾次,
終於找到一次,
可以在部分考卷上贏一個很爛的模型。

媒體文章中,忽略不計的成本,至少包含:

base模型訓練的成本(至少占成本99%)
研究人員不斷試錯找1000題的成本。
多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。


其他錯誤資訊,媒體的內文寫:

研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。


完全錯誤。原始論文寫:

先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。

最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。


真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。

而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調

結論:
研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。

一堆外行人,連論文都不看,在造假新聞。
媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。


--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.31.161 (臺灣)
PTT 網址

fedona 02/07 08:17股版人看不懂英文

cafein 02/07 08:17

herculus650202/07 08:36反正這裏是股版

GOOGLEISGOD 02/07 08:42專業

AGODC 02/07 08:46這就如同酒精釀造工藝,一般不懂的人認知上它就是某

AGODC 02/07 08:46蒸餾原理,只是有加上一些前後加工的工序,本質上對

AGODC 02/07 08:46一般人來說用「蒸餾」這個辭最好理解啊,未來這種類

AGODC 02/07 08:46蒸餾或前後資料篩選再tune的東西會一籮筐,前面幾個

AGODC 02/07 08:46還分得出來差異,到後面出來幾百幾千個時,誰還分得

AGODC 02/07 08:46出來用哪個方法?反而叫蒸餾是一般人最好理解的

aaa80563 02/07 08:48不然為什麼一堆-0.06的噴上天

maxangel 02/07 08:50台灣媒體就不讀書 當然不會認真寫

Laviathan 02/07 08:50蒸餾不一定是監督式學習,但微調是監督式學習,樓

Laviathan 02/07 08:50上怎麼可以說都一樣叫蒸餾

wr 02/07 08:51簡單來說 只要你能從六萬筆資料中找到那1000筆資料

wr 02/07 08:51你就可以弄出跟gemini很接近的能力

wr 02/07 08:53也就是說 如何找到那1000筆資料的技術應該可以賣錢

dani1992 02/07 08:54按你描述是從Gemini蒸餾微調Qwen沒錯啊

wr 02/07 08:54至於訓練出來的東西 就隨便應用端去天馬行空了

gift1314520 02/07 08:58笑不給他資料庫看他怎麼學習

LDPC 02/07 09:01大大 建議你自刪 這就是蒸餾。是你自己不懂

p122607 02/07 09:05這也是蒸餾的一種…

Lowpapa 02/07 09:06整篇誤導

laidawn 02/07 09:06推,看不懂

LDPC 02/07 09:08作者自己paper都說 1000題從gemini thinking distil

LDPC 02/07 09:08l

LDPC 02/07 09:09這已經不是你第一次亂嗆 結果自己搞錯=_=

LDPC 02/07 09:10paper 第一頁 右下方就講distilled from gemini thi

LDPC 02/07 09:10nking experimental

ab4daa 02/07 09:12

kungwei 02/07 09:13專業給推

y800122155 02/07 09:13貼出來騙人下車的啊

LDPC 02/07 09:14哪來專業..=_=

oopFoo 02/07 09:27必須推。s1來蹭r1的。s1論文根本就不實際,也不實用

oopFoo 02/07 09:32s1這篇論文只是來騙篇數的。phd的悲哀。

emind 02/07 09:40論文主旨是test-time compute 也放在標題了。Ilya

emind 02/07 09:40在2024 Neurips 也講inference time compute.

emind 02/07 09:41宣傳成本什麼的很好笑

DrTech 02/07 10:14這篇論文的distilled意思,與前幾年大家在做transfo

DrTech 02/07 10:14rmer模型時的蒸餾,完全不同意思。是違反學術常規定

DrTech 02/07 10:14義,自創的定義,意思是用Gemini 模型,生成新的訓

DrTech 02/07 10:14練資料。硬扯沒意義,論文實際上跑出來的分數就是大

DrTech 02/07 10:14輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫

DrTech 02/07 10:14

Denny224 02/07 10:15推一個 這才是認知中的學術研究

DrTech 02/07 10:16我對於研究成果沒有否定,但新聞媒體亂報也是事實。

DrTech 02/07 10:23蒸餾模型model distillation本來是模型權重數量壓縮

DrTech 02/07 10:23的一種技術。結果這篇文章用的蒸餾,意思是用模型生

DrTech 02/07 10:23成訓練用的文字資料,不是學術界正式的用語。所以目

DrTech 02/07 10:23前只能放在arxiv,連正式的學術審稿都沒過。

DrTech 02/07 10:30基底模型是Qwen2.5-32B,然後少量Gemini模型生成資

DrTech 02/07 10:30料微調參數,再怎麼蒸餾,硬要扯,也是在蒸餾Qwen2.

DrTech 02/07 10:305-32B的能力。

holien 02/07 10:31現在學術研究為了比快,有人會先放在arrive,宣示

holien 02/07 10:31自己的成果。

DrTech 02/07 10:31蒸餾老半天,結果還是輸deepseek-R1阿。論文都寫了

DrTech 02/07 10:31

DrTech 02/07 10:38研究貢獻也不在 "媲美deepseek-R1" 明明就輸很大,

DrTech 02/07 10:38標題亂寫而已。

newyorker54 02/07 10:45我書讀的不多

newyorker54 02/07 10:46所以結論是deepseek r1繼續用?

atpx 02/07 10:46

kissa092430702/07 11:04結論NVDA續抱

stlinman 02/07 11:11說個笑話李飛飛不懂學術界正式用語!

clou 02/07 11:12白痴媒體真的多,不過想想也是因為有這些股市才能賺

watashino 02/07 11:18蒸餾沒錯啊 但確實也是在fine tune

ImHoluCan 02/07 11:31原來是Dr,專業

ImHoluCan 02/07 11:33Dr大真的專業的,很多人看新聞不自己去查一下

ImHoluCan 02/07 11:36有人會不認識這Dr兄? 還在那反駁Dr兄,以後好人就

ImHoluCan 02/07 11:36越來越少人發文了

HenryLin123 02/07 11:56這咖我記得業內人士也在推面板股的,我有沒有記錯

HenryLin123 02/07 11:56