Re: [情報] 50美元訓練出媲美DeepSeek R1
好的
google 要不要把昨天財報上的說750億設備支出
變成50美元支出?
李飛飛能直接表明蒸餾Google
Google 最好不知道還給你研究所蒸餾
那昨天Google 財報2025還要支出750億呢?
還是明天台灣派人去蒸餾meta Google chatGPT?
看看他們要不要給蒸餾
※ 引述《LimYoHwan》之銘言
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1
: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好
: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率
: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393
----
Sent from BePTT on my iPhone 16
--
看ptt就知道我的獲利都從哪些人手上來的了
你有了解模型跟基礎設備的差異嗎…
所以就是資本收割籌碼的手段,了解的就不會恐慌反
而開心能補貨@@
大家都等抄答案就好
努力寫題的是白痴
我比較喜歡李冰冰 唯一支持
各位AI大師,要不要組ㄧ隊?
李飛飛跟google很熟啦 都副總裁了 應該有講好吧
沒有一個頭後面要怎麼蒸餾,還是大家都在原地互相蒸
?
這波NV持續吃AI基建的大餅,因為目前AI發展除了大陸
被鎖死,全部都用NV的CUDA,目前仍很難看到取代性。
deep seek跟現在的開源鬼故事,反而是證明搞不好H10
0那種5奈米晶片提供的算力及成本CP值就足夠了,怕是
未必會一直需要增加晶體管密度。
而且基建要算力、後續運作、實體終端也都要算力啊,
又不是只有訓練需要
我蒸餾你的蒸餾他的蒸餾 會不會後面變成閉環
並不是單靠蒸餾,是新模型的架構以及訓練方法都開始
跟2023年流行的原始方式不同,早期像GPT3、4根本就
只是鸚鵡的增強版,而且還是很肥很胖要高額飼料錢的
鸚鵡。
我小時候也看過有人說pentium效能已經夠用了
現在的進展就跟AlphaGo一開始需要人類老師手把手教
後來自己跟自己下棋自己學是類似的情況,整天說蒸餾
的根本搞不清楚狀況,笑死!
pentium本來就夠用了
win xp再戰20年不是問題
大多數文書處理電腦…那個不是pentium就夠用了
晶體管密度越密價格越貴,除非台積電降價,要不然連
蘋果都吃不消,以為台積電會一直得利的我倒不認為,
因為技術發展也是要看CP值的,這點OpenAI就是不良示
範,你要錢要過頭大家都受不了。
不夠用單純就是某些軟體一直修改
才搞得不夠用
原本一個房間大的大型主機變成擺在桌上的小方塊 這
麼強的能力怎麼可能不夠用 難道你會需要比核武還複
雜的計算嗎?
我就舉例iphone4就好
那時候我拿iphone4上ptt…l
現在拿iphone16上ptt
李飛飛曾任google的副總裁 說不定google的模型就是
他一手策劃 這叫左手換右手
到底差別在哪裡?
問題是現在靠軟體設計模型的架構跟演算法進步直接讓
需求卡在5奈米,你花大錢搞1-2奈米就變盤子了,呵呵
!
五代機夠用了不用開發六代了嗎,燒再多錢也要搞啊
,軍備競賽就是這樣
真正的AI不在語言模型
其實花大錢當盤子沒差…其實以70億人口平均下去
根本不算多
這些科技公司都是以全球70億人口規模去計算的
沒有所謂的夠用這種事的
我還是要老話一句,人類大腦參數70B功耗60W記憶體4G
B,你一身都只需這樣的配備等級就可以吃喝拉撒生老
病死,現在擺明軟體演算法還有很大的進步空間。
蒸餾也要先有大模型 所以大模型要先訓練出來
AI結合醫療就是很多絕症攻克的曙光,太多路能走了
,沒人會停下腳步
當然硬體功耗也有很大的進步空間,現在實在太耗電,
吃電怪獸不是叫假的!
說得很好啦 算力越高越好 但是現在都有低成本差不多
樓上 現在就算的比人類快了
性能的AI出來了 還一直堆算力這方向有沒有問題?
耗電跟發熱問題就是要靠先進製程克服阿...
更小更快更省電 製程目標也就這樣
算的比人類快但明顯還比人類笨,你算加減乘除數Stra
berry有幾個r比AI還要在行,現在是AI記憶體不止4GB
所以你覺得AI好像比人類聰明,但放到同等級距,你屌
贏AI。
前提那個成本是真的
連馬斯克都不認的東西
所以幻方比OpenAI、微軟跟馬斯克有錢嗎?
AI聖杯拿到前談算力夠都是假的
AGI出來之前,醫療、軍工上面還是大有可為
Google怎樣說都是賺錢的吧 他可以用ai節流 裁員/節
省資源 開源 開發新應用 應該沒有什麼先前支出回
報的問題 開發模型是一定要投入開發 比如搜尋 不投
入開發等別家用ai搶市佔嗎 現在卷模型 下波卷應用
ai應用市場更大 需要更便宜的硬體更低的成本
人腦的記憶力很差,不能完全比吧
說不定下季就從750億美金變150億美金
而且你怎麼會認為人很聰明
大公司策略沒那麼靈活
Google要做的又不是只到這邊為止
要知道中國擺明要跟美國競爭了,川普一定會把AI放
在國安層級的高度
投資人就是要看到你花一堆資本支出,設備都可以折
舊攤提,而且現在7巨花的錢都是自己賺的現金流和之
前低利借的錢,根本不怕燒
人類很聰明呀!GPT-4參數量大概有175B的吃電怪獸卻
連9.11跟9.9哪個大都不知道,連草莓英文幾個r都會數
錯。
現在有推理模式,可以自我糾正錯誤了
?????
人腦4GB記憶體是究極壓縮的成果,讓人類的功耗只有6
0W,卻能有愛因斯坦的性能。
看用什麼角度思考,現在AI已經可以解奧賽題目了,
比當初轟動世界的gpt3.5強大太多
9.11 跟 9.9的原因是訓練資料當成版本號
我要講的不是吹噓人類很棒,而是AI模型仍有很大的進
步空間包括架構跟演算法都是。
解的出數奧題目,解不出9.9跟9.11哪個大
AI一開始畫畫不也是畫不出手指嗎
像Altman之前那種Scaling Law教主模樣,拼命堆參數
量,是不會開發出人類這樣精緻又厲害的大腦的。重點
是在可接受的功耗成本下達到人類程度外加相比人類無
限大的記憶體,這才是AI的目標。
NV真的完了
一直蒸餾484以後5毛錢就能訓練?
但愛因斯坦不是全才 比較像現在特化後的
現在他們在搞得根本是想弄出全才
台灣怎麼還不跟上?
其實OpenAI 的訓練成本也是一直降低,沒有只是無腦
堆算力、參數
這圖是推論,訓練的沒有存
所以才流行MoE呀!你遇到你不會的問題會怎麼做?愛
因斯坦不會修水電他會自己研究到當水電工嗎?還是打
個電話叫人來修?
如果水電工很貴 愛因斯坦會自己研究怎麼修水電@n@a
AI模型很多重大進展都是模擬人類大腦的結果,只是哪
個有效需要try and error,這點華人最擅長了,呵呵
!
人類是演化幾十萬年的結晶,AI發展不會這麼快。DS
執行長也說五年內很難有agi 。但還是要做
急著蒸出能塞進edge跟機器人的model 就是未來五年
的贏家 以為機器人喊喊而已嗎?今年就是前哨站了
美國AI這塊也很多是清華北大的學生,或是華裔
所以我才說預估是4-6年可以搞出AGI,NV會一直吃AI基
建大餅,我早就講過了,呵呵!
跟台灣比較有關的是台積電會扮演什麼角色,台積電被
川普點名下勢必要降價跟設廠才能繼續吃餅,要不然光
川普亂搞就夠台積電受的了,萬一真的被我講中5nm就
夠用,台積電的優勢就會慢慢縮小。
台灣政府還不快買AI建設,真的要輸對岸了
台灣還不快買硬體
好了早就講過了預言家 我只問一句 你賺多少
又一堆恐慌仔? 國年笑話還不夠?
關你屁事?deep seek酸建議去等OpenAI股票上市去all
in呀!笑死!
台灣 AI 早就遠輸給中國了好嗎... AI 現在就是美中
爭霸局面
中國不能用google
台灣只能玩地方包圍中央 edge晶片跟硬體至少我們系
統廠還是有優勢
台灣哪有那麼多閒錢自己研發
硬體邊際效應下降之後,現在的AI競賽
已經來到算法優化了。硬體當然也需要,
但是溢價搶買的時光已經過去了,硬體越
等越便宜,你在等硬體的時候,優化算法
才是王道了
接下來應用面白家爭鳴,QQQ接下來應
該能跑贏現在貴森森的NV
ASIC至少我們拿到的製程一定贏對面
也不是沒有錢,就錢被拿去養動物了吧?動物園營收會
看漲嗎?呵呵!
“我早就說過了!我早就講過了!早就告訴你們了”
真好奇這些人在股市賺多少 科科科
COVID時我講拿台股賺的去美股繼續賺,我還真有說過
,呵呵!
以前用google時,有在限制只能搜尋甚麼嗎? 甚麼都找
不認識李飛飛Google很難嗎? 看新聞不會自己Google查
連中吹都不敢買陸股,哥也早就說過了
證唷? 自己陰謀論瞎猜!
才有市場,ai模型問甚麼都能答才好用
事實鏟子只會越賣越貴
台灣的 AI 人才十個有九個半去美國了,要怎麼發展?
台灣人真的搞笑,台積電才是讓台灣人才都死掉的地
方
喔 然後?
適合走芬蘭模式 眾多新創?
還不是像htc一樣 稍有起色就被買走
台積電讓台灣人才死掉 對啦 張忠謀一定是想殘害台
灣才說台灣人只有代工才能贏別人
duri就是在瞎扯 似懂非懂 AI的目標是什麼? 可接受
的功耗成本下達到人類的程度而已? 那只是低階的客
服或自駕應用而已 請問你alphago 的目標是什麼? 不
就是下出神之一手完全打敗人類? 超級智慧才是AI的
終極目標 還有你知不知道湧現? 現在的LLM模型會強
是因為把參數量拉高到幾十B幾百B之後突然就發現很
厲害了 這也是大家之前為什麼要搶購硬體的原因 如
果你演算法不變光硬體夠強訓練個幾T參數的模型搞不
好變得超級強 認為不需堆算力的人就純粹是個可笑
堆算力跟算法改進根本就兩件分開的事
這樣說吧 如果你只是想省錢 只是想能打敗人類就好
那3070+katago就已經夠了 如果你是想拿第一打敗對
手跟別的AI比賽那就永遠都不夠
人類70B就能湧現了啦!你才搞不清楚狀況,人類輸AI
不是缺乏智慧是缺乏記憶體,這是生物限制因為能耗不
能儲存一堆跟生存無關的事物,實際上目前AI在邏輯推
理就是屌輸人類,上次那個菲爾茲數學獎得主出題的Fr
ontierMath測試集,OpenAI還要靠作弊才25%,笑死!
你標準就是半桶水才在那邊吹湧現,做到動輒好幾百B
才湧現然後說AI好棒棒?舉那個AlphaGo更好笑,在Dee
pmind AlphaGo之前就是因為只會堆積算力想靠算棋來
贏人類,結果老是被人類棋手打敗,後來改往人類的模
糊推理去運作才產生AlphGo才超越人類的。現在AI模型
就是還需要在演算法跟架構修正讓它能模擬人類大腦運
作,好嗎?
爆
首Po標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
33
基本上這是一個完全由美國本土的大學團隊成員 研究的成果,李飛飛是從小就移民美國的美國 人,本身是美國國家工程學會院士,如果這個也 算捲的話應該是美國人自己也在卷AI科技而且 還比之前的DS更狠,就看之後能不能提供上傳![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
9
大家都被訓練成本給迷惑 說穿了訓練AI就像培養人才 真正重點是"教材內容正確性",以及"學習成果的評價回饋" (就是老師要改作業) 對應的是"輸入資料正確性",並且存在"有效的回饋機制來修正權重" 資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完9
讀完了 稍微整理一下這篇 這篇基本上就是#1dccCRfj 就是CoT synthetic dataset 透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務 而此時新模型能更好地學會思考 這篇文章列了好幾個synthetic dataset的樣板![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://i.ibb.co/7dS1fSnD/Screen-Shot-2025-02-06-at-9-38-26-AM.png)
23
連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯,![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/yD5Zdk79X68/mqdefault.jpg)
這位大大 你真的很喜歡批評別人耶 這篇示範的是synthetic dataset disillation概念 為何叫做是dislillation是因為用大模型的知識去創作出的數據集 還推說這是這篇作者自己捏造蒸留定義 學術圈沒人這樣做... 這樣很不好耶...這明明就是一個正統的學術圈常用詞![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://huggingface.co/blog/assets/open-r1/thumbnails.png)
2
我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現 包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到 這才是最奇怪的。 今日鼓點:大A乘風直上,就像哪吒2的票房 ※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/Run03PWXGBc/mqdefault.jpg)
44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/9N2QFY1b.png)
47
[情報] Google 2025資本支出750億美元來源(公司網站): GOOGLE執行長:Cloud 和 YouTube 在 2024 年底的年度營收運行率達到了 1100 億美元。我們的業績展示了我們在人工智慧創新方面差異化的全棧方法的力量,以及我們核心業務的持續實力。我們對未來的機遇充滿信心,為了加速我們的進程,我們預計 2025 年的資本支出將達到約 750 億美元。」 聽了一下電話會議多數都是提到自研晶片asic,所以博通盤後股價大漲,輝達反而沒反應,反正都是台積電代工。 另外台股今天asic概念股也大漲。 -----![[情報] Google 2025資本支出750億美元 [情報] Google 2025資本支出750億美元](https://i.imgur.com/7Ik3BkJb.jpg)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
21
[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾阿肥實在受不了一堆文盲吵不對焦還硬要吵 來先來看看 GPT是怎麼解釋蒸餾的 覺得太長的可以直接下滑到總結 Q: 在Deep learning領域 什麼是蒸餾? 以下來自ChatGPT的回答:![[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾 [問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾](https://i.imgur.com/VCuiyUXb.jpeg)
18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://i.imgur.com/wNCJOYBb.jpg)
8
Re: [新聞] DeepSeek暴紅不單純?OpenAI質疑中國對openai只有開源好幾年前的模型 現在meta google m$ 的開源模型都屌打好幾條街了 用過deepseek的人都知道,deepseek是蒸餾上面那幾個開源模型 況且deepseek也有把自己的模型和程式碼都公布出來 開源的精神不就是這樣嗎?7
[問卦] ChatGPT o3新模型怎麼防蒸餾?Deepseek公布了低成本蒸餾法 能把現成的LLM模型以另一個模型蒸餾出來 省去初期開發成本以極低的成本搶佔資本市場 o3新模型就面臨抉擇 1.開放API等著被模型各種蒸餾2X
Re: [新聞]解放軍國防預算支出「剛好100%」 張競抓我查了一下, 這幾年大陸的國防支出的決算除以預算,沒有 一年是100%,每年都比100%低。 每年年初人大會上公佈的國防預算數,和 第二年初人大會上公佈的上年國防支出決算![Re: [新聞]解放軍國防預算支出「剛好100%」 張競抓 Re: [新聞]解放軍國防預算支出「剛好100%」 張競抓](https://cdn2.ettoday.net/images/6499/e6499974.jpg)
5
[問卦] 所以DeepSeek 是學別人AI 的AI嗎?這幾天八卦版突然有很多AI專家 那剛好問一下 這兩天看到很多人說 DeepSeek 是用蒸餾(Distillation)手法學習chatgpt的 所以訓練費才會這麼便宜1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平