Re: [情報] 50美元訓練出媲美DeepSeek R1
我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現
包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到
這才是最奇怪的。
今日鼓點:大A乘風直上,就像哪吒2的票房
※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:
: ※ 引述《LimYoHwan (gosu mage)》之銘言:
: 也是只看 fine-tune 1000題,一次的成本。
: 而且,試了不知道幾次,
: 終於找到一次,
: 可以在部分考卷上贏一個很爛的模型。
: 媒體文章中,忽略不計的成本,至少包含:
: base模型訓練的成本(至少占成本99%)
: 研究人員不斷試錯找1000題的成本。
: 多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。
: 其他錯誤資訊,媒體的內文寫:
: 研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。
: 完全錯誤。原始論文寫:
: 先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。
: 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。
~~~~~~~~~~~~~~~~~~~~~~~~~
yes,u r right
: 真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。
: 而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調
: 結論:
: 研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。
: 一堆外行人,連論文都不看,在造假新聞。
: 媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。
--
英國醫學網站:台灣丁丁長度,世界86國(地區)排第85,和東南亞一個水平,比東北亞短2cm
--
對岸有種說法:中文字在單位資訊量上比英文字有優勢
所以運算同樣的token數量下 中文模型表現會較佳
有道理
中文就算錯字或亂序也不影響你理解
那個備註... world data不是這樣說的喔
日本、韓國和中國分別以平均長度13.56公分、13.16公
分、13.07公分,分別為第61名、66名和69名,至於台
灣男性,平均12.6公分,排行第75名
台灣男性如果細分祖籍,應該會有明顯差異吧
不重要。廢文不如推文。
什麼爛股點
爆
首Po標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
33
基本上這是一個完全由美國本土的大學團隊成員 研究的成果,李飛飛是從小就移民美國的美國 人,本身是美國國家工程學會院士,如果這個也 算捲的話應該是美國人自己也在卷AI科技而且 還比之前的DS更狠,就看之後能不能提供上傳![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
47
好的 google 要不要把昨天財報上的說750億設備支出 變成50美元支出? 李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
9
大家都被訓練成本給迷惑 說穿了訓練AI就像培養人才 真正重點是"教材內容正確性",以及"學習成果的評價回饋" (就是老師要改作業) 對應的是"輸入資料正確性",並且存在"有效的回饋機制來修正權重" 資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完9
讀完了 稍微整理一下這篇 這篇基本上就是#1dccCRfj 就是CoT synthetic dataset 透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務 而此時新模型能更好地學會思考 這篇文章列了好幾個synthetic dataset的樣板![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://i.ibb.co/7dS1fSnD/Screen-Shot-2025-02-06-at-9-38-26-AM.png)
23
連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯,![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/yD5Zdk79X68/mqdefault.jpg)
這位大大 你真的很喜歡批評別人耶 這篇示範的是synthetic dataset disillation概念 為何叫做是dislillation是因為用大模型的知識去創作出的數據集 還推說這是這篇作者自己捏造蒸留定義 學術圈沒人這樣做... 這樣很不好耶...這明明就是一個正統的學術圈常用詞![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://huggingface.co/blog/assets/open-r1/thumbnails.png)
9
[問卦] 是什麼時候開始感覺中華已經超越歐美了呢從去年下半年的江門中微子實驗室(JUNO)捕獲「幽靈粒子」,還有年尾的第六代戰機 到今年年初的DeepSeek、通義千問Qwen2.5-Max,全都是一隻手扳倒歐美的產品。 加上川普說要封禁國際板TIKTOK,產生一堆難民跑到小紅書中美大對帳,結果搞一個 讓美國人覺得自己怎麼被資本坑的那麼慘,存不了錢只能當月光族。 時不時還要承受槍戰On Line的恐懼。10
Re: [問卦] DeepSeek成本這麽低的原因是啥?目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高6
[問卦] 中國抖音悟空華為大疆電動車哪個最強?抖音,又名TIKTOK 橫行全球 黑神話.悟空 Black Myth Wukong最近正夯 華為 全面對抗矽谷多家公司 大疆 行業南波旺 電動車 中國電動車震撼世界4
[問卦] 阿里巴巴的通義千問一問三不知?如圖 自稱比ChatGPT強的大型語言模型 只不過隨便問個問題就把它考倒了 一樣問題人家ChatGPT、Gemini、Claude 都可以把前因後果、死多少人,羅列出來![[問卦] 阿里巴巴的通義千問一問三不知? [問卦] 阿里巴巴的通義千問一問三不知?](https://i.imgur.com/jsnYIHcb.jpeg)
3
[問卦] 中華在這樣發展下去大美麗國不是妥妥小弟繼去年年底第六代戰機發布後,今年初又發表了deepseek,而阿里在大年初一又發 表了「通義千問」旗艦版Qwen 2.5-Max性能不輸deepseek,央視春晚還有機器人 絲滑跳舞跟大疆無人機表演,我就說我們中華民族拿煙火來表演,你們美麗國就要 當砲彈,我們拿機器人跳舞你們就要拿來打戰,怎麼是皮在養 你美國小弟是真欠揍是不是?![[問卦] 中華在這樣發展下去大美麗國不是妥妥小弟 [問卦] 中華在這樣發展下去大美麗國不是妥妥小弟](https://i.imgur.com/HoNotAUb.jpg)
[問卦] Deepseek註定辱華吧?之前中國各科技巨頭推出大語言模型 什麼文心一言、通義千問、混元、盤古、星火、百川 各個名稱都有夠中國 結果Deepseek橫空出世取了個英文名字 中國最屌的AI怎麼能是英文名勒?1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平