Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee
呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像llama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用deepseek的模型架構。
一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用了一些模板式的獎勵機制,這點是之前一些TTT或其他scaling time computing 沒嘗
試過的思路,一般像之前的Process reward model在構造的時候會需要人工標註加驗證器再加樹搜索取樣出一堆推理步驟但R1直接給予一條很棒的思路就是你不必這樣做就直接RL下去也不用做搜索了,關鍵在怎麼設計獎勵函數就好。然後GRPO的方法近一步減少了傳統PPO要去算value function 的部分,確實省掉很多記憶體跟算力。但我覺得PPO的硬傷不好訓練還是沒解掉,所以DS才改用拒絕採樣跟多段微調去弄檢查點避免模型跑偏。
我覺得依據這個思路過不久大家都可以復刻出自己的版本,很多開源模型也在動作,小規模驗證也證明可行,那就可以scaling model跟data size就好了。
--
※ 編輯: sxy67230 (59.115.66.147 臺灣), 01/29/2025 15:34:33
那些實驗不是復刻 只是在distill
真的要"復刻" 指的是在完全從零開始
滿滿支語
的條件下 跟DS宣稱的成本相同下
復現出R1的結果
但首先DS沒公開他的訓練資料集
所以只能說小lab可以用他公布的模型
做distill 配合他的方法做出不錯的
模型而已
但如果只是這樣 4o實際上也是OAI
distill出來的 真正關鍵還是在
如何做出用來給其他模型distill的
源模型 如果這個能用DS宣稱的算力
條件做出 那就貢獻很大 也是最值得
"復刻"的部分
R1的技術文件有如實說他們是從Deepseek v3調過來的吧,openAI也是有在某次技術人員訪 談說o1是從4o調過來的(當前OpenAI最讓人詬病的就是o1連技術報告中的訓練方法都閉源) ,這點站在不錯的起點繼續做下去應該是整個LLM領域的共識,要完全從零是不太可能的。 不過你要說成本要從前一個模型開始算的那就不太合理了,像台灣很多實驗室自己調的語言 模型也是從llama這些基礎開始調的(你要用蒸餾說也沒什麼意見),這樣要把Meta訓練這 個模型的成本疊上去也是蠻怪的。但我這邊就單就R1的訓練方法討論確實他省去很多之前te st time computing的方法中需要一堆人工跟算力搜索的麻煩這個倒是無需質疑。至於訓練 數據集沒開源,我覺得這個畢竟是人家的智慧財需要經過公司許可吧?畢竟llama也沒開源 自己全部的訓練數據要要求一家私企去做這件事有點太苛刻了。我的想法還是技術上DS確實 值得令人誇讚,其他的就讓子彈飛一點吧。畢竟工程人員還是講技術比較務實,人家優秀的 地方本來就值得學習。
3樓只會這招嗎
主要是訓練集沒公開就還是有點懸念
畢竟連OAI之前o3那次math benchmark
cheat風波導致benchmark的可信度
變低許多 連OAI都會搞出這齣 一個
急需注資和關注度new fund更有可能
有貢獻是一定的 新方法在distill上
有機會成為新baseline
幫補血
貼文的人寫了這麼多技術用語,結果
某些人只會噓支語
回文用中文的我都噓支語
感謝,讀了真的收益良多
傳聞它是蒸餾chat gpt 的基礎這是
真的假的
這種事情應該很難知道了 但目前看
起來他真的有提出一套有用的方法我
覺得這是比較重要的
蒸餾要有模型 ChatGPT沒有公開
蒸餾不一定要有模型輸出完整機率分佈就是了,但是Deepseek真的有用GPT 4o或o1蒸餾還是 需要有關鍵模型大量輸出統計證據,不然當前都是猜測而已。僅憑很多人隨意測試是很難說 是真的有蒸餾的,畢竟LLM其實真的有心是很容易用Prompt變造出惡意虛假事實的(像先催 眠模型是chatGPT,然後再問他是誰,然後把結果截圖),還是一句話,讓子彈再飛一會兒 。
※ 編輯: sxy67230 (223.118.50.65 香港), 01/30/2025 00:51:45根本不用催眠其實 造假方法多的是
爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片47
[討論] Deepseek就之前吹過頭了呀 XD來看看DEEPSEEK之前怎麼吹的 「DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本 和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比Ope nAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬 個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,成本降幅高達驚人的98%。29
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預會恐慌是美國那些公司的心態有問題,他 們幻想的是自己能獨佔AI領域,幻想他們 燒大錢最後生出來的大模型可以抬價收費 meta的模型號稱開源講白了就只是因為差 openai太遠所以把資源丟出來靠龐大共享30
[情報] 馮驥:DeepSeek是國運級的科技成果大推DeepSeek 「黑悟空」製作人:國運級別的科技成果 中國大陸AI新創公司DeepSeek發表的DeepSeek-V3及DeepSeek-R1兩款大模型近期受到大量關 注,連《黑神話:悟空》的製作人馮驥也發文大力推薦,甚至稱DeepSeek可能是「國運級別 的科技成果」。23
[問卦] DeepSeek R1被大量復現還有人喊造假?R1 paper公佈到現在 已經被大量復現 復現的結論 讓AI自己搜索出來的東西蠻有趣的 而且不用幾乎人工標註成本 不像GPT需要大量人力產資料 復現的效果 高度與基礎模型能力相關11
Re: [心得] DeepSeek將是刺破本輪泡沫的那根釘子DeepSeek其實真正的創新在model的高效設計,其真正的關鍵在efficient MOE還有MLA設計 這其實是2024年初DeepSeek V2就發表的東西 R1是把這個高效model設計+O1推理模型的LLM+RL合併出來的效應 我覺得歐美廠商因為本錢大所以忽略了降本增效的飛輪效應,所以第二個推理模型反而是中 國公司出圈了,推理模型的Test Time Compute對模型效率的敏感性就非常強烈了,訓練中1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是3
Re: [黑特] 民進黨支持者思想真的很幼稚青鳥跟塔綠班們 都不知道DeepSeek是開源的 所以才有那些奇怪自卑推論 這次中國產生DS 其實對全世界都是一個正面的發展 也就是 花小成本也可以 作出 大成本模型效能的AI語言模型 重點是這個模型的程式碼跟架構 還跟全世界分享 也就是 台灣人照抄 也可以作出自己想要內容的 DeepSeek- 中共國發表Deepseek R1 效能比肩ChatGPT o1 重點是完全開源 而且訓練只用兩個月,花了一億多台幣 這代表台灣只要拿這個來重新訓練一下
- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬