Re: [問卦] 有鄉民看過deepseek強在哪了嗎?
在領英上看到 講解的還行 看得懂就看吧 看不懂就算了
正文:
首先,文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer:
1)他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程;
2)为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给NVDA提出了诸多Tensor Core方面的设计建议
3)他们开发了自己的训练框架DualPipe,实现了16/64通道的流水线和专家(MOE)并行,极大改善了并行训练中的通信和计算冲突问题,解决了调度瓶颈。
最终,DeepSeek实现了在2048个H800上的集群训练。
其次,文章中大部分改进是渐进式的,而非革命性的:
1)上下文拓展实际上来自2023年文章YaRN;在MTP方面,最终DeepSeek V3只实现了N=1的MTP,也即比传统的GPT多预测一个词;
2)MOE所引入的Aux-Loss-Free Load Balancing技术,其实仅仅是在传统Expert的分配算法
3)DeepSeek MOE上的另一个革新是加入了“共享Expert”,并保证训练时对于每个Token,
4)其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent
5)利用自己在量化交易中的经验,创造性地将某些移动平均值(如Adam参数状态)存在CPU
当然,能够将如此多新的细节整合在一起,并获得一个几乎没有任何Loss Spike的平滑的训
最后,DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验
Deep Seek证明了:
1)推理能力可以通过RL获得,
2)推理能力可有效的被蒸馏到更小的模型上去。
虽然他们也同时观察到,蒸馏可能让小模型的输出变得更长,语言效率降低。此外,如果RL
总的来说,确实是一个非常好的Paper,证明了在极限的精度和优化条件下,训练一个600B?
但不至于颠覆硅谷,是一个非常好的阶段性进展
# 他的另一篇補充:
澄清一些DeepSeek里关于降本增效的概念:
首先,增加训练效率的是MOE,Mixture of Experts,也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中,仅选择1/k的参数激活进入下一个Block。
这导致对于每一个token来说,一个600B的模型仅需激活了接近37B的权重,相当于每一个token的训练可以节省约80%算力,大大提高了训练速度。
其次,增加推理速度的是MLA,Multihead Latent Attention,多头隐空间注意力机制。名字很玄乎,本质就是通过一些矩阵把注意力机制中最关键的KQV三个矩阵投影到更低维的空间(隐空间)中,以便存在缓存中。这样每次推理的时候就不需要重新计算
大大增加了推理速度
这两个技术都不能说是颠覆性的。但DeepSeek都做了自己的改进,而且调通了
这就是他最厉害的地方
这两个重要概念,在DeepSeek V3 paper的第一页就有
当然更关键的是fp8,也就是8位浮点量化运算。之前推文介绍过了。是fp8从训练所需空间上限决定了,这个模型可以用2048个H800训练。
每个fp8相比fp16能节约50%空间,相比fp32 节约75%。矩阵乘法的运算速度甚至是按平方提升。
# 小心得:
ds發布前幾天 組上老哥碩論預口 內容提到也做了fp8量化 然後只說效果不好就沒下文 結果人家大成功哈哈 不知道他口試那天會不會被電
-----
Sent from JPTT on my iPhone
--
彎腰撿鑽石的機會來了
8bit乘法就能跑了喔?
碩論那位老兄還好嗎
如果是用fp8那很不得了,這代表他根本不用太
高性能的gpu就能動作,對大陸來說這非常有利
20
首Po安安 欸 幹 一直說中國deepseek AI很會算,可以節省98%設備支出 不就是代表他的運算邏輯可以比起ChatGPT 還要更精煉? 所以到底運算邏輯上差在哪? 有鄉民看了嗎?![[問卦] 有鄉民看過deepseek強在哪了嗎? [問卦] 有鄉民看過deepseek強在哪了嗎?](https://i.imgur.com/CPpXkFeb.jpeg)
3
不是有paper和一堆yt在講了 簡單說原本scaling law是單一model 成本是近似指數或n^2誇張上升 所以AI能力要變強 原本是要暴脹式的砸錢 deepseek open的paper說明了 用成千上百個小model集合推論 所以不用被大n懲罰 然後AI原本需要大量人工標註資料 現在R1做到不用預先標註資料了
這新聞訪談Perplexity AI 的CEO Aravind Srinivas 的採訪。 照新聞描寫Perplexity AI是什麼 我是沒聽過 華爾街日報 針對5款聊天機器人進行測試,並為各種使用場景的回覆品質排名。 爆冷奪第一![Re: [問卦] 有鄉民看過deepseek強在哪了嗎? Re: [問卦] 有鄉民看過deepseek強在哪了嗎?](https://img.youtube.com/vi/l8NKedgzDtE/mqdefault.jpg)
1
即便是這樣算力的需求還是向上吧 原本需要計算100次的東西新的模型只需要算1次 但人類肯定能找出100甚至10000倍的計算需求啊 就像當年電腦從1khz 到現在 5ghz且多核心以上 整天喊效能過剩,![Re: [問卦] 有鄉民看過deepseek強在哪了嗎? Re: [問卦] 有鄉民看過deepseek強在哪了嗎?](https://img.youtube.com/vi/JTyyqnAlFrU/mqdefault.jpg)
25
[討論] 微軟New Bing的Ai 能力究竟有多強?前陣子微軟投資的open ai ,產出的ChatGPT火紅一時,而現在新版的Bing瀏覽器帶著Cha tGPT 3.5開放公測了。 根據首批試用者的使用表示,New Bing相比ChatGPT有更多的優點,比如ChatGPT的資料只 有到2021年,而New Bing資料是實時的。 且New Bing的性格更像人類,會用各種表情符號,語氣更像人類,擁有給類似於人類的情![[討論] 微軟New Bing的Ai 能力究竟有多強? [討論] 微軟New Bing的Ai 能力究竟有多強?](https://i.imgur.com/2Y9KTN2b.jpg)
11
[提問] 關於防空系統/干擾的工作原理(簡體以及支語警告) 剛剛跟一個大陸人在DC上聊天 講到防空飛彈vs干擾的問題 (他主張J-16能壓制戰區...囧) 因為我說我懷疑干擾效果4
[問卦] 黨就像我們的孩子,要包容它鄙人用微信圖檔傳一篇前幾天很紅的長文 <客觀評價習近平>給一位祖國同胞看 她還是大學生 底下是我祖國朋友傳給我的部分訊息 习主席确实年纪大了2
[分享] 蔡贇說 : 对林丹对林丹,我更多的是期待 林丹从国家队退役的消息来的很突然,上上周我们还在厦门一起踢球,当时聊到近况,他 和我说“走一步看一步”,毕竟受疫情的影响,奥运会及相关赛事、队伍的训练安排、以 及自身的状态等都很难准确预知。当时我能感受到,他依然还想坚持,虽然参加了4届奥 运会在羽毛球运动员中已经很传奇了,但他依然还想书写新的传奇。3
[乳摸] 你好,我是水原一平。你好,我是水原一平。我没有盗取球员资金,我现在被道奇球团监禁在球员休息室,还需要 450万美元就能离开。你现在帮助我,我承诺当你的个人翻译,并传授你大谷翔平的个人训练 法,祝你成为下一个MLB之星。 —— 這是反串文2
[DeFi] BSC的merlin不玩了這個項目上線時我注意到 特點是APR很高,曾經有想過要入場 後來想想還是算了 下面是他們的公告: 梅林实验室停止运营1
Re: [實況] 星諜世家最新章 第五百九十一章 偽君子 時事梗出現了 “在舆论战场上,要做精准打击,绝不要全面开火。在大众的印象中, 一个人犯了错误,那么这个人全身都是错误,反之,在核心事实上被 冤枉,其它事情也会变得不真。”
[問卦] 黃仁勳會如何用台語講輝達GTC大會?以下內容為gpt生成 ““””“ 教育摘要的《【英伟达】GTC 2024|黄仁勋2小时演讲精华版|六大亮点| Blackwell GPU | D GX B200 | NVL72 | cuLitho | GROOT | Omniverse Cloud》由[Video Summarizer](https: //chat.openai.com/g/g-GvcYCKPIH-video-summarizer-ai)提供:X
德州AI陪伴玩家成长1975756793德州AI 陪伴玩家成长 德州AI 有需要请联系:1975756793@qq.com 在德州扑克的世界中,技术与策略的结合是成功的关键。随着人工智能(AI)技术的迅速 发展,德州AI的出现为玩家提供了全新的学习和成长方式。德州AI不仅是一个工具,更是 陪伴玩家成长的伙伴。
如何利用德州AI开线上扑克俱乐部 德州AI:QQ1975- 选择合适的平台:选择一个支持德州扑克的线上游戏平台,确保该平台具备良好的用 户体验和安全性。 - 集成德州AI:将德州AI集成到扑克俱乐部中,AI可以用于分析玩家的行为、提供策略建 议、监控游戏进程等。 - 制定规则和结构:设定俱乐部的游戏规则、比赛结构和奖励机制,确保所有玩家都能清
爆
[問卦] 去銀行一次提領一百![[問卦] 去銀行一次提領一百 [問卦] 去銀行一次提領一百](https://i.imgur.com/eiBR27jb.jpeg)
爆
[問卦] 現在的HR都愛問一些奇怪問題嗎![[問卦] 現在的HR都愛問一些奇怪問題嗎 [問卦] 現在的HR都愛問一些奇怪問題嗎](https://i.urusai.cc/QtYfe.png)
爆
Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?![Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責? Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://i.imgur.com/AN84rLmb.jpeg)
爆
[問卦] 11/4離職 11/26出包,公司叫離職的負責?![[問卦] 11/4離職 11/26出包,公司叫離職的負責? [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://img.youtube.com/vi/uGOWqxN_avw/mqdefault.jpg)
93
[問卦] 霸凌同學 有好聽說法嗎85
[問卦] 吳郭魚片寫台灣鯛魚片484詐騙?![[問卦] 吳郭魚片寫台灣鯛魚片484詐騙? [問卦] 吳郭魚片寫台灣鯛魚片484詐騙?](https://img.youtube.com/vi/dtuSqd-TcxU/mqdefault.jpg)
79
[問卦] 美財長貝森特:美是中國盟友也是台灣盟友![[問卦] 美財長貝森特:美是中國盟友也是台灣盟友 [問卦] 美財長貝森特:美是中國盟友也是台灣盟友](https://i.imgur.com/W29EoF5b.png)
72
[問卦] 台女脆文:瑞幸咖啡穩死的!![[問卦] 台女脆文:瑞幸咖啡穩死的! [問卦] 台女脆文:瑞幸咖啡穩死的!](https://i.mopix.cc/NRU3Hs.jpg)
68
[問卦] 八歲就開扁同學以後能成大事嗎96
[問卦] 真的有記者去含檢察官的屌換情報?41
[問卦] 全聯鯛魚搞到要國賠了![[問卦] 全聯鯛魚搞到要國賠了 [問卦] 全聯鯛魚搞到要國賠了](https://i.imgur.com/flM1A6bb.png)
60
[問卦] CloudFlare又掛了?86
[問卦] 脆女:第一胎沒300萬 別生小孩了!![[問卦] 脆女:第一胎沒300萬 別生小孩了! [問卦] 脆女:第一胎沒300萬 別生小孩了!](https://i.mopix.cc/NRU3Hs.jpg)
45
[問卦] 8歲就嗆要打死人,長大能做什麼?![[問卦] 8歲就嗆要打死人,長大能做什麼? [問卦] 8歲就嗆要打死人,長大能做什麼?](https://i.imgur.com/eVKUCT4b.jpeg)
42
[問卦] 為何08年大家22k時沒人躺平 現在卻一堆?![[問卦] 為何08年大家22k時沒人躺平 現在卻一堆? [問卦] 為何08年大家22k時沒人躺平 現在卻一堆?](https://i.mopix.cc/P0cKXZ.jpg)
41
[問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼![[問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼 [問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼](https://i.imgur.com/I9muINnb.jpeg)
39
[問卦] 燒臘便當這樣多少合理?![[問卦] 燒臘便當這樣多少合理? [問卦] 燒臘便當這樣多少合理?](https://i.imgur.com/FLuRAsfb.jpeg)
36
[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?![[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎? [問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?](https://i.mopix.cc/wyBvTF.jpg)
32
[問卦] 為什麼女生興趣都寫旅遊跟美食49
[問卦] 蝙蝠俠幹嘛不把小丑做掉![[問卦] 蝙蝠俠幹嘛不把小丑做掉 [問卦] 蝙蝠俠幹嘛不把小丑做掉](https://img.youtube.com/vi/cm3Chp2u7HY/mqdefault.jpg)
30
[問卦] Telegram才更該禁吧29
[問卦] 8歲打人是「小朋友之間的摩擦」那18歲?![[問卦] 8歲打人是「小朋友之間的摩擦」那18歲? [問卦] 8歲打人是「小朋友之間的摩擦」那18歲?](https://i.meee.com.tw/QWoHrWC.jpg)
30
[問卦] 檢驗結果為什麼是助理扛?![[問卦] 檢驗結果為什麼是助理扛? [問卦] 檢驗結果為什麼是助理扛?](https://img.youtube.com/vi/ftuuVwvhvKM/mqdefault.jpg)
29
[問卦] 2025年底了今年的代表字是? 好的部分28
[問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵?![[問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵? [問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵?](https://i.ytimg.com/vi/zU_l0NR7HFE/maxresdefault.jpg)
27
[問卦] 王子甩掉粿粿的機率多高25
[問卦] 禁小紅書台灣擋的技術是不是很爛31
Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助![Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助 Re: [新聞] 誤驗「全聯毒鯛魚排」出包 29歲離職女助](https://attach.setn.com/newsimages/2025/12/02/5367966-PH.jpg)
19
[問卦] 蜜雪冰城才能真的打趴台灣飲料市場吧?![[問卦] 蜜雪冰城才能真的打趴台灣飲料市場吧? [問卦] 蜜雪冰城才能真的打趴台灣飲料市場吧?](https://i.mopix.cc/jyYKX6.jpg)
26
Re: [新聞] 快訊/「出包台灣鯛」關鍵女研究助理找到了! 警赴住家