Re: [新聞] FT:DeepSeek 新模型延後問世問題出在華為晶片 還是得靠
http://i.imgur.com/mH1Zb10.jpg
根據公司公告,DeepSeek-V3.1 採用 UE8M0 FP8 精度格式,這是一種 8 位元浮點數運算方式,可在降低記憶體佔用的同時提升運行效率,並已針對「即將推出的下一代國產晶片」進行設計。FP8 被視為新一代 AI 模型的關鍵資料處理格式,能在相同硬體條件下加速訓練與推理。
由於美國出口限制,中國企業難以取得 NVIDIA H20 等閹割版 GPU,因此 DeepSeek 也開始調整模型架構,以配合未來國產晶片的發展。
此次 V3.1 升級凸顯公司正推動 AI 模型與本土半導體的深度結合,以減少對美國技術的依賴,並鞏固中國在新興 AI 生態中的自主優勢。不過,公司並未透露支援的晶片型號或製造商。
此外,DeepSeek 表示,經過「思維鏈壓縮訓練」後,V3.1-Think 模型在各項任務的平均表現與 R1-0528 大致相當,但輸出 token 數減少 20% 至 50%,展現更高的運算效率。
想也知道下一代國產晶片不可能是輝達算卡
DS用行動事實回擊金融時報的造謠報導,舒服到爆
補個卦點,有人拆包開源的DS V3.1模型代碼,發現應該是沒有R2大模型了
未來就是R模型與V模型合而為一,不再區分
V3.1就是這半年DS訓練的成果,只是進步幅度不夠,梁文鋒不滿意,所以先釋出目前的成果給粉絲
DS下一步要抽換訓練的底層架構重新設計,所以需要時間,下一代大模型就讓他們慢慢處理吧
-----
Sent from JPTT on my Vivo V2227A.
--
Gossiping 綜合 ◎[八卦] 本板沒有特定立場
PTT八卦板自創立以來,一直秉持著公正、中立的立場,
以一個自由且不受限制之資訊交流平台而自居,
從而廣受國內外人士好評愛戴。
是故,由眾多使用者推舉出任之板主,
自然需承襲八卦板的一貫作風:只問對錯,不問立場。
--
思維鏈壓縮,看來他們也清楚0528思考到
走火入魔的問題
所以什麼時候要出新模型?
你的光刻機呢?連個影子都沒看到
去輝達已經不可逆、誰知道美國哪天全封掉
企業自己就會趨吉避凶不用等黨
實驗室的東西,照你邏輯IBM早就進
入以下了,笑爛
94
Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」老黃應該是有機會能繼續用黃家刀法 用高階價錢賣低階產物給中國 從美國的最大化利益角度來想 美國也會希望老黃賣次級的晶片給中國 這樣就某種程度能最大化阻滯中國發展 和弱化中國科技樹發展 比方說 中國最近的華為昇腾910B AI晶片號稱對標A100 已經賣給百度作為AI開發用途 如果說中國目前上面自製化晶片算力是10 那A100是30 H100是50 那老黃只要賣給中國晶片![Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」 Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」](https://i.imgur.com/ehbrItPb.jpg)
57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。![Re: [討論] 其實Deepseek真的很厲害了 Re: [討論] 其實Deepseek真的很厲害了](https://imgcdn.cna.com.tw/www/WebPhotos/1024/20250129/1200x800_wmkn_324524490661_0.jpg)
19
Re: [討論] AI晶片這我來回答吧 AI晶片一般是指用來加速深度學習模型推理的晶片 如果是訓練通常還是利用Gpu 因為生態系比較成熟 那麼深度學習推理時間會耗在哪裡呢 通常就是convolution 或是Gemm4
Re: [新聞] DeepSeek爆紅引AI「股瘟」!ASML歐股開盤算力愈強,模型愈強~ 就算deepseek 真的不用高階晶片就能訓練出說不弱於openAI o1 的模型, 那未來新的模型在有高階晶片的加持下, AI 不是會發展的更快、更難以想像嗎? AI 發展的更快,商用、消費用的領域愈多,對半導體的需求愈大,5
Re: [新聞] 博通報喜 ASIC台廠有看頭ASIC 應該是主要用在inference. Inferrence晶片的複雜度沒像training 晶片那麼高。 NVDA在資料中心的霸主地位,目前還沒有看到威脅。 Device端的推論, 競爭者有幾家, 最後就是殺價競爭。 結論: Strong 拜 NVDA4
[問卦]DeepSeek是不是台積電的救世主?[問卦] DeepSeek是不是台積電的救世主? 最近看到DeepSeek在那邊吹什麼MLA架構、MoE模型,說什麼訓練效率超高、推理速度超快 ,笑死,還不是靠台積電的5nm、3nm製程在撐?沒了GG的晶片,你這些所謂的「創新」還 能跑得動? DeepSeek這種吃硬體怪獸,光是訓練一個模型就要幾萬顆A100、H100,這些GPU還不都是![[問卦]DeepSeek是不是台積電的救世主? [問卦]DeepSeek是不是台積電的救世主?](https://i.imgur.com/Z7twi0Sb.jpg)
5
[問卦] deepseek 說輝達是現代石油公司?以下是我題問的問題 1.目前都說,因為演算法的進步,未來不需要英偉達那麼多gpu算力那麼多是真的嗎? Deepseek 回答如下: 從技術發展的多元角度來看,**演算法進步確實會提升計算效率,但短期內對GPU算力的 需?4
Re: [新聞] 路透:美國暗裝追蹤器查AI晶片非法轉運《經濟通通訊社14日專訊》據英國《金融時報》報道,中國人工智能公司DeepSeek在使用華 為芯片訓練失敗後推遲發布新AI模型DeepSeek-R2,這凸顯了北京方面推動取代美國技術的局 限性。 綜合市場報道,DeepSeek-R2大模型原定5月推出,其後再傳將於8月15日至30日期間發布,惟接3
Re: [問卦] deepseek 說輝達是現代石油公司?剛剛我又引導對輝達不利方式去說 以下我問的問題: 3.會因為演算法的進步,導至不需要那麼多算力(Nvidia GPU) ,讓微軟與meta 或其它公司去砍Nvidia 的訂單嗎? Deepseek 回答如下: