PTT評價

Re: [新聞] FT:DeepSeek 新模型延後問世問題出在華為晶片 還是得靠

看板Gossiping標題Re: [新聞] FT:DeepSeek 新模型延後問世問題出在華為晶片 還是得靠作者
s213092921
(麥靠貝)
時間推噓 推:2 噓:2 →:5

http://i.imgur.com/mH1Zb10.jpg

https://reurl.cc/Nxx6an

根據公司公告,DeepSeek-V3.1 採用 UE8M0 FP8 精度格式,這是一種 8 位元浮點數運算方式,可在降低記憶體佔用的同時提升運行效率,並已針對「即將推出的下一代國產晶片」進行設計。FP8 被視為新一代 AI 模型的關鍵資料處理格式,能在相同硬體條件下加速訓練與推理。

由於美國出口限制,中國企業難以取得 NVIDIA H20 等閹割版 GPU,因此 DeepSeek 也開始調整模型架構,以配合未來國產晶片的發展。

此次 V3.1 升級凸顯公司正推動 AI 模型與本土半導體的深度結合,以減少對美國技術的依賴,並鞏固中國在新興 AI 生態中的自主優勢。不過,公司並未透露支援的晶片型號或製造商。

此外,DeepSeek 表示,經過「思維鏈壓縮訓練」後,V3.1-Think 模型在各項任務的平均表現與 R1-0528 大致相當,但輸出 token 數減少 20% 至 50%,展現更高的運算效率。


想也知道下一代國產晶片不可能是輝達算卡

DS用行動事實回擊金融時報的造謠報導,舒服到爆

補個卦點,有人拆包開源的DS V3.1模型代碼,發現應該是沒有R2大模型了

未來就是R模型與V模型合而為一,不再區分

V3.1就是這半年DS訓練的成果,只是進步幅度不夠,梁文鋒不滿意,所以先釋出目前的成果給粉絲

DS下一步要抽換訓練的底層架構重新設計,所以需要時間,下一代大模型就讓他們慢慢處理吧




-----
Sent from JPTT on my Vivo V2227A.

--
Gossiping 綜合 ◎[八卦] 本板沒有特定立場
PTT八卦板自創立以來,一直秉持著公正、中立的立場,
以一個自由且不受限制之資訊交流平台而自居,
從而廣受國內外人士好評愛戴。
是故,由眾多使用者推舉出任之板主,
自然需承襲八卦板的一貫作風:只問對錯,不問立場。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.76.197.120 (臺灣)
PTT 網址

wsdykssj 08/22 11:52思維鏈壓縮,看來他們也清楚0528思考到

wsdykssj 08/22 11:52走火入魔的問題

potionx 08/22 11:53所以什麼時候要出新模型?

yychiuchang 08/22 11:59你的光刻機呢?連個影子都沒看到

atpx 08/22 12:17去輝達已經不可逆、誰知道美國哪天全封掉

atpx 08/22 12:18企業自己就會趨吉避凶不用等黨

s213092921 08/22 13:05https://reurl.cc/pYYmlb

yychiuchang 08/22 16:20實驗室的東西,照你邏輯IBM早就進

yychiuchang 08/22 16:20入以下了,笑爛