Re: [新聞] 新模型 R2 延後主因!DeepSeek 嘗試華為晶片失敗,還是
Deepseek從今年2月就遷到華為升騰晶片了
然後用華為升騰晶片訓練,今年5月28日發佈R1模型的強化版
https://www.ettoday.net/news/20250529/2968935.htm
https://www.wantgoo.com/news/1227793
成績有目共睹
現在突然靠不知名人士發佈小作文說華為升騰不可靠
也是很搞笑的
中國科大訊飛的星火AI模型也是100%完全使用華為升騰晶片訓練
排名也是中國國內AI第一梯隊
那你覺得Deepseek玩不過科大訊飛嗎?
至於Deepseek R2大模型延遲發佈,目前知道是因為更換底層架構
很多訓練的東西對不上,所以需要時間調整
照過往規律應該是先發佈V4的底層模型,然後再發佈R2的定律模型
https://hao.cnyes.com/post/184614
這篇論文是DS未來會套用在R2的先行暴雷劇透
DS不是商業化經營,不用像Close AI把GPT4.6包裝成GPT5強行上市揠苗助長
--
Gossiping 綜合 ◎[八卦] 本板沒有特定立場
PTT八卦板自創立以來,一直秉持著公正、中立的立場,
以一個自由且不受限制之資訊交流平台而自居,
從而廣受國內外人士好評愛戴。
是故,由眾多使用者推舉出任之板主,
自然需承襲八卦板的一貫作風:只問對錯,不問立場。
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 117.56.237.199 (臺灣)
※ PTT 網址
推
給那些只想臭對岸的說那麼多 誰聽得懂
→
最後一段XD
推
低調
推
那篇看起來NSA吊爆了
推
凸( ゚д゚)凸不是阿爛鳥不是說都沒人
→
用
推
GPT5反向升級真的繃不住
推
反正會臭中國的就那幾個帳號 看久太
→
熟悉了
推
closedAI:謝謝你們的研究 我們會好好使用
推
DS連自己國內的競業模型都輸 真的沒救
推
凸( ゚д゚)凸台灣的嘴砲AI更可悲吧都
→
空談最會
爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片![Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預 Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預](https://i.imgur.com/HlQlJzkb.png)
79
Re: R: [請益] 為什麼中國越來越強?怎抹這邊突然變AI版 =_= DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構 和軟體 就是一個苦力枯燥活) 大體而言 在A100架構以前 大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16 (浮點16進位)主因是用16進位去訓練 精度不夠 容易模型崩潰 尤其用P100的fp1654
Re: [新聞] 市值蒸發19.7兆!輝達聲明:DeepSeek未Deepseek用更多輝達晶片有兩條路 第一、用更多H100,輝達跟這個ai產業鏈股價崩盤, 現在市場給輝達跟Ai產業鏈的股價是基於必須生產更高階的晶片, 如果Deepseek證明大型ai模型只需要H100等級的晶片就足夠, 那市場還會買單gb200、gb300甚至輝達說一年隔代一款ai伺服器的構想嗎?![Re: [新聞] 市值蒸發19.7兆!輝達聲明:DeepSeek未 Re: [新聞] 市值蒸發19.7兆!輝達聲明:DeepSeek未](https://i.imgur.com/N5n7y8Ob.jpeg)
57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。![Re: [討論] 其實Deepseek真的很厲害了 Re: [討論] 其實Deepseek真的很厲害了](https://imgcdn.cna.com.tw/www/WebPhotos/1024/20250129/1200x800_wmkn_324524490661_0.jpg)
25
[請益] AI最花錢的時間已經過了嗎?就算Deepseek是蒸餾其他AI模型 但就是能夠做出效能好成本低的模型 而那幾間巨頭砸在AI的錢 就是在奠下AI發展的基礎 以Deepseek的發展來說![[請益] AI最花錢的時間已經過了嗎? [請益] AI最花錢的時間已經過了嗎?](https://i.imgur.com/SJ4QAmCb.jpeg)
6
[問卦] 沒有言論審查的 DeepSeek R1 模型登場!沒有言論審查的 DeepSeek R1 模型登場!推理能力甚至一樣強 Perplexity AI 公布震撼消息,宣布釋出全新的「R1 1776」模型;簡而言之,它是中國 廠商所開的 DeepSeek R1 的延伸版本,但經過後訓練消除言論審查機制,能夠針對敏感 議題,例如台灣獨立提供事實回答,模型權重已上線 Hugging Face 和 Sonar API。 遵守中共規則,DeepSeek 不回答敏感言論4
Re: [新聞] DeepSeek爆紅引AI「股瘟」!ASML歐股開盤算力愈強,模型愈強~ 就算deepseek 真的不用高階晶片就能訓練出說不弱於openAI o1 的模型, 那未來新的模型在有高階晶片的加持下, AI 不是會發展的更快、更難以想像嗎? AI 發展的更快,商用、消費用的領域愈多,對半導體的需求愈大,4
[問卦]DeepSeek是不是台積電的救世主?[問卦] DeepSeek是不是台積電的救世主? 最近看到DeepSeek在那邊吹什麼MLA架構、MoE模型,說什麼訓練效率超高、推理速度超快 ,笑死,還不是靠台積電的5nm、3nm製程在撐?沒了GG的晶片,你這些所謂的「創新」還 能跑得動? DeepSeek這種吃硬體怪獸,光是訓練一個模型就要幾萬顆A100、H100,這些GPU還不都是![[問卦]DeepSeek是不是台積電的救世主? [問卦]DeepSeek是不是台積電的救世主?](https://i.imgur.com/Z7twi0Sb.jpg)
3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI4
Re: [新聞] 路透:美國暗裝追蹤器查AI晶片非法轉運《經濟通通訊社14日專訊》據英國《金融時報》報道,中國人工智能公司DeepSeek在使用華 為芯片訓練失敗後推遲發布新AI模型DeepSeek-R2,這凸顯了北京方面推動取代美國技術的局 限性。 綜合市場報道,DeepSeek-R2大模型原定5月推出,其後再傳將於8月15日至30日期間發布,惟接