Re: [問卦] 有鄉民看過deepseek強在哪了嗎?
※ 引述《KanzakiHAria (神崎・H・アリア)》之銘言:
: ※ 引述《iPadProPlus (哀配之神)》之銘言:
: : 安安 欸 幹
: : 一直說中國deepseek AI很會算,可以節省98%設備支出
: : 不就是代表他的運算邏輯可以比起ChatGPT 還要更精煉?
: : 所以到底運算邏輯上差在哪?
: : 有鄉民看了嗎?
: : 有八卦嗎?
: 不是有paper和一堆yt在講了
: 簡單說原本scaling law是單一model 成本是近似指數或n^2誇張上升
: 所以AI能力要變強 原本是要暴脹式的砸錢
: deepseek open的paper說明了 用成千上百個小model集合推論 所以不用被大n懲罰
: 然後AI原本需要大量人工標註資料 現在R1做到不用預先標註資料了
: 類似以前alphago master要吃人類千年棋譜 到alphago zero不用棋譜自己來
: 所以省去大量成本
即便是這樣算力的需求還是向上吧
原本需要計算100次的東西新的模型只需要算1次
但人類肯定能找出100甚至10000倍的計算需求啊
就像當年電腦從1khz 到現在 5ghz且多核心以上
整天喊效能過剩,
但就是會有新的應用把多出來的效能用掉
手機不也是這樣嗎?
怎麼老黃的算力好像直接變成地攤貨一樣崩了呢?
往後不需要堆算力這件事反而更違反直覺吧
--
算力向上你要知道為什麼向上
類比的話,就像 CPU RISC 和 CISC 之爭
但目前ai的確仍有很多需要挖掘的地方 不覺得deepseek就完全不需要升級算力了
對ㄚ 所以現在景張的是米國的軟體業ㄚ
因為技術力一下就被追上ㄌ
軟體反而沒差好嗎? deepseek是開源的, 就算不開源deepseek並不存在什麼獨家護城河 其他人拿回去研究一下 換個思路下一代模型效果也相距不遠 為什麼只有老黃最慘, 因為大家好像覺得可能不需要軍備競賽了 又或者說Ai要堆到現實上非常好用的地步 可能不需要像之前那樣堆算力了
※ 編輯: winterson (106.1.116.137 臺灣), 01/28/2025 00:32:06如果不需要算力的話,那ds何必用h800?用更
更更低階的gpu不是更嚇人?
美國偷師中國這套軟體思維,再用h100來打,
還會打不過?
沒 軟體業會第一波被捲爆 因為一下就會滿滿
對岸廠商狂投入開發便宜的出來
另外老黃低階卡對岸還是可以用 好歹有賺
這種鳥畫面4090也搞不定 算力很謎阿
20
首Po安安 欸 幹 一直說中國deepseek AI很會算,可以節省98%設備支出 不就是代表他的運算邏輯可以比起ChatGPT 還要更精煉? 所以到底運算邏輯上差在哪? 有鄉民看了嗎?![[問卦] 有鄉民看過deepseek強在哪了嗎? [問卦] 有鄉民看過deepseek強在哪了嗎?](https://i.imgur.com/CPpXkFeb.jpeg)
3
不是有paper和一堆yt在講了 簡單說原本scaling law是單一model 成本是近似指數或n^2誇張上升 所以AI能力要變強 原本是要暴脹式的砸錢 deepseek open的paper說明了 用成千上百個小model集合推論 所以不用被大n懲罰 然後AI原本需要大量人工標註資料 現在R1做到不用預先標註資料了
這新聞訪談Perplexity AI 的CEO Aravind Srinivas 的採訪。 照新聞描寫Perplexity AI是什麼 我是沒聽過 華爾街日報 針對5款聊天機器人進行測試,並為各種使用場景的回覆品質排名。 爆冷奪第一![Re: [問卦] 有鄉民看過deepseek強在哪了嗎? Re: [問卦] 有鄉民看過deepseek強在哪了嗎?](https://img.youtube.com/vi/l8NKedgzDtE/mqdefault.jpg)
4
在領英上看到 講解的還行 看得懂就看吧 看不懂就算了 正文: 首先,文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer: 1)他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程; 2)为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给NVDA提出了诸多Tensor Core方面的设计建议
94
Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」老黃應該是有機會能繼續用黃家刀法 用高階價錢賣低階產物給中國 從美國的最大化利益角度來想 美國也會希望老黃賣次級的晶片給中國 這樣就某種程度能最大化阻滯中國發展 和弱化中國科技樹發展 比方說 中國最近的華為昇腾910B AI晶片號稱對標A100 已經賣給百度作為AI開發用途 如果說中國目前上面自製化晶片算力是10 那A100是30 H100是50 那老黃只要賣給中國晶片![Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」 Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」](https://i.imgur.com/ehbrItPb.jpg)
84
Re: [新聞] 台積電:AI需求噴發 但全球科技業復甦不AI跟5G的類比講真的有點勉強 同樣也跟2000年網路基建的狀況不太一樣 來看一下祖家大少怎麼講的 其實重點並不是AI![Re: [新聞] 台積電:AI需求噴發 但全球科技業復甦不 Re: [新聞] 台積電:AI需求噴發 但全球科技業復甦不](https://scontent-tpe1-1.xx.fbcdn.net/v/t15.5256-10/425379900_1138626150620917_3681624693975397461_n.jpg?stp=dst-jpg_s1000x1200&_nc_cat=108&ccb=1-7&_nc_sid=c26028&_nc_ohc=pX1SbLYEAoEAb6w2Vhb&_nc_ht=scontent-tpe1-1.xx&oh=00_AfDVfKyKhvsyvwxVovczdY2E_7Bb1PGz478GlG0K725mnA&oe=66299A82)
66
[問卦] 黃仁勳:AI算力,耗能增加3倍..這電哪來?黃仁勳: NVIDIA 的加速計算技術實現了 100 倍的速度提升, 而功耗僅增加到原來的 3 倍, 成本則為原來的 1.5 倍。![[問卦] 黃仁勳:AI算力,耗能增加3倍..這電哪來? [問卦] 黃仁勳:AI算力,耗能增加3倍..這電哪來?](https://i.imgur.com/jdgr4Psb.jpeg)
61
Re: [請益] 費半成份股全線崩盤 怎麼辦?DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance 以deepseek v3來說 600GB+ fp8 需要許多平行運算 這意味通訊瓶頸很重要 因為在切換專家時候 延遲會因此也跟者追加 而記憶體需求開銷也很大![Re: [請益] 費半成份股全線崩盤 怎麼辦? Re: [請益] 費半成份股全線崩盤 怎麼辦?](https://i.imgur.com/1glBeN3b.jpeg)
51
Re: [新聞] 黃仁勳:晶片製造不一定得在台 中國市場卻再稍微增加補充一下 這篇講得沒錯 老黃的核心重點就是"算力" 他賣的鏟子就是高計算能力平台 因此跟計算資源扯上關係的題材都會是老黃炒作對象 元宇宙也好 挖礦這些題材都算是幫他促銷鏟子 這也是為何老黃每年會去CVPR(Vision Computing)/Siggraph(Graphics Render) /NeurIPS 到處穿黑皮衣亂走 去了解整個高計算技術趨勢![Re: [新聞] 黃仁勳:晶片製造不一定得在台 中國市場卻 Re: [新聞] 黃仁勳:晶片製造不一定得在台 中國市場卻](https://img.youtube.com/vi/TeJ2IFae2-0/mqdefault.jpg)
23
Re: [閒聊] 傳Coreweave是Nvidia和Blackroc我有在follow coreweave 但是朝另外一個方向 Coreweave現在規劃就是死抱老黃和 微軟大腿 他提供的就是第三方租借算力 其他類似的公司有Amazon/Google/Lambda 然後Coreweave也有跟微軟簽約提供算力 老黃這陣子看得出來 他有在朝算力租借這邊佈局 在講這些玩家之前 先科普一下如果踏入AI產業 你大概會選擇三個方向其中一個![Re: [閒聊] 傳Coreweave是Nvidia和Blackroc Re: [閒聊] 傳Coreweave是Nvidia和Blackroc](https://img.technews.tw/wp-content/uploads/2022/02/08093743/shutterstock_1567038724.jpg)
7
[請益] 其實DeepSeek用了幾顆GPU根本不重要用GPU硬體加速AI運算這件事 本來就不是無限制使用, 有些人講到AI就只想到暴力運算 找最大質數...要靠AI某某模型花○○年 要是大家指望那種爛模型,14
Re: [閒聊] 有礦工偷跑3060算力 結果忘記馬序號 GG這位來自喬治亞的Youtuber:CryptoLeo 看起來完全不在意RTX3060序號露出 他又繼續更新了頻道 他新上傳RTX3060 12GB顯示卡 測試其他競爭幣(Altcoins)算力的影片![Re: [閒聊] 有礦工偷跑3060算力 結果忘記馬序號 GG Re: [閒聊] 有礦工偷跑3060算力 結果忘記馬序號 GG](https://img.youtube.com/vi/GeWKzRnQNtc/mqdefault.jpg)
4
Re: [新聞] DeepSeek爆紅引AI「股瘟」!ASML歐股開盤算力愈強,模型愈強~ 就算deepseek 真的不用高階晶片就能訓練出說不弱於openAI o1 的模型, 那未來新的模型在有高階晶片的加持下, AI 不是會發展的更快、更難以想像嗎? AI 發展的更快,商用、消費用的領域愈多,對半導體的需求愈大,