Re: [新聞] AI晶片競爭開跑,谷歌公布第四代TPU,宣
※ 引述《ynlin1996 (.)》之銘言:
: 原文標題:
: AI晶片競爭開跑,谷歌公布第四代TPU,宣稱比輝達A100晶片更快更節能
: 原文連結:
: https://bit.ly/3meYAG8
: 發布時間:
: 2023.4.6
: 記者署名:
: 茋郁
: 原文內容:
: 谷歌於2023年4月5日公佈了其用於訓練AI模型的超級電腦的新細節,稱該系統比輝達的同類型系統A100更快、更節能。雖然現今大多數涉足AI領域的公司的處理能力都來自輝達的晶片,但谷歌設計自己客製化晶片Tensor Processing Unit(TPU)期望能夠推動其在AI研究。
: 谷歌是在COVID-19大流行高峰期間宣布了其Tensor晶片,當時從電子到汽車的企業面臨晶片短缺的困境。由於谷歌看到蘋果在客製化晶片的投入,幫助了iPhone以及其他產品的開發。因此最初該晶片是為其Pixel智慧型手機提供動力,可是歷經幾年之後,谷歌將TPU延伸至更多領域,可見得其開發方面取得了長足的進步。
: 如今谷歌90%以上的AI訓練工作都使用這些晶片,即通過模型提供數據的過程,使它們在諸如類似人類的文字查詢或生成影像等任務中發揮作用。
: 谷歌TPU現在已經是第四代了。之所以世代晶片發展那麼迅速的關鍵在於,谷歌使用AI來設計其TPU晶片。谷歌聲稱,與人類花費數月時間設計晶片相比,使用AI設計晶片僅需要6小時即可完成設計過程。
: 一旦採用AI設計晶片,產品迭代都在迅速發生,這就是TPU進入第四代的原因。未來隨著生成式AI的快速發展,將造成大型語言模型的規模呈現爆炸式成長,這意味著它們太大而無法儲存在單顆晶片上。所以谷歌客製化開發的光訊號交換器將4,000多顆晶片串在一起成為一台超級電腦,以幫助連接各個機器。此外,微軟也是將晶片拼接在一起以滿足OpenAI的研究需求。
: 谷歌指出,PaLM模型——其迄今為止最大的公開披露的語言模型——通過在50天內將其拆分到4,000顆晶片超級電腦中的兩個來進行訓練。更重要的是,其超級電腦可以輕鬆地動態重新配置晶片之間的連接,有助於避免出現問題並進行調整以提高性能。
: 谷歌除了自己使用TPU之外,一家新創公司Midjourney使用該系統訓練其模型,該模型在輸入幾句文字後即可生成新影像。
: 可是谷歌並沒有將其第四代晶片與輝達目前的旗艦H100晶片進行比較。谷歌暗示它可能正在開發一種新的TPU,它將與輝達H100展開競爭。
: 總之,隨著生成式AI的崛起,AI晶片的開發腳步將成為下一個廠商積極介入的領域,以搶奪未來商機。
: 心得/評論:
: Google公布第四代TPU,並宣稱比NVIDIA A100更快更節能,其客戶Midjourney利用TPU訓練其模型再輸入文字後生成圖片。
周末下班閒聊,
發現tech版沒有這篇文章,
那就在這裡討論好了,
其實我說的東西都是網路 google+wiki 就有的東西,
先簡單說明一下現代化的ML DeepLearning的基本概念,
其實就是用暴力法把整個model 放進去 GPU/TPU 裏頭training/inference,
這會有兩個最大的限制,
硬體速度跟GPU/TPU記憶體容量,
硬體太慢跑不動或跑太久,
GPU/TPU記憶體容量太小的話是連跑都不能跑,
我幾年前在板上分享的TQQQ DeepLearning 預測股價的模型,
需要8GB 的 GPU VRAM
維基小百科之後就回到主題: ChatGPT,
目前所有的聊天機器人模型通通都是LLM,
https://en.wikipedia.org/wiki/Wikipedia:Large_language_models
GPT-3 需要VRAM 175GB,
股歌微軟OpenAI 這幾家的模型一定遠遠超過這個大小,
大上數百倍都有可能,
我是做硬體晶片的,
不要問我model 這塊的問題,
所以現在這些聊天機器人模型最大的問題是整個系統無法塞下model training,
所以這篇文章的重點在這句話:
"谷歌客製化開發的光訊號交換器將4,000多顆晶片串在一起",
只能這麼做才有辦法塞下這麼大的model training,
Nvidia 也有類似的技術叫做 NVLink,
可以把電腦上數個Nvidia 顯卡串聯運算,
但是如果模型大到一台電腦顯卡全部插滿都塞不下運算的話,
我就不知道Nvidia 如何解決,
但是我相信Nvidia 一定有解決的方法
所以現在問題已經提升到整個系統端,
而不是我的晶片跑多快這麼簡單的問題,
軟體跟模型要如何切割如何分配塞入多台超級電腦,
硬體方面如何塞入最大的模型做運算
說個題外話,
我幾年前做了一個project, AI 晶片與系統研發的project,
最近拿到公司的大獎,
不是新聞這個TPU,
我跟開發model 的對口同事討論過,
是否能夠拿我們開發的這個系統來跑Chat model,
得到答案是否定的,
至少現階段還無法做到,
原因很簡單, VRAM 不夠大, 塞不下model,
但是他們model 部門也有在想辦法要細切 model 看可不可以塞進去這個系統,
所以速度已經不是最重要的考量了,
至於速度,
兩年前應該是全世界最快的晶片+系統,
可惜 VRAM 不夠大,
原本運用方向就不是要做chat
--
太專業了
一台電腦塞不下換一個機房塞不塞得下 我現在在弄XD
整個機房就需要switch 串聯 GPU/TPU, 也就是原文裏頭說的客製化開發的光訊號交換器, 不然你無法做到多台電腦同步運算同一model, 另外一個做法就是用純軟體的方式細切model 分別塞到個別機器, 也就是我的對口同事正在嘗試要做的solution
※ 編輯: waitrop (24.5.140.41 美國), 04/07/2023 15:20:49推
分別塞 細切的方案感覺成本比較省
內行的就知道 大模型最重要的其實是VRAM而非速度
想起古早56K年代 用PC幫忙解外星人的project
transformer系的瓶頸都是記憶體牆
用NVSwitch or IB(InfiniBand)
包含記憶體容量和存取速度 運算速度反而是其次
類似腦細胞神經連結 30年前的超大電腦又回來了
公司內部的project 內容不能說太多, 我只能說在電腦歷史上單一超級電腦或是分散運算小電腦, 這兩個方向已經吵了五六十年以上, 目前Chat model 的確是只有單一超級電腦才能運算, 但是我相信以後一定有解決方法可以用分散運算小電腦, 當年我在做這個AI project的時候, 也是公司兩派立場的爭論: 單一超級或是分散小電腦, 我的project 的研發方向是用分散運算方式去解決AI問題, 可是現在卡關在chat model, 但是我相信未來一定是分散運算的方式, 因為觀看人類電腦歷史, 沒有例外都是分散運算小電腦最後得到勝利
不過微軟提供給openai的解決方案不是NVlink
而是用InfiniBand把幾萬張A100串起來
比較好奇文中說的AI設計晶片是不是真的?
AI設計晶片應該指的是軟體定義晶片,也就是Coarse G
rained Reconfigurable Arra,目前這塊最成功的是思
科,其網路交換器及虛擬化處理器都有用到類似架構
分散運算要面對資料傳輸的瓶頸 也有它本身的限制
NV之前買下mellanox
可以把多台server用網卡串起來
短期內搞研究的還是要用類超級電腦 分散運算我覺得
是用在一些比較成熟的狀況 例如iphone pixel的model
Graphcore的IPU也是走單一超級電腦路線,x86陣營則
是嘗試用新一代AMX指令集來搶食訓練大餅,目前是期
待我國新創公司能在AI推理有所成果
畢竟training目前看起來還是需要大力出奇蹟...
就說了是比系統不是比晶片,原文推文一堆外行
感謝分享
其實NV也已經佈局switch了,mellanox 就是做IB連結
的公司
NV的DGX其實應該就有用Mallanox Switch去串全部機台
大頻寬的光交換器準備要商轉了,不怕啦
問個笨問題 TSLA 不是有個 DoJo超級電腦? 是不是
跟文中所提的超級電腦同一個類別?
很專業,所以可以買啥標的
Nvidia跟谷歌, 只有這兩家可以做出chat 的系統, 只是Nvidia 真的股價有點高
請問版上鄉民,像現在高通的晶片,也可以直接作出
GPU 使用目前最重要的AI類功能嗎,還是說仍然必須
使用到 Nvidia的技術?
也就是是否就算用高通晶片作出 GPU,也會因為因為
Nvidia的某些架構或者特殊技術,所以沒辦法用?
而且高通這晶片其實去年4月就現市了
我實在不太清楚目前這些是都能直接用還是有架構問題
推個解釋的連文組也能懂
推好人分享
推
推,分享!
算力的價值建立在產出吧,覺得可以從AI產出去找股票
推分享
87
[情報] 產生式 AI 大爆發 NVIDIA GPU 恐供不應求生成式 AI 大爆發,NVIDIA GPU 恐供不應求 來源 微軟 Bing 搜尋引擎整合 ChatGPT,加上其他生成式 AI 工具的需求攀升 都相當依賴人工智慧處理能力,正是 NVIDIA GPU 優勢所在 當科技公司利用 NVIDIA GPU 滿足增長的 AI 需求33
Re: 本來學ML是該轉路還是繼續鑽研一個ML應用要落地產生商業價值 在data scientist把model訓練出來之後 還有很長一段路才能真正進到生產環境 ML系統的複雜度其實非常高 從資料收集,特徵處理, 模型訓練, 模型測試, 一直到後面的模型部署,模型監測21
[閒聊] 串連數千個 Nvidia GPU,微軟打造 Chattechnews 串連數千個 Nvidia GPU,微軟打造 ChatGPT 的超級電腦 March 14, 2023 by 陳 冠榮 微軟斥資數億美元打造一台大型超級電腦,串連數千個 Nvidia GPU,為 OpenAI 的聊天機11
Re: [閒聊] 買顯卡的各種奇聞軼事和空手而回的無奈ebay上一張3080被炒到 2,125 美金 這個是0元起標的 應該是有賣出吧 但是仔細看怎麼怪怪的5
Re: [討論] AI晶片多嘴插句話,除了Training跟Infer差異外,其實真的要細分還有從硬體、軟體的優化, 從最上層到底層跟硬體的結合才能夠把edge computing提升到產品落地階段。 像是閣下說的自然語言這塊把Transformer從軟體層面做降維優化、新一代更輕量的CNN模型 ,還有既有的半精度FP8這種跟指令集優化,另外這幾年學界比較有研究的從Complier上做 優化通用矩陣乘法。4
Re: [請益] 1660S x2 or 3070 組DL server最近版上出現一些深度學習配單,覺得有一些心得可以分享,省的走冤枉路 就來回一下舊文,我最後拿3070喇 先說結論,3060 cp值最高唯一推薦,再上去建議直接攻頂3090 大部分人買顯卡都很關心效能,所以我看到有些人會拿3070, 3060ti上來問 但是跑深度學習除了效能以外,VRAM大小以及資料讀取的IO時間都會影響training效率
49
[情報] 美國10月ISM服務業採購經理人指數8
Re: [心得] 美債正二怎麼這麼垃圾16
Re: [新聞] 小摩:若川普勝選 聯準會恐暫停降息18
[情報] 6187萬潤 113Q3合併財報2
[情報] 113/11/05 八大公股銀行買賣超排行10
[情報] 113年11月05日信用交易統計14
[情報] 8249菱光10月營收年增164.18%5
Re: [新聞] 小摩:若川普勝選 聯準會恐暫停降息1
[情報] 1105 上市櫃外資投信買超金額排行1
[情報] 1105 上市櫃股票週轉率排行1
[情報] 8070長華 股利0.7元