Re: [討論] sora效率:800塊A100跑一天出一分鐘產品
※ 引述《yoyoruru (哇系笨阿佑)》之銘言:
: 一張 A100,大概1萬鎂
: 算算就一個電影動畫師的平均月薪
: 買來玩個一年
: 「很貴嗎?」
我還覺得底層是跑 Unreal engine 跑出來的
應該有人在朝這方向做了
如果是產生的我只能說,失誤率太高沒有必要
看起來很炫但是不實用
看大家興奮成那樣我也是黑人問題,妥妥的炒股
比起來,Nvidia 前架構師離職這篇論文才更有意思
https://www.facebook.com/nanzong.chen/posts/
pfbid026y5WwQRz2tvCcAG5jTWiFAbcyqLv3CFU92vTBZHPrSZXhuWg3fmaXxiPGv6yyjjml
(接成一行, 懶得縮了)
加州理工學院(Caltech)的布倫教授(Bren Professor)
「我們首次證明,LLaMA 7B可以在僅具有24GB記憶體的單一消費級GPU(RTX 4090)上
進行預訓練(不是微調!)。這意味著訓練期間用於儲存優化器狀態的記憶體減少
了82.5%以上。」
這個才是大新聞,降低大語言模型 training 的記憶體使用量
大家算大語言模型的成本大幅降低
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.0.12 (臺灣)
※ PTT 網址
→
現在限制運算力的應該不是記憶體太小
→
,而是GPU不夠快,雖然較低記憶體需求
→
還是有幫助
→
一般人是記憶體太小啊
→
除了GPU算力問題,還有HBM效能
→
但是還是看 model 長成什麼樣
推
LLaMA 7B效果很差,根本不實用
6
首Po笑掉人大牙,800塊A100,跑一天才能生成一分鐘的視頻 根本就是大力出奇跡,傻大黑粗的代表 就是統計學黑箱,能源黑箱,得優化一萬倍才有商用的可能 最近鏟子製造商發財了,這個消息出來以後,該輪到中國電力股大漲,綠能儲能世界第一就是中國呀 泡沫究竟是泡沫,GG可以收一收了,早就説這種AI只有3成對著正確方向,7成和BTC沒差3
你也是好笑 狂發文章 針對半導體在唱衰台灣 但是中國產業競爭的主要對手是美日韓歐 尤其是汽車新能源車 消費性電子 AI應用 能源產業 台灣不管是什麼產業 基本上都是b2b 都是面對產業 不面對消費者X
一張 A100,大概1萬鎂 算算就一個電影動畫師的平均月薪 買來玩個一年 「很貴嗎?」 動畫最花時間的就是初期組織架構
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預24
Re: [新聞] AI晶片競爭開跑,谷歌公布第四代TPU,宣周末下班閒聊, 發現tech版沒有這篇文章, 那就在這裡討論好了, 其實我說的東西都是網路 google+wiki 就有的東西, 先簡單說明一下現代化的ML DeepLearning的基本概念,17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務1
Re: [情報] AMD 7800XT/7700XT 售價US$449起 9/6上市AMD的GPU行銷真的是笨死了。每個人都拜託他們出24GB或48GB的卡,這麼簡單就大賣的方法不作。還在搞FSR,難道不知道現在是大AI時代嗎? 7800xtx 24GB,549鎂,還不賣爆。 79x0xtx 48GB,1200鎂,還不搶光。 現在一堆AI inference的需求,欠缺在ram不夠。Training也許還是不行,但inference社群作一堆了,就等你出卡而已。結果你出16GB??? 例如最近mlc-llm測試7900xtx 推理可達4090的80%。7
Re: [問卦] 聽說中研院AI花300萬?阿肥外商碼農阿肥啦! 推廣一下微軟Azure服務,這邊試算開一張A100機器折合台幣差不多8萬台幣/月,平均一 天3000不到,中研院應該夠划算了,也算是現在市場公道價,反正都用開源簡中數據了, 放Azure訓練也沒什麼資安問題,而且要撈90GB的模型檔案不到十五分鐘就載完了,Azure 又快又好用。5
Re: [新聞] Google與Hugging Face合作宣布推動開放結果Google竟然釋出了開源大模型Gemma,超出預期! Google 2 款新開源模型「Gemma」來了!直接挑戰 Meta Llama 2 7B 2024/02/22 Sisley 聊天機器人 、 生成式 AI 、 摘要 、 輕量級語言模型 、 負責 任生成式 AIX
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
25
Re: [討論] 中國韭菜又刀人了13
[討論] 台灣公投成為美國的一州會通過嗎X
[討論] 政黑板什麼時候變青鳥聚集地了?4
[黑特] 不覺得民進黨近期真的很扯嗎?7
[討論] 小草跟我抱怨怪柯文哲貪汙 讓塔綠班開心7
Re: [新聞] 廣州逾40隻狗疑中毒死亡 不排除有預謀3
[討論]原來如果李貞秀無法上任 遞補94陳智菡了34
[黑特] 陳水扁FB和翠 貼那些圖 到底想表達什麼??5
Re: [討論] 政黑板什麼時候變青鳥聚集地了?8
Re: [新聞] 強吻鍾沛君二審判11月 朱學恒將入獄5
[討論] 一胎化對中國家庭教育的影響4
[黑特] Matt Gaetz 跟黃國昌哪個強4
[討論] 北部人何時才能一起賺綠鬣蜥的獎金8
[討論] 林濁水不滿民進黨,還是支持?3
[討論] 大家猜猜勞動部明天的記者會內容3
Re: [新聞] 勞動部公務員之死調查完畢 明天上午將公11
[討論] 請問下神豬是否從此留下前科啊?26
[討論] 綠鬣蜥擴大補助8000萬?3
[黑特] 搞清楚,是民眾黨抓著黃國昌不放7
[討論] 葉元之下次還能選上嗎?2
[討論] 賴清德對於綠鬣蜥是什麼看法?1
Re: [討論] 姚惠珍去面對面講柯文哲摸手手7
[討論] 勞動部死人小事一件不是?開啥記者會啊X
[討論] 為什麼沒有藍委去踹勞動部長財政部長的門31
[討論] 中國韭菜又刀人了13
[討論] 逼人上吊自殺嚴重?還是手指滑過手肘?12
[舊聞] 不禮貌鄉民團 感謝館長黃國昌聯手舉辦6237
[黑特] 幹,是不會出動國軍抓綠鬣蜥喔13
[討論] 職場霸凌致死跟權勢性交哪個嚴重2
[討論] 洗錢上百億 保釋一億是不是被看沒有