PTT評價

Re: [請益] AI伺服器成本分析——記憶體是最大的輸家

看板Stock標題Re: [請益] AI伺服器成本分析——記憶體是最大的輸家作者
Severine
(賽非茵)
時間推噓 推:0 噓:0 →:0

請容我搬運一篇對岸知乎的文章,
這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的.
我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字
詳細的有興趣請直接去原網址看吧.


ChatGPT背後的經濟賬
https://zhuanlan.zhihu.com/p/604427788

重點概覽:

-LLM驅動的搜索已經在經濟上可行:粗略估計,在現有搜索成本結構的基礎上,高性能LLM 驅動搜索的成本約佔當下預估廣告收入/查詢的15%。

-但經濟可行並不意味著經濟合理:LLM驅動搜索的單位經濟性是有利可圖的,但對於擁有 超1000億美元搜索收入的現有搜尋引擎來說,添加此功能可能意味著超100億美元的額外 成本。

-其他新興的LLM驅動業務利潤很高:比如 Jasper.ai 使用LLM生成文案,很可能有SaaS服 務那樣的毛利率(超75%)。

-對於大公司而言,訓練LLM(即使是從頭開始)的成本並不高:如今,在公有雲中訓練
GPT-3僅需花費約140萬美元,即使是像PaLM這樣最先進的模型也只需花費約1120萬美元。

-LLM的成本可能會顯著下降:自GPT-3發佈的兩年半時間里,與GPT-3性能相當的模型的訓 練和推理成本下降了約80%。

-數據是LLM性能的新瓶頸:與增加高品質訓練數據集的大小相比,增加模型參數的數量能 獲得的邊際收益越來越小。

--------------------------------------------------------------------

節錄 目錄5 繪製成本軌跡的通用框架


對於訓練LLM而言,最重要的硬體性能指標(hardware performance metric)是可實現的混合精度FP16/FP32 FLOPS。 改進硬體旨在實現成本最小化,同時使得峰值FLOPS輸送量和模型FLOPS利用率實現最大化。

雖然這兩個部分在硬體開發中密不可分,但為了讓分析變得更簡單,本節重點關注輸送量,下一節再討論利用率。

目前,我們已經通過查看雲實例定價(cloud instance pricing)估算了Cost/FLOP效率。 為了進行下一步探究,我們估算了運行以下機器的成本。 主要包括以下兩個方面:1)硬體購買(hardware purchase) 2)能源支出(energy expense)。 為說明這一點,我們再來看看GPT-3(一款由OpenAI推出的模型,該模型在Microsoft Azure的10000個
V100 GPU上訓練了14.8天)[22]:

https://pic4.zhimg.com/80/v2-c3cf3ffb2f42dd1f071459d718d28f67_1440w.webp
2020年用英偉達V100 GPU訓練GPT-3的成本(碳排放與大型神經網路訓練)

黃仁勳定律(英偉達首席執行官黃仁勳於2018年提出)指出,在硬體成本方面,GPU的增長速度比五年前快了25倍[23]。 在訓練LLM的背景下,GPU的性能得到了很大提升,這很大程度上得益於張量核心(Tensor Cores)(AMD採用的是矩陣核心(matrix cores))。 此外,GPU不再將向量作為計算原語,而是轉為矩陣,從而實現了性能更好、效率更高的混合精度計算。

2016年,NVIDIA通過V100數據中心GPU首次推出了張量核心。 與最初引入的張量核心相比,雖然這一改進不太明顯,但是每一代張量核心都進一步提高了輸送量。 如今,對於用於訓練LLM的數據中心GPU,我們仍能看到每一代GPU的輸送量都提升了50%(或者說年均輸送量提升了22%左右)。

https://pic1.zhimg.com/80/v2-02d82be8274ec1eac92eb75b838d8118_1440w.webp
資料中心GPU FP16/FP32輸送量/美元 (NVIDIA)

https://pic3.zhimg.com/80/v2-4fd7865e38ff77f320408ac2dd6f886a_1440w.webp
桌面GPU和數據中心GPU、按精度劃分的輸送量/美元 (英偉達,深度學習推理中的計算和能源消耗趨勢)

https://pic1.zhimg.com/80/v2-91623893dd6569d5d8c807bfddac2d6c_1440w.webp
目前使用英偉達H100 GPU訓練GPT-3的成本

展望未來,我們預測,隨著硬體設計的不斷創新,硬體成本和能效將逐步改進。 例如,從V100到A100 GPU,NVIDIA添加了稀疏特性(sparsity features),這進一步將某些深度學習架構的輸送量提高了2倍[24] 。 NVIDIA正在H100中添加對FP8數據類型的本地支援,當與推理量化等現有技術相結合時,可以進一步提高輸送量[25]。

此外,TPU和其他專用晶元的出現從根本上重塑了深度學習用例的晶元架構。 谷歌的TPU建立在脈動陣列結構(systolic array architecture)之上,可顯著減少寄存器使用,提高輸送量[26]。 正如下一節將提到的,隨著我們將訓練和推理擴展到大型參數模型,最近許多硬體都著力於提高利用率。

------------------------------------------------------------

節錄 目錄5 : 硬體利用率提升

出於記憶體需求,LLM訓練的主要挑戰之一就是將這些模型從單個晶元擴展到多個系統和集群級別。 在典型的LLM訓練中,設置保存優化器狀態、梯度和參數所需的記憶體為20N,其中N是模型參數數量[27]。

因此,BERT-Large(2018年早期的LLM之一,擁有3.4億參數)僅需6.8GB記憶體,就可輕鬆裝入單個桌面級GPU。 另一方面,對於像GPT-3這樣的1750億參數模型,記憶體要求轉換為3.5TB。 同時,NVIDIA最新的數據中心 GPU(H100)僅包含80GB的高頻寬記憶體(
HBM),這表明至少需要44個H100才能滿足GPT-3的記憶體要求。 [28]此外,即使在10000個V100 GPU上訓練GPT-3也需要14.8天。


因此,即使我們增加用於訓練的晶元數量,FLOPS利用率也仍然需要保持高水準,這一點至關重要。

https://pic1.zhimg.com/80/v2-fe42fd4de320e178a133d15fe28fbde4_1440w.webp

硬體利用率的第一個維度是在單晶元層面。 在單個A100 GPU上訓練GPT-2模型時,硬體利用率達35.7%[29]。 事實證明,片上記憶體(on-chip memory)和容量是硬體利用的瓶頸之一:處理器內核中的計算需要重複訪問HBM,而頻寬不足會抑制輸送量。 同樣,有限的本地記憶體容量會迫使從延遲較高的HBM進行更頻繁的讀取,從而限制輸送量[30]。

硬體利用率的第二個維度與晶元到晶元的擴展有關。 訓練像GPT-3這樣的LLM模型需要跨多個GPU對模型和數據進行劃分。 正如片上記憶體的頻寬可能成為硬體利用的瓶頸一樣,晶元間互連的頻寬也可能成為硬體利用的限制因素。 隨著V100的發佈,NVIDIA的NVLink實現了每個GPU 300GB/s的頻寬。 對於A100來說,寬頻速度實現了600GB/s[31]。

硬體利用率的最後一個維度是系統到系統的擴展。 一台機器最多可容納16個GPU,因此擴展到更多數量的GPU要求跨系統的互連不能成為性能瓶頸。 為此,Nvidia的Infiniband
HCA在過去3年中將最大頻寬提高了2倍[32]。

在第二和第三個維度上,軟體劃分策略是硬體有效利用的關鍵考慮因素。 通過結合模型和數據並行技術,2022年使用MT-NLG的Nvidia晶元集群級別的LLM訓練的模型FLOPS利用率達到了30.2%[33],而使用GPT-3的模型FLOPS利用率在2020年只有21.3%:

FLOPS利用率的提高得益於更高效的並行訓練(使用Google的Pathways ML系統)以及從根本上TPU具有完全不同的架構。 該晶元的脈動陣列結構和每個內核的顯著的本地記憶體密度(local memory density)降低了高延遲全域記憶體(global memory)的讀取頻率。

同樣地,我們可以看到Cerebras、Graphcore和SambaNova等公司在處理器中分配了更多的共用記憶體容量。 展望未來,我們預計其他新興創新,例如將晶元擴展到晶圓級以減少延遲/增加頻寬,或通過可程式設計單元優化數據訪問模式等將進一步推動硬體利用率的發展[35]。

------------------------------------------------------------

目錄6 大型語言模型即將迎來全盛時期

據《紐約時報》近日報導,谷歌宣稱ChatGPT是其搜索業務的「紅色警報」( code red),它的搜索量呈病毒式發展。

[36] 從經濟角度來看,通過粗略估算,將高性能LLM納入搜索將花費約15%的查詢收入,這表明該技術的部署已經切實可行。 然而,谷歌的市場主導地位阻礙了它成為這方面的先行者:谷歌目前的搜索收入為1000億美元,將高性能LLM納入搜索會使谷歌的盈利能力減少一百多億美元。

另一方面,也就難怪微軟會計劃將大語言模型納入Bing了[37]。 儘管LLM支援的搜索成本高於傳統搜索,並且與谷歌相比,微軟搜尋引擎的市場份額要低得多,但是微軟並未虧損。 因此,如果微軟能夠成功地從谷歌手中奪取搜索市場份額,那麼即使現有查詢成本更高,微軟仍然能夠獲得極高的利潤。

有趣的是,對於其他產品,通過部署LLM已經可以通過SaaS來盈利。 例如,最近估值為15億美元、使用LLM生成文案的 Jasper.ai 收費為82美元/100000字(相當於1.09美元/1000個token)[38]。 使用OpenAI的Davinci API 定價為0.02美元/1000個token,即使我們對多個回應(response)進行採樣,毛利率也可能遠高於75%。

同樣令人驚訝的是,如今在公有雲中僅需約140萬美元即可對GPT-3進行訓練,而且即使是SOTA模型(如PaLM,約1120萬美元)的訓練成本也不會太高。 在過去的兩年半里,類似GPT-3等模型的訓練成本下降了80%以上,高性能大語言模型的訓練成本將進一步降低。

換句話說,訓練大語言模型並不便宜,但也沒那麼燒錢,訓練大語言模型需要大量的前期投入,但這些投入會逐年獲得回報。 更近一步,Chinchilla論文表明,在未來,相比資金,高質量數據會成為訓練LLM的新興稀缺資源之一,因為擴展模型參數數量帶來的回報是遞減的。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.98.142 (臺灣)
PTT 網址