2024年10月3日,知名半導(dǎo)體分析機(jī)構(gòu)SemiAnalysis發(fā)布了一篇名為《AI Neocloud Playbook and Anatomy》的GPU云技術(shù)的深度報(bào)告,翻譯后全文共2.6萬(wàn)字。這篇報(bào)告全面分析了AI算力云(Neocloud)的構(gòu)建、經(jīng)濟(jì)模式、市場(chǎng)趨勢(shì),以及未來(lái)展望,重點(diǎn)探討了H100 GPU租賃價(jià)格下降、即將推出的Blackwell GPU的影響,并提供了優(yōu)化BoM、網(wǎng)絡(luò)架構(gòu)、成本控制、以及提升可靠性和用戶體驗(yàn)的實(shí)踐建議。
集群架構(gòu)
報(bào)告指出,AI算力云的興起標(biāo)志著全球算力需求的快速增長(zhǎng),尤其是GPU算力的租賃服務(wù)成為推動(dòng)大模型訓(xùn)練的重要支持。AI算力云市場(chǎng)正逐步分化為四類(lèi)主要玩家:傳統(tǒng)云服務(wù)商、AI算力云巨頭、新興算力云以及經(jīng)紀(jì)人/平臺(tái)類(lèi)服務(wù)商,各自服務(wù)不同的客戶群體,滿足大模型訓(xùn)練和推理等不同需求。
傳統(tǒng)的超大規(guī)模云服務(wù)商如Google Cloud、Microsoft Azure等占據(jù)了重要地位,憑借其全方位的云計(jì)算生態(tài)系統(tǒng),向大型企業(yè)和AI實(shí)驗(yàn)室提供高成本、高性能的GPU服務(wù)。而AI算力云巨頭如Coreweave、Lambda Labs等,專(zhuān)注于GPU租賃服務(wù),通過(guò)靈活的定價(jià)和大規(guī)模部署滿足市場(chǎng)對(duì)大模型訓(xùn)練和推理的需求。新興AI算力云服務(wù)商則主要面向區(qū)域性市場(chǎng)和較小的AI初創(chuàng)企業(yè),為他們提供價(jià)格更具競(jìng)爭(zhēng)力的算力解決方案。算力經(jīng)紀(jì)人和平臺(tái)聚合商通過(guò)平臺(tái)模式或市場(chǎng)模式,將算力資源進(jìn)行聚合和分配,幫助客戶以更低的價(jià)格獲取所需的GPU算力資源。
AI算力云的需求主要由AI初創(chuàng)企業(yè)和大型AI實(shí)驗(yàn)室推動(dòng),這些機(jī)構(gòu)需要強(qiáng)大的GPU算力來(lái)支持大規(guī)模的AI模型訓(xùn)練和推理任務(wù)。大模型的預(yù)訓(xùn)練和微調(diào)需要數(shù)千甚至數(shù)萬(wàn)個(gè)GPU的集群支持,因此成為了推動(dòng)GPU需求增長(zhǎng)的核心動(dòng)力。尤其是隨著大語(yǔ)言模型和其他AI模型的規(guī)模不斷擴(kuò)大,這些企業(yè)必須依賴AI算力云來(lái)快速獲取足夠的GPU資源,以完成復(fù)雜的訓(xùn)練任務(wù)。
在市場(chǎng)需求方面,AI算力云的客戶群體涵蓋了不同規(guī)模和需求的AI企業(yè)。從大型AI初創(chuàng)公司到中小型AI企業(yè),他們?cè)谀P陀?xùn)練階段需要巨大的算力投入。例如,報(bào)告中提到的OpenAI和Inflection AI等大型企業(yè),通常與AI算力云服務(wù)商簽訂長(zhǎng)期合作協(xié)議,在多個(gè)站點(diǎn)部署數(shù)萬(wàn)塊GPU,以支持其大模型的訓(xùn)練。這些企業(yè)的需求推動(dòng)了AI算力云巨頭如Coreweave和Crusoe等服務(wù)商的崛起,他們通過(guò)提供大規(guī)模的GPU集群,滿足這些客戶對(duì)高性能計(jì)算的需求。
此外,新興的AI初創(chuàng)企業(yè)雖然需求較小,但依然需要通過(guò)AI算力云獲取高效的訓(xùn)練資源。由于這些企業(yè)往往缺乏資金和技術(shù)能力自建基礎(chǔ)設(shè)施,因此他們更依賴AI算力云服務(wù)來(lái)靈活滿足訓(xùn)練需求。新興的AI算力云服務(wù)商專(zhuān)注于為這些中小型企業(yè)提供按需租賃和短期合同的算力支持,幫助他們完成模型的訓(xùn)練和微調(diào)。
在推理階段,AI模型需要在實(shí)際應(yīng)用場(chǎng)景中實(shí)時(shí)運(yùn)行,進(jìn)一步加大了對(duì)GPU資源的需求。尤其是大模型推理過(guò)程中,對(duì)算力的要求雖然相較訓(xùn)練任務(wù)有所降低,但仍需要強(qiáng)大的GPU集群支持,以確保低延遲和高效響應(yīng)。因此,AI算力云服務(wù)商不僅在模型訓(xùn)練階段提供算力支持,還在推理階段為企業(yè)提供高可用的GPU資源。
大模型推理過(guò)程
報(bào)告分析關(guān)注了市場(chǎng)需求、采購(gòu)流程、定價(jià)策略、價(jià)格趨勢(shì)以及總擁有成本(TCO)。特別強(qiáng)調(diào)了H100 GPU租賃價(jià)格的下降,以及與即將推出的Blackwell GPU相關(guān)的定價(jià)預(yù)期。報(bào)告指出,GPU租賃定價(jià)分為按需、現(xiàn)貨和長(zhǎng)期合同三種模式。按需租賃提供最大靈活性,但價(jià)格較高,通常用于開(kāi)發(fā)和推理任務(wù)。合同訂閱則適合長(zhǎng)期、大規(guī)模的訓(xùn)練任務(wù),并提供更具競(jìng)爭(zhēng)力的價(jià)格。最近,由于H100 GPU的供應(yīng)增長(zhǎng),租賃價(jià)格出現(xiàn)了明顯下降,尤其是在按需市場(chǎng),價(jià)格下降了20-30%。這一變化反映出市場(chǎng)上閑置GPU資源的增多,同時(shí)也預(yù)示著GPU租賃市場(chǎng)的激烈競(jìng)爭(zhēng)。隨著B(niǎo)lackwell GPU的推出,市場(chǎng)對(duì)H100的需求有可能發(fā)生進(jìn)一步變化,企業(yè)更傾向于簽訂短期合同,以應(yīng)對(duì)未來(lái)技術(shù)升級(jí)帶來(lái)的影響。
總體來(lái)看,AI算力云需求的驅(qū)動(dòng)來(lái)自于AI大模型的持續(xù)發(fā)展和企業(yè)對(duì)高效算力資源的迫切需求。展望未來(lái),AI算力云的市場(chǎng)規(guī)模將繼續(xù)擴(kuò)大,特別是隨著更強(qiáng)大的GPU產(chǎn)品如Blackwell的發(fā)布,市場(chǎng)的競(jìng)爭(zhēng)將更加激烈。