據(jù)華爾街日報12月3日報道,亞馬遜云計算部門Amazon Web Services(AWS)本周二宣布了兩項重要動態(tài),一是宣布打造由數(shù)十萬顆自研Trainium芯片組成的超級計算機集群“Ultracluster”;二是推出全新服務器“Ultraserver”。
亞馬遜云計算
“Ultracluster”是亞馬遜位于德克薩斯州奧斯汀的AI芯片設計實驗室研發(fā)的最新成果,AWS透露“Ultracluster”將用于支持AI初創(chuàng)企業(yè)Anthropic的模型訓練工作。Anthropic是亞馬遜投資的重點對象,并于近期獲得了亞馬遜追加的40億美元投資。
這個名為“Project Rainier”的集群項目將位于美國,預計將在2025年投入使用,屆時將成為全球最大的AI模型訓練集群之一。AWS表示,其Ultracluster項目的計算性能是Anthropic當前訓練集群的五倍,能夠顯著提升AI模型的訓練效率。
Ultraserver服務器由64顆自研芯片互聯(lián)組成,采用創(chuàng)新的設計架構(gòu),為客戶提供強大的算力支持。Ultraserver通過將64顆芯片集成到一個封裝中,組合了四臺服務器,每臺服務器包含16顆Trainium芯片,相比之下,某些Nvidia的GPU服務器僅包含8顆芯片.
AWS副總裁Dave Brown表示,為了使這些芯片協(xié)同工作為一臺服務器,AWS利用其網(wǎng)絡技術(shù)“NeuronLink”實現(xiàn)四臺服務器的高效通信,從而將計算能力提升至83.2 PetaFLOPS。AWS表示,從體積來看,Ultraserver更接近于冰箱大小的主機計算機,而非緊湊型個人電腦。
AWS的AI芯片布局始于2018年發(fā)布的Inferentia芯片,這是一款專門用于AI推理計算的芯片;2020年,推出首款AI模型訓練芯片Trainium;隨后在2023年發(fā)布了性能更強的Trainium2,目前已經(jīng)向客戶全面開放使用。據(jù)AWS透露,下一代Trainium3芯片及基于其的服務器正在開發(fā)中,其性能將達到當前版本的四倍。
據(jù)統(tǒng)計,2024年全球AI芯片市場規(guī)模達1175億美元,預計到2027年將增長至1933億美元,其中Nvidia占據(jù)約95%的市場份額。AWS首席執(zhí)行官Matt Garman表示:“目前在GPU領(lǐng)域,幾乎只有Nvidia一家選擇。但我們相信,客戶需要更多的選擇。”