智算中心、千卡智算中心、萬卡智算中心集群……智算中心越建越多,規(guī)模越來越大,然而對于AI大模型的發(fā)展需求來說,當(dāng)前的智能算力供給體系在技術(shù)、成本和生態(tài)等方面均存在著必須面對的挑戰(zhàn),如何發(fā)揮出智算中心數(shù)量、規(guī)模對應(yīng)的效能,對行業(yè)來說一直都是一個難題。
日前,尋找數(shù)字產(chǎn)業(yè)「新質(zhì)生產(chǎn)力」行動計劃工作組聯(lián)合國內(nèi)權(quán)威機構(gòu)、產(chǎn)業(yè)機構(gòu)及官方媒體共同發(fā)起“尋找數(shù)字產(chǎn)業(yè)「新質(zhì)生產(chǎn)力」行動計劃”,并于2024年6月率先啟動了“AI大模型應(yīng)用場景”產(chǎn)學(xué)研融通創(chuàng)新活動。
本活動由中國科協(xié)企業(yè)創(chuàng)新服務(wù)中心主辦,中關(guān)村產(chǎn)業(yè)技術(shù)聯(lián)盟聯(lián)合會、中國通信工業(yè)協(xié)會數(shù)據(jù)中心委員會(CIDC)承辦,數(shù)字開物與IDC圈協(xié)辦。眾多業(yè)界專家在研討會上,深入探討了AI大模型在實際應(yīng)用中的機遇與挑戰(zhàn),并就當(dāng)前產(chǎn)業(yè)發(fā)展面臨的問題提出了各自的思考。
高端算力緊缺
算力、算法、數(shù)據(jù),在人工智能的三大要素中,算力處于最基礎(chǔ)的關(guān)鍵位置,沒有足夠的算力支撐,人工智能的涌現(xiàn)也就無從談起。根據(jù)scaling law原則,三大要素中任何一點的短板,也會讓大模型的效能急劇下降。
當(dāng)前,國內(nèi)智能算力缺口嚴(yán)重,尤其是高端算力不足。工信部數(shù)據(jù)顯示,中美兩國算力占全球總算力比例分別為35%、31%,相差不多。但智能算力比例,美國占45%,中國占比則只有28%,差距巨大。高端算力的不足導(dǎo)致的直接后果就是中國千億以上參數(shù)大模型訓(xùn)練,會因為缺少高端算力,大模型訓(xùn)練受影響。
當(dāng)前,提供算力最直接方式就是建設(shè)更多數(shù)量、更大規(guī)模的智算中心。據(jù)IDC圈報道,截止7月末,我國擬建、在建以及建成智算中心已經(jīng)多達399座,其中號稱萬卡集群有16座。與此同時,國資委、各地方政府不斷出臺各種措施和政策,鼓勵、推動智算中心的建設(shè)加速,互聯(lián)網(wǎng)企業(yè)、上市公司等企業(yè)也紛紛參與其中。
但從整體看,如何讓千卡、萬卡,甚至未來可能出現(xiàn)的十萬卡、百萬卡集群發(fā)揮出應(yīng)有的算力,讓集群性能隨著規(guī)模成線性增長,在當(dāng)前還是一個無解的難題。目前包括騰訊、華為等互聯(lián)網(wǎng)企業(yè)以及三大運營商等均在研究適合自身的萬卡集群模式,希望通過技術(shù)創(chuàng)新來突破這一瓶頸。
此外,國內(nèi)算力還面臨高端芯片緊缺與芯片生態(tài)不完善的問題。從另一個角度講,國內(nèi)當(dāng)前芯片類型多樣,促進了多元異構(gòu)算力的發(fā)展,解決了異構(gòu)算力管理和互聯(lián)問題,那么國內(nèi)也可能建立起更加穩(wěn)固、高效的多元異構(gòu)算力體系。
高昂的投入與回報的不確定性
目前,國內(nèi)智能算力的獲取和運營成本一直居高不下。一方面,智算中心建設(shè)及高性能GPU和云計算平臺等硬件資源的價格昂貴;另一方面,大規(guī)模的數(shù)據(jù)處理和模型訓(xùn)練也需要消耗大量的電力和人力資源。這些高昂的成本使得許多企業(yè)和研究機構(gòu)在算力投入上望而卻步。
而相比于算力的難于獲取與成本高昂,算力建設(shè)的成本回報也不樂觀。國內(nèi)智算中心建設(shè)雖多,但布局分散、互無統(tǒng)屬、平臺不完善,導(dǎo)致算力難以按需分配和調(diào)度。一方面算力難找,一方面客戶難求,“找客戶”成為算力需求節(jié)節(jié)攀升之下的詭異難題。
此外,算力建設(shè)投入成本高,而技術(shù)更新?lián)Q代迅速,市場需求變化莫測,企業(yè)很難準(zhǔn)確預(yù)測投入算力后的回報情況。這種不確定性使得許多企業(yè)在算力投入上持謹(jǐn)慎態(tài)度,從而影響了整個產(chǎn)業(yè)的發(fā)展速度。
智算生態(tài):既是方案,也是挑戰(zhàn)
從整體的層面看,當(dāng)前我國智算發(fā)展面臨的難題都可以歸結(jié)為產(chǎn)業(yè)生態(tài)不完善所導(dǎo)致。所以建設(shè)一個適合我國產(chǎn)業(yè)需求的智算生態(tài),也是實現(xiàn)智算產(chǎn)業(yè)高質(zhì)量發(fā)展的最佳解決路徑。
然而,當(dāng)前智能算力產(chǎn)業(yè)的生態(tài)建設(shè)卻相對滯后于技術(shù)發(fā)展。從本次“AI大模型應(yīng)用場景”產(chǎn)業(yè)問題專家研討會上征集到的問題看,從芯片供給,到智算中心建設(shè),到平臺運營,到人才培育,都有很多難題等待解決。
高端算力技術(shù)不可控
智能算力消納難
分布式AI基礎(chǔ)設(shè)施如何高效整合
算力中心設(shè)備產(chǎn)業(yè)鏈的互聯(lián)互通
新能源電力系統(tǒng)的穩(wěn)定與安全
專業(yè)智算生態(tài)運營公司的缺乏
算力市場和服務(wù)市場“碎片化”加劇
人才培養(yǎng)與引入……
……
(2024產(chǎn)學(xué)研融通創(chuàng)新活動—AI大模型應(yīng)用場景專場產(chǎn)業(yè)問題榜單)
提出問題,是為了更好的解決問題。我國智能算力產(chǎn)業(yè)在技術(shù)創(chuàng)新、成本控制和生態(tài)建設(shè)等方面都面臨著諸多挑戰(zhàn)。同時,這些挑戰(zhàn)也孕育著新的機遇和發(fā)展空間。當(dāng)前,“產(chǎn)學(xué)研融通創(chuàng)新活動”持續(xù)征集產(chǎn)業(yè)優(yōu)秀案例和解決方案,如果您或您的企業(yè)有解決當(dāng)前智算發(fā)展難題、助力智算產(chǎn)業(yè)發(fā)展的產(chǎn)品、技術(shù)等,請掃描下方二維碼,留下您的產(chǎn)品信息和聯(lián)系方式,共同推動我國智算產(chǎn)業(yè)高質(zhì)量發(fā)展。
“AI大模型應(yīng)用場景”產(chǎn)學(xué)研融通創(chuàng)新活動優(yōu)秀案例申報