四問四答,徹底看懂智算中心!

 小枣君 鲜枣课堂

到底什麼是智算中心?

智算中心,就是以人工智慧運算任務為主的資料中心。

資料中心通常包含三種類別,除了智算中心以外,另外兩種分別是以通用計算任務為主的通算中心,以及以超級運算任務為主的超算中心。

自2023年以來,以ChatCPT、Sora為代表的AIGC大模型橫空出世,掀起了一股席捲全球的AI浪潮。

想要在AI浪潮中佔優勢,就必須擁有強勁的AI算力支撐。智算中心,作為AI算力的核心基礎設施,逐漸成為人們關注的焦點,也是產業重點建設的對象。

根據數據顯示,我國目前已經有包括武漢、成都、長沙、南京、呼和浩特等在內的20多個城市建設了智算中心。至2025年,國內智算中心數量將超過50個。

這些智算中心採用專門的AI算力硬件,適合高效運行AI演算法。它們可以應用於電腦視覺、自然語言處理、機器學習等領域,處理圖像辨識、語音辨識、文字分析、模型訓練推理等任務。

█ 智算伺服器,到底有什麼不同?

智算伺服器是智算中心的主要算力硬體。它和傳統通用伺服器最大的差別,在於算力晶片的不同。

傳統通用伺服器以CPU為主要晶片,有的配置了GPU(圖形處理單元)卡,也有的沒配。即便配置了,也數量不多(1-2塊),以完成傳統圖形處理任務(3D圖形渲染等)為主。

智算伺服器,為了保證的作業系統運行,也配置了CPU。但是,為了更好地完成AI計算任務,所以配置了更多的GPU、NPU(神經網路處理單元)、TPU(張量處理單元)等計算晶片(4塊或8塊),以這些晶片輸出的算力為主。

這種「CPU+GPU」、「CPU+NPU」的架構,也稱為「異構運算」架構,能夠充分發揮不同算力晶片在效能、成本和能耗上的優勢。

GPU、NPU、TPU的核心數量多,擅長平行運算。 AI演算法涉及大量的簡單矩陣運算任務,需要強大的平行運算能力。

在實際使用中,GPU、NPU、TPU會做成闆卡的形態,插入到智算伺服器的插槽中。等伺服器上電啟動後,再根據調度執行計算任務。

除了晶片不同之外,為了充分發揮效能以及保障穩定運行,AI伺服器在架構、儲存、散熱、拓樸等方面也進行了強化設計。
例如,智算伺服器的DRAM容量通常是普通伺服器的8倍,NAND容量是普通伺服器的3倍。甚至它的PCB電路板層數也明顯多於傳統伺服器。
瘋狂堆料,肯定也會帶來兩者之間的成本差異。一台智算伺服器的價格,可能會​​達到傳統通用伺服器的數十倍以上。
不久前,中國移動公示了2024年至2025年新型智算中心集採得標結果,採購智算服務器總規模達到8054台,中標總金額達到了約191.04億元人民幣(不含稅)。平均下來,每台的價格是237.2萬元。通用伺服器的價格,根據品牌和配置的不同,大約在1到10萬元之間。
受算力闆卡的影響,智算伺服器的功耗也明顯大於通用伺服器。
以英偉達GPU為例,A100單卡功耗400W,H100單卡功耗700W。配置了8張GPU的智算伺服器,光是GPU的熱功耗就能達到3.2~5.6 kW。傳統通用伺服器的話,也就0.3~0.5 kW左右。
從外型來看,智算伺服器和通用伺服器並沒有很大的差別。兩者都是標準架構,可以放入42U標準機架。如果內建了較多的AI算力闆卡,智算伺服器的厚度可能會稍微大一些,達到4U、5U甚至10U。
這裡要注意,根據工作任務的不同,智算伺服器也會分為訓練伺服器、推理伺服器或訓推一體伺服器。這些伺服器在架構和體型上會存在一些差異。一般來說,訓練伺服器會比推理伺服器更龐大一些(AI算力闆卡更多)。
                                                                                                                智算(訓練)伺服器外觀(中興通訊)

數據也可以說明問題。

雖然說AI智算發展迅速,但從機架數量規模來看,遠不如通算中心。

根據今年3月國家數據局在青海綠色算力推介會上揭露的數據,截至2023年底,全國在用數據中心機架總規模超過810萬標準機架(包括所有類型數據中心)。

智算中心機架數,目前沒有準確的資料來源。我們可以推算一下。

前面提到,到2025年,國內會有50個智算中心。以中國移動呼與浩特超大規模單體智算中心為例,部署伺服器總規模約2,950台,部署機架總規模為799架,算力闆卡1.9萬張,算力規模6.7EFLOPS。就算是50個智算中心都像呼和浩特這麼大,也是50×800=40000個機架。還不到2023年全國在用資料中心機架總數的零頭。

我們也可以從算力規模來計算。根據信通院的報告,到2025年,全國的算力總規模將達到320EFLOPS。其中,智算算力佔比要達到35%,也就是說,112EFLOPS。依呼和浩特智算中心的數據,單機架平均算力是6.7÷800=0.008375EFLOPS。 112EFLOPS就是112÷0.008375=13373個機架。

之所以會這樣,還是因為AI智算伺服器的算力比較強。雖然智算算力總體佔比看起來高,但機架數量和資料中心數量佔比並不會那麼多,估計不會超過10%。

█ 通算中心改成智算中心,可行嗎?

如今,在「雙碳」政策的指引下,新建資料中心核准趨嚴,現有合規資料中心資產稀缺。那麼,是否可以把通用資料中心改為智算中心呢?

答案是肯定的。

資料中心的使命,是為伺服器託管提供穩定的冷卻和供電環境。通算中心和智算中心都是資料中心,兩者的主要組成基本上是一致的。

一般來說,伺服器等IT算力設備以及交換器等通訊設備,屬於客戶自有資產,由客戶提供。資料中心服務商,負責建置與運作能夠確保伺服器等主設備正常運作的底層基礎支撐設備(也叫配套設備)。

資料中心樓宇佈局內的底層基礎支撐設備設施,依照業界的劃分,包括風(冷凍)、火(消防)、水(防潮)、電力(市電、不間斷電源、柴發)四大部分。或者,也可以分為供電系統、不間斷電源系統、終端配電系統、電源輔助系統和空調系統等。

如下圖所示:

图片来源:通信电源人

前面我們提到,智算伺服器的功耗比通用伺服器高。在智算中心,單機櫃功率密度通常也會高於傳統資料中心。根據相關機構的數據,智算中心的單機櫃功率密度需要超過30kW,甚至達到100kW以上,而傳統資料中心的密度一般在6kW~15kW之間。

智算中心的單機櫃功率密度高,改造為智算中心,要事先將資料中心的整體供電能力重新計算與設計。

如果不需要擴容,那就簡單了。整個改造就以末端改造為主,就是撤掉傳統通用伺服器,重新上架智算伺服器以及相關網路設備,重新佈線。
如果需要擴容,意味著同樣的面積下,機櫃產出更多,改造涉及到供電和製冷系統相關配套設備的採購和安裝,會帶來更多的工作量,也需要更長的改造週期。

擴容改造也肯定會帶來一些成本負擔。是否需要將傳統通算中心改造為智算中心,除了前面提到的限制新建等客觀因素外,就是看投入產出比。也就是說,改造後的智算中心,是否能帶來更大的經濟效益回報。

█ 最後的話

資料中心是重要的ICT基礎設施,也是整個社會的算力底座。它源源不絕地輸出算力,滿足我們數位生活的需要,也支撐了千行百業的發展。

隨著時間的推移,AI浪潮將會從狂熱回歸理性,智算中心的建設也會趨緩。如何充分利用好已有的智算資源,讓AI產生價值回報,將會成為更重要、更迫切的任務。

合理佈局通算、智算以及超算,建構多種算力類型協同發展的格局,將為數位經濟的起飛奠定更牢靠的基礎,也會推動了整個社會加速邁入智慧時代。

This entry was posted in News.

发表评论

邮箱地址不会被公开。 必填项已用*标注


*

在线客服系统