UALink聯盟(UALink Consortium)正式成立,現已開放企業會員申請。
聯盟宣布首個技術規格UALink 1.0將於2025年第一季公開發布。
目前核心成員(Promoter Members)包括AMD、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨頭。
參考:UALink(Ultra Accelerator Link)
對話AMD CEO Lisa Su:解決難題UALink聯盟致力於制定開放標準和技術規範,推動AI加速器高速互連技術的產業化發展。
其核心目標是為大型語言模型(LLM)訓練和複雜運算任務提供GPU叢集互連解決方案。
這項開放標準旨在實現類似NVIDIA NVLink的GPU互連能力,但面向整個產業開放。
值得關注的是,聯盟匯聚了許多互為競爭對手的科技巨頭,他們選擇透過開放合作來推進AI及加速器運算工作負載的技術演進。
技術演進:CPU架構的瓶頸突破在高效能運算(HPC)領域,業界較早意識到傳統CPU架構的限制。
由於大規模平行運算能力和超高資料吞吐量,GPU在深度學習、基因組定序和大數據分析等領域的效能顯著優於CPU。
這種架構優勢和可程式特性使GPU成為AI運算的首選加速器平台。特別是在LLM規模每半年翻倍的發展態勢下,GPU的運算效率和處理速度優勢更為突出。
然而,在現有伺服器架構中,CPU作為系統主控,所有資料流都需要經過CPU進行路由轉送。
GPU必須透過PCIe匯流排與CPU連接。無論GPU運算效能多強,系統整體效能仍受制於CPU的資料路由能力。
隨著LLM和資料集規模的持續擴張,尤其在生成式AI(Generative AI)領域,這項架構瓶頸在大規模GPU叢集協同運算時表現得特別突出。
對於超大規模資料中心和前沿AI模型研發機構而言,如訓練GPT-4、Mistral或Gemini 1.5等模型的GPU叢集(通常由數千GPU節點跨機架部署),系統延遲已成為關鍵挑戰。
這項技術瓶頸不僅影響模型訓練,也為企業IT部門大規模部署生成式AI推理(Inference)服務帶來挑戰。
對於AI和HPC等運算密集型工作負載,CPU架構對系統及叢集效能的限制已顯著影響到運算效能、部署成本和推理精度等多個層面。 UALink技術解讀UALink聯盟致力於開發新一代加速器直連架構標準,實現加速器間繞過CPU的直接通訊。
此技術規範定義了一種創新的I/O架構,單通道可達200 Gbps傳輸速率,支援最多1024個AI加速器互連。
相較於傳統乙太網路(Ethernet)架構,UALink在效能和GPU互連規模上都具有顯著優勢,互連規模更是大幅超越Nvidia NVLink技術。
資料中心網路架構可分為三個層面:前端網路(Front-end Network)、縱向擴展網路(Scale-Up Network)和橫向擴展網路(Scale-Out Network)。
前端網路透過CPU上的乙太網路卡(NIC)連接廣域網,用於存取運算儲存叢集和外部網路。
後端網路專注於GPU互連,包含縱向擴展和橫向擴展兩個維度。 UALink主要應用於縱向擴展場景,支援數百GPU低延遲高頻寬互連。
而橫向擴展網路則透過專用網路卡和乙太網路技術支援超大規模GPU叢集(1萬至10萬級),這是Ultra Ethernet技術的主要應用領域。以Dell PowerEdge XE9680伺服器為例,單一伺服器最多支援8塊AMD Instinct或Nvidia HGX GPU。
採用UALink技術後,可實現百台級伺服器叢集內GPU的直接低延遲存取。隨著算力需求成長,使用者可透過Ultra Ethernet Consortium(UEC)技術實現更大規模擴充。
2023年,Broadcom、AMD、Intel和Arista等產業領導者成立UEC,致力於提升AI和HPC工作負載的效能、擴充性和互通性。 AMD近期發表的Pensando Pollara 400網路卡是首款符合UEC規範的產品。
參考:AMD發佈業界首款UEC就緒AI NICUltra Ethernet 規範更新UALink是實質的開放標準,而非針對Nvidia NVLink的競爭標準。
聯盟已組成專門工作小組,正在開發具體技術標準和解決方案。
核心成員已開始佈局底層技術,如Astera Labs推出的Scorpio系列交換晶片。
其中P-Series支援基於PCIe Gen 6的GPU-CPU互連(可客製化),X-Series專注於GPU-GPU互連。
這些基礎架構為未來支援UALink標準奠定了技術基礎。值得注意的是,UALink在加速器、交換晶片、Retimer等互連技術上保持中立立場,不偏向特定廠商,目標是建立開放創新的技術生態系統。
對企業IT管理者和CIO而言,UALink的價值在於提供更有效率的訓練和推理平台,具備自我管理和自我優化能力,同時降低TCO。 Nvidia NVLink與市場格局UALink的出現固然是對Nvidia市場主導地位的回應,但其更深層意義在於確保GPU互連這項關鍵技術不被單一廠商壟斷。
主流伺服器供應商Dell、HPE、Lenovo對UALink和NVLink的支援策略值得關注(目前Lenovo作為Contributor加入UALink聯盟,Dell尚未加入)。
NVLink採用專有訊號實現Nvidia GPU互連,而UALink支援多廠商加速器,並允許符合標準的廠商提供底層架構元件。
對伺服器廠商而言,支援多種互連標準確實增加了從設計、製造到認證、支援的成本。
雖然UALink方案具有吸引力,但考慮到Nvidia在市場中的強勁需求,預計短期內市場格局不會發生根本性變化。
資料中心計算的協同發展UALink聯盟的成立是產業重要里程碑,有助於解決AI模型訓練過程中日益複雜的技術挑戰。
隨著Astera Labs等廠商開發底層互連架構,Dell和HPE等公司建構配套硬體平台,這種技術創新將從AWS和Meta等超大規模用戶延伸到企業IT部門,推動AI技術的廣泛落地。
理想情況下,市場需要一個統一的加速器互連標準。目前,看到AMD、Intel、Google、AWS等競爭對手攜手推動開放標準,展現了產業協同創新的積極態勢。
———-參考資料:Kimball, Matt, and Patrick Moorhead. “Digging Into the Ultra Accelerator Link Consortium.” Forbes, November 7, 2024. https://www.forbes.com/sites/moorinsights/2024/11/07/digging-into-the-ul-tra-accelium.
发表回复