UALink vs 乙太網路:AI資料中心新互聯技術

本文系統介紹了 Ultra Accelerator Link(UALink)— 面向 AI 資料中心的開放標準級擴展互聯技術,聚焦其技術定位、核心特性、標準規範、效能優勢及未來規劃。
一、技術背景:AI 大模型驅動互聯需求升級
隨著 AI 模型參數規模指數級增長(從百億級到萬億級突破),訓練與推理對算力、內存的需求呈爆發式上升,行業面臨兩大核心挑戰:單機櫃內擴展(Scale-Up)
需求:大模型推理需數十至數百個加速器(如 GPU)在單機櫃(Podale)內協同工作Pod 互聯,需開放、相容的互聯標準打破廠商壁壘,實現多設備協同。
在此背景下,UALink 作為開放產業標準互聯技術應運而生,旨在解決 「多加速器高效分散式協同」 問題,支撐 AI 模型從單機櫃到跨資料中心的全場景擴展。
二、UALink 核心定位與技術架構1. 核心定位:開放、相容的 AI 互聯標準
UALink 的核心目標是成為 AI 加速器互聯的 “通用語言”,具備三大關鍵屬性:
開放生態:任何廠商的 CPU、加速器(GPU/NPU)、交換機均可接入,打破 “廠商鎖定”,已有超 100 家成員單位(如阿里、AWS、谷歌、英特爾、微軟、騰騰、騰騰、中興等)。
全場景覆蓋:既支援單機櫃內 “Scale-Up”(數百個加速器協同),也可透過跨 Pod 互聯實現 “Scale-Out”(數萬個加速器集群),適配從中小規模推理到超大規模訓練的全需求;
技術繼承與創新:基於成熟的 Infinity Fabric 協議技術,融合以太網基礎設施優勢(例如重線連接器),

  1. 技術架構:分層設計,兼顧效能與簡化UALink 採用分層架構,從協定到實體層全面最佳化,確保低延遲、高可靠性:

三、UALink 200G 1.0 标准:核心规范与能力

1. 核心功能与关键参数

UALink 200G 1.0 是首个正式发布的规范版本,聚焦 “加速器、加速器直接互联”,核心能力如下:

  • 核心互联场景:支持加速器间内存共享,可直接执行 Load/Store/ 原子操作(如 GPU 间直接访问远端 HBM 内存),无需 CPU 中转;
  • 性能指标:单端口速率最高 200Gbps,单机柜内支持最多 1024 个加速器协同;端到端延迟优化至 350-400ns,接近 PCIe 交换机延迟,远超传统以太网;
  • 效率与成本优势:简化的链路栈设计减少芯片面积(降低成本),固定 FLIT 帧大小、ID 路由等技术降低交换机复杂度,功耗较传统方案显著降低;
  • 安全特性:支持端到端加密(Crypto)与机密计算(Confidential Compute),满足 AI 数据中心敏感数据传输需求。
  1. 典型應用架構
    UALink 透過 “單機櫃 Scale-Up + 跨機櫃 Scale-Out” 兩級互聯,建構 AI 叢集架構: Scale-Up(單機櫃):透過 UALink 交換器實現數百個加速器直接互聯,形成 「單層交換」 架構,減少轉送節點,降低延遲; Scale-Out(跨機櫃):多個 UALink 單櫃透過乙太網路核心交換器互聯,實現數萬個加速器協同,適配超大規模訓練場景; 介面相容:支援與 CXL、PCIe、 CHI 等現有介面協同,可無縫接取現有資料中心架構,無需大規模改造。
    四、性能優勢:比較乙太網路的核心突破
    UALink 在延遲、頻寬效率、吞吐量等關鍵指標上全面優於傳統以太網,尤其適配 AI 流量特性(小型資料包、高頻互動),具體對比如下:

核心原因 :UALink 透過 「固定 FLIT 訊框、ID 路由、簡化傳輸層」 等設計,減少乙太網路的封包封裝 / 解封裝、複雜路由運算開銷,尤其在 AI 小封包場景下優勢顯著。
五、 UALink 未來規劃
UALink 聯盟已明確短期技術路線圖,持續提升效能與場景適配能力:

128G 資料鏈路 / 物理層規範(2025 年 Q3):補充 128Gbps 速率選項,適配中低頻寬需求場景,平衡效能與成本;網內集合通訊(INC)規格(2025 年 Q4):支援加速器間 「全聚集(All-Gather)」集「全式通訊」(All-to-All)集,進一步提升128G/200G UCIe PHY 芯粒規範(開發中):推進芯粒( Chiplet )級互聯標準化,支援 2.0Tb/s 超高頻寬,適配未來高性能加速器的芯粒化整合需求; 多速率相容:物理層將支援 212G/106G/128G 多重寬頻速率,如同高配寬帶寬配寬帶)。
六、生態與落地:開放協作推動產業化
1. 生態建設:全產業鏈協同
UALink 生態已形成 「標準制定、產品研發、落地驗證」 的完整閉環,已發布 UALink 200G 1.0 規範文件與白皮書,供會員單位免費下載,加速產品適配與 interoperability(互通性)驗證。
2. 核心價值:推動 AI 互聯 “標準化”
UALink 的產業化落地將解決 AI 資料中心兩大關鍵痛點: 打破廠商壁壘:避免不同廠商加速器、交換機 「無法協同」 的問題,降低企業採購與運維成本; 釋放 AI 算力:透過低延遲、高頻寬互聯,減少加速器間通訊開銷,使擴展有效加速器 接近線性訓練模式(如 102 階以上)與大規模推理
作為 AI 資料中心的 UALink “業界標準級互聯技術”,透過開放生態、分層架構、效能最佳化,解決了多加速器協同的核心痛點,既適配單機櫃內推理的 “Scale-Up” 需求,也支撐跨資料中心訓練的 “Scale-Out” 需求。隨著 128G 規範、網內集合通訊等功能的推進,以及超 100 家產業鏈成員的協同,UALink 有望成為 AI 加速器互聯的 “通用語言”,推動 AI 數據中心從 “封閉廠商方案” 向 “開放標準生態” 轉型,為大模型技術的規模化落地提供關鍵互聯支撐。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注