作者: admin

  • 配錯交換器別重敲! 3步驟配置回滾,比重配快10倍

    轉自網絡工程師訓練營

    第一步:先存配置!改之前留後悔藥
    不管改啥配置,先敲save儲存目前狀態,設備會把配置存到vrpcfg.zip檔裡。這跟改監控主機設定前先備份一樣,留個後悔藥,萬一改崩了能直接回滾。

    要是改配置前忘了存,也能找最近的自動儲存文件,華為設備預設會定時保存,不過手動存更靠譜,養成改前存的習慣。

    第二步:查歷史設定文件,找到能回滾的版本
    敲dir /all,能看到設備裡的設定文件,例如vrpcfg.zip(目前已儲存的)、vrpcfg-bak.zip(備份的)。
    找到你要回滾的版本,記好檔名。
    這跟找電腦的系統還原點一樣,選一個沒問題的設定版本,別選錯了舊的無效設定。

    第三步:執行回滾指令,1分鐘恢復配置
    敲startup saved-configuration vrpcfg-bak.zip,指定下次啟動用備份的設定文件,然後敲reboot重新啟動裝置。
    重新啟動後,裝置就會載入備份的配置,之前配錯的內容全沒了,回到正常狀態。
    要是不想重新啟動(例如核心設備),也能透過rollback configuration指令回滾最近的幾次設定變更,適合小範圍改錯的情況。
    配置回滾是轉行網工的保命技能,跟咱恢復電腦系統的邏輯一模一樣,操作簡單還能省大量時間。
    以後配設備再也不怕改崩,先存再改,錯了就回滾,穩得很。

  • 全球 11 家類似思科的網路公司有哪些?

    身為網路設備領域的領導企業,思科系統公司(Cisco Systems)以其路由器、交換器、安全解決方案和雲端網路服務聞名於世。
    思科成立於1984年,總部位於美國加州聖荷西,已發展成為市值超過2,000億美元的科技巨頭,其產品廣泛應用於企業、資料中心和電信領域。
    隨著5G、AI、雲端運算和邊緣運算的快速發展,網路產業競爭日益激烈。
    本文將介紹全球11家類似思科的網路公司,這些公司在硬體、軟體和服務方面與思科直接競爭或互補。
    我們將從每家公司的歷史、主要產品、市場地位以及2025年的最新動態入手,幫助讀者了解網路產業的多樣性和創新趨勢。
    Juniper Networks
    Juniper Networks成立於1996年,總部位於美國加州桑尼維爾。
    該公司最初專注於高效能路由器,以挑戰思科在IP網路領域的壟斷。
    Juniper的核心技術源自於其創辦人Pradeep Sindhu的創新理念,強調軟體定義網路(SDN)和自動化。
    早期,Juniper透過推出MX系列路由器和EX系列交換器迅速崛起,服務於電信業者和大型企業。
    Juniper的主要產品包括路由器、交換器、安全設備和AI驅動的網路管理平台,如Mist AI
    該平台利用機器學習實現網路自動化和故障預測,深受雲端供應商青睞。
    在安全領域,Juniper的SRX系列防火牆提供進階威脅防護,與思科的ASA系列類似。
    進入2025年,Juniper的市場地位進一步鞏固。
    根據Gartner的2025 Magic Quadrant報告,Juniper在企業有線和無線LAN基礎設施領域被評為領導者,位於「執行能力」和「願景完整性」最高位置。
    公司報告顯示,第一季營收強勁成長,總產品訂單較去年同期成長近40%。
    儘管2024年收入略有下降,但2025年預計透過雲端投資和AI-native資料中心網路實現反彈。
    Juniper在800GbE OEM交換器市場領先,並在AI驅動自動化領域擴展。 與思科相比,Juniper更注重開放標準和多雲集成,目前市佔率約6.86%,位居產業前列。
    然而,待定的HPE收購可能改變其獨立地位。 Juniper的創新在於其「AI-native」策略,2025年Mist平台繼續主導自治網路市場。
    公司在永續性方面也表現出色,透過高效硬體減少能耗。整體而言,Juniper是思科在高階路由和安全領域的強大對手。
    HPE Aruba
    HPE Aruba是惠普企業(Hewlett Packard Enterprise)旗下的網路部門,前身是Aruba Networks,於2002年成立於美國加州。
    Aruba專注於無線網路解決方案,2015年被HPE收購後,與HPE的網路產品線整合,形成完整的端對端網路平台。
    歷史上的Aruba以其無線存取點和控制器聞名,幫助企業實現行動轉型。
    主要產品包括Aruba Central雲端管理平台、交換器、無線LAN和邊緣安全解決方案。
    Aruba的AI Ops功能可最佳化網路效能,與思科的Meraki類似,提供統一的有線/無線管理。
    2025年,HPE Aruba的市場表現強勁。該公司第三季營收創紀錄達到91億美元,包括Juniper收購貢獻。
    Aruba Networking部門營收成長10.7%。 在Gartner評估中,HPE Aruba被評為企業網路領導者。
    該公司強調AI和自動化,在Discover 2025會議上展示了跨組合自動化和可觀測性。
    市場預測顯示,HPE整體營收成長4.8%,Azure整合增強其雲端競爭力。 與思科相比,HPE Aruba在企業無線市場佔有率更高,尤其在教育和醫療領域。
    HPE的策略重點是與Juniper的整合,2025年SAM會議上宣布了聯合產品願景。 這將加強HPE在資料中心和邊緣運算的地位。公司也推出新品牌,強調創新和獲利擴展。
    整體上,HPE Aruba是思科在無線和雲端管理領域的關鍵競爭者。 Huawei
    華為成立於1987年,總部位於中國深圳。
    從電信設備起步,華為迅速擴展到網路硬體和軟體領域。早期依賴低成本路由器進入全球市場,現已成為5G和雲端網路領導者。
    儘管面臨地緣政治挑戰,華為堅持創新,透過HarmonyOS和雲端服務多元化。主要產品包括NE系列路由器、S系列交換器、NetEngine系列和雲端Fabric資料中心解決方案。華為的網路安全產品如USG防火牆,與思科的整合安全類似。
    2025年,華為在Gartner Magic Quadrant中被評為企業有線/無線LAN領導者。 公司推出14款新產品和兩項技術白皮書,針對商業市場。 全球數位指數報告顯示,華為驅動AI轉型。
    在亞太智慧型手機市場佔有率中,華為佔顯著比例。 與思科相比,華為在電信和新興市場更強,路由器市佔率第三。華為的全球化策略包括Partner2Connect聯盟,到2025年連結1.2億偏遠人口。
    公司強調技術創新和敏捷策略,在商業市場涵蓋教育、醫療等領域。 儘管制裁影響,華為仍是思科的主要全球對手。
    Arista Networks
    Arista Networks成立於2004年,總部位於美國加州聖克拉拉。由前思科高層創立,專注於資料中心網絡,強調可程式性和高效能交換器。
    主要產品包括EOS作業系統、CloudVision管理和7000系列交換機,支援雲端和AI工作負載。
    2025年,Arista第三季營收23.08億美元,年增27.5%。 第一季營收首次超20億美元。 Gartner領導者像限認可其多元化。 市佔率10.62%,AI收入預計15億美元。
    Arista在AI資料中心領先,與思科競爭激烈。公司目標到2027年中184美元股價,強調高成長。
    Arista是思科在雲端網路領域的強勁挑戰者。 NETGEARNETGEAR成立於1996年,總部位於美國加州聖荷西。起初聚焦消費網路設備,後來擴展到中小企業市場。主要產品包括路由器、交換器和Orbi Wi-Fi系統,支援智慧家庭和企業級網路。
    2025年,營收6.74億美元,下降9.1%。 第三季營收強勁,企業部門成長15.7%。 市場估值39美元,強調成長驅動。
    與思科相比,NETGEAR更注重消費和SMB市場。公司推出Nighthawk 5G熱點,擴展行動連線。
    NETGEAR是思科在入門網路的替代品。
    VMware
    VMware成立於1998年,總部位於美國加州帕洛阿爾托。以虛擬化軟體聞名,後來擴及網路領域。
    2023年被Broadcom收購。主要產品包括NSX網路虛擬化和Tanzu平台,支援SDN和多雲。
    2025年,VMware Explore會議強調Cloud Foundation 9.0。 Gartner領導者認可其混合基礎設施。
    市場規模預估2025年948億美元。 與思科相比,VMware更強於軟體定義網路。 Broadcom定價策略推動25%成長,但引發客戶流失。
    VMware是思科在虛擬化領域的夥伴與對手。
    Extreme Networks
    Extreme Networks成立於1996年,總部位於美國北卡羅萊納州。專注於企業網路管理,透過收購擴展產品線。主要產品包括Fabric Connect和ExtremeCloud IQ,提供端對端網路。 2025年,第四季營收3.07億美元,成長19.6%。 SaaS ARR成長24%。 IDC MarketScape領導者。
    與思科相比,Extreme在無線LAN更具競爭力。推出Platform One AI平台。 Extreme是思科在中階市場的替代品。
    Dell Technologies
    Dell Technologies成立於1984年,總部位於美國德州。透過EMC收購進入網路領域。主要產品包括PowerSwitch交換器和PowerEdge伺服器,支援AI和儲存。
    2025年,伺服器收入66.34億美元。 Gartner領導者像限。 營收956億美元,成長8%。 AI伺服器市場領先。 與思科相比,Dell在基礎架構整合更強。 Dell AI Factory強調可擴展性。
    Dell是思科在資料中心網路的競爭者。
    Lenovo
    Lenovo成立於1984年,總部位於中國北京。從PC擴展到資料中心網路。主要產品包括ThinkSystem伺服器和網路設備,支援AI基礎設施。
    2025年,第二季營收創紀錄。 收入188億美元,成長20%。 伺服器市佔率超20%。 與思科相比,Lenovo在新興市場更具優勢。 Gartner供應鏈前25。
    Lenovo是思科在硬體多樣化的對手。
    Microsoft
    Microsoft Azure成立於2010年,是雲端運算平台,網路服務為其核心。主要產品包括Azure Virtual Network和Azure Firewall,支援SDN。
    2025年,Azure營收超750億美元,成長34%。 市佔率24%。 Gartner領導者。
    與思科相比,Microsoft在雲端網路主導。 Build 2025宣布AI Foundry。
    Microsoft是思科的雲端夥伴兼競爭者。
    NVIDIA
    NVIDIA成立於1993年,總部位於美國加州。從GPU擴展到網絡,透過收購Mellanox進入。主要產品包括InfiniBand和Ethernet交換機,支援AI資料中心。
    2025年,第三季營收570億美元。 資料中心收入391億美元。 網路收入成長雙位數。
    與思科相比,NVIDIA在AI網路領先。 Blackwell平台創紀錄。
    NVIDIA是思科在高效能運算的對手。

  • UALink vs 乙太網路:AI資料中心新互聯技術

    本文系統介紹了 Ultra Accelerator Link(UALink)— 面向 AI 資料中心的開放標準級擴展互聯技術,聚焦其技術定位、核心特性、標準規範、效能優勢及未來規劃。
    一、技術背景:AI 大模型驅動互聯需求升級
    隨著 AI 模型參數規模指數級增長(從百億級到萬億級突破),訓練與推理對算力、內存的需求呈爆發式上升,行業面臨兩大核心挑戰:單機櫃內擴展(Scale-Up)
    需求:大模型推理需數十至數百個加速器(如 GPU)在單機櫃(Podale)內協同工作Pod 互聯,需開放、相容的互聯標準打破廠商壁壘,實現多設備協同。
    在此背景下,UALink 作為開放產業標準互聯技術應運而生,旨在解決 「多加速器高效分散式協同」 問題,支撐 AI 模型從單機櫃到跨資料中心的全場景擴展。
    二、UALink 核心定位與技術架構1. 核心定位:開放、相容的 AI 互聯標準
    UALink 的核心目標是成為 AI 加速器互聯的 “通用語言”,具備三大關鍵屬性:
    開放生態:任何廠商的 CPU、加速器(GPU/NPU)、交換機均可接入,打破 “廠商鎖定”,已有超 100 家成員單位(如阿里、AWS、谷歌、英特爾、微軟、騰騰、騰騰、中興等)。
    全場景覆蓋:既支援單機櫃內 “Scale-Up”(數百個加速器協同),也可透過跨 Pod 互聯實現 “Scale-Out”(數萬個加速器集群),適配從中小規模推理到超大規模訓練的全需求;
    技術繼承與創新:基於成熟的 Infinity Fabric 協議技術,融合以太網基礎設施優勢(例如重線連接器),

    1. 技術架構:分層設計,兼顧效能與簡化UALink 採用分層架構,從協定到實體層全面最佳化,確保低延遲、高可靠性:

    三、UALink 200G 1.0 标准:核心规范与能力

    1. 核心功能与关键参数

    UALink 200G 1.0 是首个正式发布的规范版本,聚焦 “加速器、加速器直接互联”,核心能力如下:

    • 核心互联场景:支持加速器间内存共享,可直接执行 Load/Store/ 原子操作(如 GPU 间直接访问远端 HBM 内存),无需 CPU 中转;
    • 性能指标:单端口速率最高 200Gbps,单机柜内支持最多 1024 个加速器协同;端到端延迟优化至 350-400ns,接近 PCIe 交换机延迟,远超传统以太网;
    • 效率与成本优势:简化的链路栈设计减少芯片面积(降低成本),固定 FLIT 帧大小、ID 路由等技术降低交换机复杂度,功耗较传统方案显著降低;
    • 安全特性:支持端到端加密(Crypto)与机密计算(Confidential Compute),满足 AI 数据中心敏感数据传输需求。
    1. 典型應用架構
      UALink 透過 “單機櫃 Scale-Up + 跨機櫃 Scale-Out” 兩級互聯,建構 AI 叢集架構: Scale-Up(單機櫃):透過 UALink 交換器實現數百個加速器直接互聯,形成 「單層交換」 架構,減少轉送節點,降低延遲; Scale-Out(跨機櫃):多個 UALink 單櫃透過乙太網路核心交換器互聯,實現數萬個加速器協同,適配超大規模訓練場景; 介面相容:支援與 CXL、PCIe、 CHI 等現有介面協同,可無縫接取現有資料中心架構,無需大規模改造。
      四、性能優勢:比較乙太網路的核心突破
      UALink 在延遲、頻寬效率、吞吐量等關鍵指標上全面優於傳統以太網,尤其適配 AI 流量特性(小型資料包、高頻互動),具體對比如下:

    核心原因 :UALink 透過 「固定 FLIT 訊框、ID 路由、簡化傳輸層」 等設計,減少乙太網路的封包封裝 / 解封裝、複雜路由運算開銷,尤其在 AI 小封包場景下優勢顯著。
    五、 UALink 未來規劃
    UALink 聯盟已明確短期技術路線圖,持續提升效能與場景適配能力:

    128G 資料鏈路 / 物理層規範(2025 年 Q3):補充 128Gbps 速率選項,適配中低頻寬需求場景,平衡效能與成本;網內集合通訊(INC)規格(2025 年 Q4):支援加速器間 「全聚集(All-Gather)」集「全式通訊」(All-to-All)集,進一步提升128G/200G UCIe PHY 芯粒規範(開發中):推進芯粒( Chiplet )級互聯標準化,支援 2.0Tb/s 超高頻寬,適配未來高性能加速器的芯粒化整合需求; 多速率相容:物理層將支援 212G/106G/128G 多重寬頻速率,如同高配寬帶寬配寬帶)。
    六、生態與落地:開放協作推動產業化
    1. 生態建設:全產業鏈協同
    UALink 生態已形成 「標準制定、產品研發、落地驗證」 的完整閉環,已發布 UALink 200G 1.0 規範文件與白皮書,供會員單位免費下載,加速產品適配與 interoperability(互通性)驗證。
    2. 核心價值:推動 AI 互聯 “標準化”
    UALink 的產業化落地將解決 AI 資料中心兩大關鍵痛點: 打破廠商壁壘:避免不同廠商加速器、交換機 「無法協同」 的問題,降低企業採購與運維成本; 釋放 AI 算力:透過低延遲、高頻寬互聯,減少加速器間通訊開銷,使擴展有效加速器 接近線性訓練模式(如 102 階以上)與大規模推理
    作為 AI 資料中心的 UALink “業界標準級互聯技術”,透過開放生態、分層架構、效能最佳化,解決了多加速器協同的核心痛點,既適配單機櫃內推理的 “Scale-Up” 需求,也支撐跨資料中心訓練的 “Scale-Out” 需求。隨著 128G 規範、網內集合通訊等功能的推進,以及超 100 家產業鏈成員的協同,UALink 有望成為 AI 加速器互聯的 “通用語言”,推動 AI 數據中心從 “封閉廠商方案” 向 “開放標準生態” 轉型,為大模型技術的規模化落地提供關鍵互聯支撐。

  • Nvidia成全球首家市值達五兆美元公司

    Nvidia(英偉達)週三創造了歷史,成為首家市值達到五萬億美元的公司,這場驚人的股價飆升鞏固了其在全球人工智慧浪潮中的核心地位。
    這一里程碑凸顯了該公司從一個小眾圖形晶片設計公司迅速轉變為全球人工智慧產業的中堅力量,使執行長黃仁勳(黃仁勳)成為矽谷代表性人物,並使其先進的晶片成為中美科技競爭的熱點。
    自2022年ChatGPT問世以來,英偉達股價已飆漲12倍,推動標普500指數屢創新高,也引發市場對科技估值泡沫的討論。
    在英偉達市值突破4兆美元大關僅三個月後,此次突破5兆美元標誌著已超越全球加密貨幣總市值,約等於歐洲指標股指史托克600指數的一半。
    黃仁勳週二公佈了 5,000 億美元的人工智慧晶片訂單,並表示計劃為美國政府建造七台超級電腦。
    同時,該公司Blackwell晶片的銷售因美國出口管製成為中美科技競爭的關鍵議題之一。

    股價大漲,黃仁勳財富暴增
    根據監管文件與路透社的估算,以目前股價計算,Nvidia執行長黃仁勳持股價值約1,792億美元,使他成為《富比士》全球富豪榜上的第八名。
    雖然 Nvidia 仍是人工智慧競賽中當之無愧的領跑者,但蘋果和微軟等大科技公司近幾個月的市值也已突破 4 兆美元。
    分析師稱,這一漲勢反映了投資者對人工智慧支出持續成長的信心,但也有分析師警告稱,估值可能已經過熱。

  • GPU互連新標準:UALink聯盟能否打破NVIDIA壟斷?

    UALink聯盟(UALink Consortium)正式成立,現已開放企業會員申請。
    聯盟宣布首個技術規格UALink 1.0將於2025年第一季公開發布。
    目前核心成員(Promoter Members)包括AMD、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨頭。
    參考:UALink(Ultra Accelerator Link)
    對話AMD CEO Lisa Su:解決難題UALink聯盟致力於制定開放標準和技術規範,推動AI加速器高速互連技術的產業化發展。
    其核心目標是為大型語言模型(LLM)訓練和複雜運算任務提供GPU叢集互連解決方案。
    這項開放標準旨在實現類似NVIDIA NVLink的GPU互連能力,但面向整個產業開放。
    值得關注的是,聯盟匯聚了許多互為競爭對手的科技巨頭,他們選擇透過開放合作來推進AI及加速器運算工作負載的技術演進。
    技術演進:CPU架構的瓶頸突破在高效能運算(HPC)領域,業界較早意識到傳統CPU架構的限制。
    由於大規模平行運算能力和超高資料吞吐量,GPU在深度學習、基因組定序和大數據分析等領域的效能顯著優於CPU。
    這種架構優勢和可程式特性使GPU成為AI運算的首選加速器平台。特別是在LLM規模每半年翻倍的發展態勢下,GPU的運算效率和處理速度優勢更為突出。
    然而,在現有伺服器架構中,CPU作為系統主控,所有資料流都需要經過CPU進行路由轉送。
    GPU必須透過PCIe匯流排與CPU連接。無論GPU運算效能多強,系統整體效能仍受制於CPU的資料路由能力。
    隨著LLM和資料集規模的持續擴張,尤其在生成式AI(Generative AI)領域,這項架構瓶頸在大規模GPU叢集協同運算時表現得特別突出。
    對於超大規模資料中心和前沿AI模型研發機構而言,如訓練GPT-4、Mistral或Gemini 1.5等模型的GPU叢集(通常由數千GPU節點跨機架部署),系統延遲已成為關鍵挑戰。
    這項技術瓶頸不僅影響模型訓練,也為企業IT部門大規模部署生成式AI推理(Inference)服務帶來挑戰。
    對於AI和HPC等運算密集型工作負載,CPU架構對系統及叢集效能的限制已顯著影響到運算效能、部署成本和推理精度等多個層面。 UALink技術解讀UALink聯盟致力於開發新一代加速器直連架構標準,實現加速器間繞過CPU的直接通訊。
    此技術規範定義了一種創新的I/O架構,單通道可達200 Gbps傳輸速率,支援最多1024個AI加速器互連。
    相較於傳統乙太網路(Ethernet)架構,UALink在效能和GPU互連規模上都具有顯著優勢,互連規模更是大幅超越Nvidia NVLink技術。
    資料中心網路架構可分為三個層面:前端網路(Front-end Network)、縱向擴展網路(Scale-Up Network)和橫向擴展網路(Scale-Out Network)。
    前端網路透過CPU上的乙太網路卡(NIC)連接廣域網,用於存取運算儲存叢集和外部網路。
    後端網路專注於GPU互連,包含縱向擴展和橫向擴展兩個維度。 UALink主要應用於縱向擴展場景,支援數百GPU低延遲高頻寬互連。
    而橫向擴展網路則透過專用網路卡和乙太網路技術支援超大規模GPU叢集(1萬至10萬級),這是Ultra Ethernet技術的主要應用領域。以Dell PowerEdge XE9680伺服器為例,單一伺服器最多支援8塊AMD Instinct或Nvidia HGX GPU。
    採用UALink技術後,可實現百台級伺服器叢集內GPU的直接低延遲存取。隨著算力需求成長,使用者可透過Ultra Ethernet Consortium(UEC)技術實現更大規模擴充。
    2023年,Broadcom、AMD、Intel和Arista等產業領導者成立UEC,致力於提升AI和HPC工作負載的效能、擴充性和互通性。 AMD近期發表的Pensando Pollara 400網路卡是首款符合UEC規範的產品。
    參考:AMD發佈業界首款UEC就緒AI NICUltra Ethernet 規範更新UALink是實質的開放標準,而非針對Nvidia NVLink的競爭標準。
    聯盟已組成專門工作小組,正在開發具體技術標準和解決方案。
    核心成員已開始佈局底層技術,如Astera Labs推出的Scorpio系列交換晶片。
    其中P-Series支援基於PCIe Gen 6的GPU-CPU互連(可客製化),X-Series專注於GPU-GPU互連。
    這些基礎架構為未來支援UALink標準奠定了技術基礎。值得注意的是,UALink在加速器、交換晶片、Retimer等互連技術上保持中立立場,不偏向特定廠商,目標是建立開放創新的技術生態系統。
    對企業IT管理者和CIO而言,UALink的價值在於提供更有效率的訓練和推理平台,具備自我管理和自我優化能力,同時降低TCO。 Nvidia NVLink與市場格局UALink的出現固然是對Nvidia市場主導地位的回應,但其更深層意義在於確保GPU互連這項關鍵技術不被單一廠商壟斷。
    主流伺服器供應商Dell、HPE、Lenovo對UALink和NVLink的支援策略值得關注(目前Lenovo作為Contributor加入UALink聯盟,Dell尚未加入)。
    NVLink採用專有訊號實現Nvidia GPU互連,而UALink支援多廠商加速器,並允許符合標準的廠商提供底層架構元件。
    對伺服器廠商而言,支援多種互連標準確實增加了從設計、製造到認證、支援的成本。
    雖然UALink方案具有吸引力,但考慮到Nvidia在市場中的強勁需求,預計短期內市場格局不會發生根本性變化。
    資料中心計算的協同發展UALink聯盟的成立是產業重要里程碑,有助於解決AI模型訓練過程中日益複雜的技術挑戰。
    隨著Astera Labs等廠商開發底層互連架構,Dell和HPE等公司建構配套硬體平台,這種技術創新將從AWS和Meta等超大規模用戶延伸到企業IT部門,推動AI技術的廣泛落地。
    理想情況下,市場需要一個統一的加速器互連標準。目前,看到AMD、Intel、Google、AWS等競爭對手攜手推動開放標準,展現了產業協同創新的積極態勢。
    ———-參考資料:Kimball, Matt, and Patrick Moorhead. “Digging Into the Ultra Accelerator Link Consortium.” Forbes, November 7, 2024. https://www.forbes.com/sites/moorinsights/2024/11/07/digging-into-the-ul-tra-accelium.

  • 谷歌推出 AI 命令列編碼工具,直達 Shell

    大家知道,AI 最開始的是命令列。
    儘管AI與機器學習仍舊火爆異常,新品不斷,但開發者仍大多數生活在命令列中。
    正因為如此,Google將其 Jules 編碼代理推入了終端,並推出了一個名為 Jules Tools 的新工具。
    谷歌在創業時就將搜尋定位為互聯網的命令行,現在它為其 Jules 非同步編碼代理程式創建了一個命令列介面,並賦予它「不可抗拒」的綽號 Jules Tools。
    這本來一定會發生,因為多家AI頭部企業已經在做了。
    OpenAI 有一個名為Codex CLI的命令列介面 (CLI) 。 Anthropic 的Claude Code是 CLI 編碼代理程式。
    Cursor 是一個用於 AI 編碼的整合開發環境 (IDE),它有一個 CLI。
    任何面向軟體開發人員的應用程式都需要在某個時候實現命令列工具。 Google 實驗室的軟體工程師 Jiahao Cai 和 Google 實驗室的產品經理 AK Kulkarni 在發布 Jules Tools 的文章中也表達了同樣的看法。
    他們表示說:「到目前為止,你大概主要透過 Web 瀏覽器與 Jules 進行交互,但我們知道開發者喜歡生活在終端機中。
    這是我們測試、建置、調試和發布的地方。因此,我們建立了 Jules Tools,一個輕量級的命令列介面,讓你可以啟動任務、檢查 Jules 正在執行的操作,並讓其成為您自己的代理,所有這些都無需離開你的工作流程。 」
    Jules於2024年 12 月發布,它使用 Google 的 Gemini 模型來搜尋程式碼庫、修復錯誤並編寫測試。
    與GitHub Copilot 編碼代理程式類似,它的設計目的是自動執行一組指令,而無需對每個提議的更改進行人工審核——因此被稱為「非同步」的。
    巧合的是,我開發的一款基於 Electron 的 RSS 閱讀器,用於聚合新聞源,卻遇到了一個未解決的 bug 。
    於是我把這個錯誤訊息告訴了 Jules,然後就讓它在專案的 GitHub 倉庫裡「肆意妄為」。
    該應用程式最近因未處理的 Promise 拒絕而拋出了類型錯誤。本質上,應用程式的渲染進程在視窗物件被銷毀後試圖對其進行某些操作。
    朱爾斯花了幾分鐘分析錯誤訊息並提出了修復錯誤的計劃。
    編碼代理這樣表示說:「我已成功修改js/rsslib.js,避免了『物件已被銷毀』的錯誤。
    透過新增檢查以確保win物件在將資料傳送到渲染進程之前仍然有效,我解決了導致應用程式崩潰的競爭條件。
    我還通過檢查文件,確認了更改已正確應用。 」
    乍一看,機器人提出的修復 bug 的拉取請求令人滿意。
    然而,修改過程重複,違反了DRY原則,其中一系列win.isDestroyed()檢查或許可以更簡潔地實現。
    我對 Jules 的回覆很滿意。
    該修復是透過 Jules 的 Web 介面進行的。
    根據 Cai 和 Kulkarni 介紹,Jules Tools 讓這款 AI 助理更具可編程性和可自訂性。
    他們說:“Jules Tools 不僅僅是一個介面,它是一種將 Jules 連接到你在終端上所做的一切的方式。”
    最後,若要安裝 Jules Tools,請輸入下列程式碼:
    npm install -g @google/jules.
    (當然,不要帶末尾的句點哦。)

  • 思科 Splunk Observability Cloud for AI POD 解決方案

    思科首席解決方案工程師 蔣星

    隨著人工智慧(AI)和大型語言模型(LLM)技術的快速發展,企業對 AI 工作負載的部署和管理需求日益增長。然而,AI POD 環境的複雜性,包括分散式運算、高效能 GPU、大量資料儲存和複雜的網路互聯,為其效能監控、成本優化和故障排除帶來了巨大挑戰。思科 Splunk Observability Cloud for AI POD 解決方案旨在應對這些挑戰,為企業提供全面的可見度和智慧洞察。

    核心痛點解決此解決方案專注於解決 AI POD 營運中的核心痛點:
    1.效能瓶頸辨識:快速定位 AI 模型推理和訓練過程中的效能瓶頸,如高延遲、GPU 使用率低或過高、以及 Token 生成速度慢等問題。
    2.資源成本最佳化:有效管理和優化 AI 基礎架構的資源消耗,特別是 GPU、儲存和網路資源,以及 LLM 的 Token 使用成本(即「Tokenomics」)。
    3.複雜環境的視覺化:將分散的 AI 基礎設施元件(如運算主機、網路、儲存、容器平台)統一到一個平台進行監控,消除盲點。
    4.快速故障排除:透過即時數據和智慧告警,加速問題診斷和解決,減少 AI 服務的停機時間。

    端對端的監控能力Splunk Observability Cloud for AI POD 解決方案整合了多項關鍵技術與專用模組,提供端對端的監控能力:
    ◎ AI POD Overview:提供 AI POD 整體健康狀況和關鍵效能指標的概覽,例如目前運作的請求數量。
    ◎ Tokenomics:針對 LLM 工作負載的核心模組,監控 Token 的使用效率和成本。它詳細顯示了總輸入 Token、總輸出 Token、峰值提示 Token / 秒、峰值生成 Token / 秒等指標,幫助用戶理解和優化 LLM 的運行成本和吞吐量。
    ◎ Intersight:與 Cisco Intersight 集成,用於監控和管理底層的 Cisco UCS 伺服器和 HyperFlex 超融合基礎設施,確保運算資源的穩定性和效率。
    ◎ Nexus Switches:監控 Cisco Nexus 資料中心交換器的網路效能,確保 AI POD 內部外部資料傳輸的低延遲和高頻寬,這對於處理大量資料的 AI 應用至關重要。
    ◎ Storage:提供對儲存系統效能的深度洞察,包括 I/O 延遲、吞吐量和容量使用情況,確保 AI 模型訓練和推理所需資料的快速存取。
    ◎ AI POD Hosts & AI POD GPUs:專注於 AI 運算核心-主機與 GPU 的效能。監控 GPU 的關鍵指標,如 KV Cache 使用率,以及 GPU 的整體健康狀況和效能表現。
    ◎ Red Hat OpenShift:支援對運行在 OpenShift 容器平台上的 AI 應用進行監控,確保容器化 AI 服務的穩定運作和資源調度效率。
    ◎ 針​​對 NVIDIA LLM 推理微服務的特定監控,優化 LLM 的推理性能,包括關注如首次 Token 生成時間(TTFT)和每 Token 輸出時間(TPOT)等關鍵延遲指標。

    Splunk Observability Cloud for AI POD 解決方案為企業提供了一個統一、智慧的平台,以應對 AI 時代複雜的維運挑戰,確保 AI 投資能夠轉化為實實在在的業務價值。
    自助展示網站:https://cisco-full-stack-observability.navattic.com/2sk0bvw

  • ScaleOUT中的RDMA與ScaleUP中的以太網

    本文依舊是一篇對大佬文章的解讀:
    渣B,公眾號:zartbot
    談談RDMA和ScaleUP的可靠傳輸
    本文所講的ScaleOUT和ScaleUP中的兩種技術,分別是ScaleOUT的RDMA和ScaleUP的乙太網路技術堆疊。
    一、RDMA:從無損到有損的轉向
    (一)Lossless:早期場景的最優解-為了低延遲和簡化協定Lossless(無損網路)是盡量不丟包,它能流行是因為早期應用不需要高頻寬,只需要極致低延遲。
    1. 為什麼早期不丟包?
    早期的超算(HPC)涉及到“解偏微分方程”,對網絡延遲極其敏感:這類應用會頻繁同步阻塞:簡單說就是“發一個包,等收到確認,再發下一個”,網絡中“正在傳的報文”(inflight)很少;既然“正在傳的包少”,網絡就不會擁擠,自然幾乎不丟包。
    2. 不丟包的情況下,為什麼要簡化協議?如果網路基本上不丟包,就沒必要用複雜的L4可靠傳輸(TCP的重傳、壅塞控制),搞個簡單的傳輸協定反而更省延遲:Infiniband做出的簡化:Infiniband(早期超算常用網路)就是把「PCIe匯流排」(電腦內部顯示卡/硬碟的連線)擴展到多算常用網路)就是把「PCIe匯流排」(電腦內部顯示卡/硬碟的連線)擴展到多台化協議,這很簡單;
    FCoE的方案:早期儲存用FC(光纖通道)建獨立網路(SAN),伺服器要接「業務網路+儲存網路」兩套線;2008Cisco搞了FCoE(FC over Ethernet),把儲存流量放到乙太網路裡,因為當時硬碟是HDD(慢,頻寬低),用PFC(PFC 3. RoCE的早期嘗試:RoCEv1失敗,v2轉向UDP2010年RoCEv1是「2層乙太網路技術」(只能在一個區域網路內傳),4年沒進展;2014年RoCEv2改成「基於UDP傳輸」(能跨網段),但還是依賴Lossless-網路不遺失包。
    小結:Lossless早期場景(低inflight、低頻寬需求)下,「不丟包」是天然狀態,簡化協定能最大程度降延遲,是性價比最高的選擇。 (二)Lossy:為了高頻寬+雲端適配,接受丟包Lossy(有損網路)是“允許丟包,但能快速恢復”,它出現是因為2018年後應用需求變了:從“低延遲”轉向“高頻寬+多租戶”。
    1. AI和儲存
    (1)GPU需要「打滿頻寬」GPU的運算和通訊能重疊進行(算A的時候,同時傳B的資料),導致網路中「正在傳的封包」(inflight)暴增-此時「能不能把頻寬用滿」比「單次延遲低不低」更重要。 (2)全快閃雲端儲存:inflight也暴增以前儲存用HDD(慢,一次傳一點),現在用SSD(相對快,一次傳很多),再加上雲服器的上多個用戶共用存儲,網路擁塞變得很常見,inflight同樣很高。
    2. 雲端環境是天生用不了Lossless的整個雲端的系統用VPC(虛擬網路)隔離租戶,而VPC是「Overlay網路」(在實體網路上套一層虛擬網路),Lossless依賴的PFC技術在Overlay裡沒法用,所以雲端必須用Lossy網路。
    小結:Lossy在高inflight、高頻寬、雲Overlay下,“丟包不可避免”,強行保無損(用深buffer堆延遲)性價比很低,不如接受丟包,再透過技術快速恢復,優先保證頻寬和多租戶適配。
    (三)RoCE的缺陷:為什麼Lossless的RoCE撐不住新場景? RoCE(尤其是RoCEv2 Lossless)在早期HPC或儲存裡好用,但新場景下有亂序、擁塞控制、丟包重傳的問題。
    1. 多路徑亂序RoCE的RC(可靠連接)模式要求“數據包必須按順序到”,一旦亂序(包1沒到,包2先到),就認定“包1丟了”,觸發“Go-back-N重傳”(把包1及後面的包全重傳一遍),浪費帶寬。
    (1)為什麼會亂序?為了用滿頻寬,會為網路加上「多路徑」(例如4條連結),但交換器的「雜湊演算法」可能會把不同流量擠到同一連結(例如GPU1和GPU2的流量都去Link1,Link4空閒)。
    為了解決這個問題,人們搞了「Multi-Rail」(同型號GPU連同一交換機)、「Multi-Plane」(把一個800G端口拆成8個112G端口,連8個交換機)。
    但這樣處理的話,封包走不同路徑,到達時間不一樣,必然亂序。 (2)RoCE為什麼搞不定亂序? RoCE的封包只有「首包/中間包/尾包」的標記,中間包不帶「遠端記憶體位址」 -如果亂序,接收端不知道這個中間包該寫進對方記憶體的哪個位置。
    Nvidia CX7只能勉強支援「WRITE操作」的亂序(把一個大消息拆成多個帶地址的小包),但「SEND/RECV操作」搞不定(接收端的buffer地址不固定)。
    不過早期的iWARP技術是天生支援亂序的,每個資料包都帶有“訊息序號(MSN)+偏移量(MO)”,接收端不管順序,按MSN和MO就能寫記憶體。
    2. 擁塞控制-Rate-Based跟不上RoCE用Rate-Based擁塞控制(控制發送速率,每秒發1gb這種),但不適用突發的流量:
    (1)為什麼不好用?大模型訓推中,流量是「突發的」(一會兒發10GB,一會兒發2GB),Rate-Based沒法實時調整速率,相當於動態場景控不住;交換機的buffer(緩存)擴展很慢(多端口共享buffer需要很多SRAM,成本高),Rate-Based沒法精準控制正在傳的報文準控制。
    (2)不用Rate-Based,用什麼? 「Window-Based」是「控制inflight數量」(例如最多同時傳100個套件),更適合突發流量,但RoCE協定不支援:缺陷1:RoCE的「封包」和「ACK確認包」是分開發的,封包裡不帶ACK訊息,沒辦法用ACK驅動視窗調整;缺陷2:RoCE的「讀取回應包」(例如讀對方記憶體後回傳的資料)是用ACK包封裝的,但這個包沒有對應的ACK--如果用Window-Based,讀響應包發不出去。所以AMD、Google都選了Window-Based,而RoCE只能硬撐Rate-Based,這就要更複雜的遙測(Telemetry)即時監控網路了,反而增加網卡複雜度。
    3. 丟包重傳-Go-back-N效率太低跨資料中心下丟包更常見,但RoCE的重傳機制太落後:
    (1)RoCE的缺點:分不清“亂序”和“丟包”RoCE接收端只要發現“包亂序”,就會把後面的包全丟了,沒法告訴寬傳端“
    (2)更好的選擇:SACK+RACK-TLPSACK:一種選擇性確認,接收端告訴發送端“我收到了包1、3、4,就缺包2”,發送端只重傳包2,不浪費頻寬;RACK-TLP:快速判斷“包是不是真丟了”(超時沒到才丟了),避免把定亂當包。
    Google的Falcon技術在「5%丟包率」下還能維持90%的有效頻寬(Goodput),就是靠這兩個技術。
    4. Google Falcon的總結-RoCE改不動了Google在Falcon的論文裡點出過RoCE的問題:不支持現代重傳(Go-back-N/SR局限大);多路徑亂序沒法處理,SACK加不進去(要改接收端buffer或協議語義,成本高);擁塞控制和反饋路徑分離(靠慢)。
    Nvidia的CX8雖然加了「PSA算力」優化,但還是在Lossless框架裡修修補補,擁塞響應反而變慢了。
    (四)RDMA正在進行哪些變化相當於RDMA正在現代化。既要用多路徑(亂序傳,用滿頻寬),又要相容於舊應用(但舊應用依賴「依序完成」的RC語意)。
    參考iWARP的DDP技術就行,給每個資料包加MSN/MO,接收端亂序接收,再依序交給應用,不用改應用程式碼。技術選擇上,3條路徑:接受丟包(Lossy),不用深buffer堆延遲;用SACK/RACK-TLP快速恢復丟包,保證頻寬;用Window-Based擁塞控制,適配突發流量,省網卡複雜度。
    另外,也要解決雲端上的適配,即多租戶和虛擬化問題,包括:支援Overlay網路(適配雲端VPC);支援「熱遷移」(例如虛擬機器遷移時,RDMA連接不中斷),這塊阿里雲CIPU已經實現,Nvidia還沒做到;多租戶隔離:不同用戶的RDMA流量不互相干擾。
    二、Ethernet ScaleUP
    (一)Ethernet ScaleUP的演進趨勢2020年,NetDAM系統出世是為了解決AI運算中的「記憶體牆」問題,因為傳統DDR記憶體容量足夠但頻寬不足,而HBM雖頻寬高但容量受限。
    他們想做一個兼具數Tbps頻寬和數TBytes容量的記憶體抽象層,直接透過統一的記憶體語意實現大規模GPU互連。
    記憶體語意抽象:將遠端記憶體存取(如LD/ST指令)直接對應到乙太網路傳輸,避免傳統RoCE訊息語意的協定開銷。
    例如,透過位址交織(Address Interleaving)實現多鏈路負載平衡,解決哈希衝突問題。
    NetDAM在2021 年就把這套方案做出來了,但落地難,因為:GPU廠家沒有一個統一方案:早期僅有英偉達NVLink支援ScaleUP,其他廠商(AMD)甚至都沒搞出交換機,而Intel/Microsoft的RoCE方案因訊息語意缺陷(高延遲、Cache不友善)難以適配GPU架構。 CXL 協定因為 Intel 拖進度,商用很慢。而乙太網路ScaleUP需在相容性(如是否修改MAC頭)與效能最佳化間權衡。
    (二)記憶體語意的重要性:為何RoCE無法取代? RoCE的缺陷:協議開銷高一個是給鄰居寄快遞,一個是自己去拿。
    RoCE發送RDMA請求需建構WQE(Work Queue Element)、寫記憶體、觸發Doorbell,導致每個操作需要數十條指令。但而記憶體語意僅需1條LD/ST指令。
    容易塞車RoCE依賴哈希分片,在多連結或多層交換場景中容易多線路衝突,記憶體語意是位址分流。 GPU適配低RoCE需輪詢CQ(Completion Queue),查不到得等一會;記憶體語意只需Polling固定記憶體位址的Flag,延遲降低一個數量級。
    記憶體語意的優點:GPU適配直接適配GPU的單發射架構與Warp調度機制,減少上下文切換開銷。
    例如,記憶體存取失敗時可立即切換至其他Warp,無需等待CQ處理。計算單元不用指揮,專注計算支援原子操作(Fetch-And-Add),不需要像Allreduce中頻繁HBM讀寫,一條普通的儲存指令(LDGSTS- Load Global Store Shared)就能觸發遠端操作。
    (三)在線上計算(In-network Computing):交換器的角色與侷限英偉達NVLink Sharp方案
    讓中間的 「交換器」(類似快遞分類站)不光傳數據,還能幫著算點簡單的(例如加數字),少讓 GPU 來回傳數據。英偉達是給交換器裝個144 位元加法器,能算簡單的把 10 塊 GPU 的資料加起來,但複雜的活乾不了。
    BRCM的困境早期想讓交換器用 RoCE “算賬”,但交換機記不住賬(沒足夠內存存臨時結果),但交換機算到一半忘了前面的數,無法處理DeepSeek-V3這種大規模的Token調度。 NetDAM的端側優化讓 GPU 先把資料打包,再讓交換器幫小忙(例如分給多塊 GPU),不讓交換器幹重活。
    實際收益不高
    訓練 AI 模型時,許多資料傳輸延遲已經被FSDP技術隱藏了,SHARP類在網路運算幫忙算的那點時間,對整體速度影響不大。
    在推理狀態下,資料就更靈活了,交換器根本跟不上節奏,不如讓 GPU 自己處理。
    (四)記憶語意與事務在記憶體語意和事物上,硬體要做到協同設計是很複雜的。
    GPU記憶體模型:Acquire-Release語意ScaleUP需確保記憶體操作的順序性,例如先寫入本機HBM再傳送遠端請求。英偉達H200透過LDGSTS指令實現弱序一致性,但AMD MI300仍依賴強序模型,增加協定設計難度。
    可靠傳輸與交易耦合傳統乙太網路的IP/UDP開銷高達數百字節,而記憶體事務需低延遲(如<100ns)。
    解決方案包括動態打包指令(如100ns定時器)或精簡MAC頭(如BRCM SUE的AFH欄位)。
    乙太網路ScaleUP的定義存在爭議:嚴格派必須保留EthType字段,只改杯子上的標籤但不換裡面的奶茶,也就是源/目的MAC位址,這樣所有設備都認。
    彈性派只要用奶茶杯,裡面裝啥都行,複用乙太網路實體層但重新定義MAC子層(UALink的640位元組DataLink FLIT),但要改變一下資料分類規則。
    (五)ScaleUP域的規模:GPU不是堆越多越好模型並行的實際需求:
    拿Google的例子來說,9216 塊 GPU 的集群,實際幹活時最多 512 塊一起,多了反而 “互相等消息”(傳數據延遲),效率變低; 國內的誤區:有些芯片單卡算力弱(比如只有英偉達的 1/5),就想先把卡傳 5 倍的卡補回來,但還不如把卡加了卡。
    (六)延遲對XPU微架構的影響GPU的脆弱性:Outstanding窗口限制CUDA Core同時處理本地做菜(計算)和遠端調貨(訪問其他GPU記憶體)時,若遠端延遲過高,會佔滿Load隊列,堵住打菜窗口。
    Cache失效代價CQ處理需經常存取HBM(每次Cache Miss 200ns),但身邊GPU的L1D Cache容量僅數KB,需要去很遠的HBM取貨,這裡頻繁Warp切換會增加數微秒延遲。
    硬體上的取捨:Blackwell vs H200Blackwell為提升TensorCore效能增加TMEM,但CUDA Core數量減少,導致傳統算符效能下降。 H200透過平衡SRAM與計算核,在多數場景下表現更優。
    晶片總共就這麼大,增加打飯窗口的代價是減少炒菜的爐台,結果有些菜炒的慢,還不如原來。
    光互連長距離光傳輸會有延遲忽高忽低的情況,需在交換器等訊號,反而增加了延遲。
    (七)是否需要可靠傳輸:協定的tradeoffSUE-Lite怎麼取捨的:非可靠傳輸不用等回執,丟了再說。
    省略E2E Go-Back-N重傳,僅保留鏈路級重傳(LLR),也就是北京寄上海,中間站中哪一佔丟了自己負責。
    這樣下來晶片面積減少50%。適用於容忍少量丟包的場景(如推理),但需應用層自行處理錯誤。

    設一個可靠性邊界即便使用LLR,SDC(靜默資料錯誤)仍可能導致CRC校驗失敗,相當於包裹遺失了但快遞站沒發現。
    要在應用層再檢查一下,可以在包裹裡放個密碼本。 Buffer管理的難題:E2E重傳的代價很高若RTT=2μs、頻寬=1TB/s,需2MB Buffer儲存未確認數據,需要在中間的每個站點都保留一個臨時儲存空間,這就很複雜了。
    UALink的優化把包裹切成512位元組的小塊,只在每個中轉站保留512KB的臨時存儲空間,通過”DL FLIT打包”技術,讓小包裹能更快重發,但要求快遞站能快速識別這些小包裹(交換機支持快速查表轉發)
    三、ScaleUP發展定律:快,還得穩不止一):Little’ Law(利特爾定律):「同時在忙的數量」=「來的速度」×「每個忙多久」這個定律聽著複雜,其實每天都在經歷,例如超市收銀台:
    平均每分鐘來2個顧客(速度為2人/分鐘);每位顧客結帳要3分鐘(每個在系統裡的時間:3分鐘);那麼收銀台前平均會有 2×3=6個顧客在排隊或結帳(同時在忙的數量」)。
    對應到GPU的內存訪問,道理一樣:每分鐘來多少顧客=內存帶寬,每秒能傳多少字節;每個顧客結帳時間=內存訪問延遲,一個數據從發出到寫完,要多少納秒“同時在忙的數量”=Inflight-Bytes,正在道理中的字節數。
    老收銀台(Hopper):頻寬一般,結帳快(延遲低),6個顧客(32KB)就能讓收銀台忙不停(打滿頻寬);新收銀台(Blackwell):頻寬更高(每分鐘來的顧客更多),或者結帳稍慢(延遲稍高),得12個顧客(64KB)才能讓它長得稍微慢一點(延遲稍高),得12個顧客(64KB)才能讓它長得稍微長久了。
    怎麼讓記憶體忙起來,增加Inflight-Bytes? GPU計算的管線需要從倉庫(記憶體)往生產台(GPU 運算核心)搬零件,如果Inflight Bytes是“正在倉庫到加工台路上的零件總數”,這個數字不夠,搬運工就會沒事(頻寬浪費)。
    有沒有辦法讓這個管線的頻寬打滿?
    三個辦法,指令級並行(ILP)、資料級並行(DLP)、非同步記憶體存取。
    指令級並行:讓工人同時多喊幾次搬運,但得記清 「這4個零件分別要搬到哪、生產到哪一步」。
    用什麼記呢?用寄存器,原來1個零件用1個 寄存器,現在4個要用4個,寄存器很快就不夠用。
    資料級並行:讓工人 “一次搬個大箱子”,但得有地方臨時放這個大箱子(寄存器要存 8 字節數據),原來1個小零件用1格寄存器,現在1個大箱子用8格,寄存器很快被佔滿,壓力更大。
    非同步記憶體存取 :前兩種方法都是讓工人兼職搬運和生產,導致記事本(暫存器)不夠用。
    非同步就是單獨僱用一批搬運工(GPU裡的非同步拷貝引擎),生產工人只負責生產,搬運工自己去倉庫搬零件,搬到後放旁邊的暫存區(SMEM),生產工什麼時候用什麼時候拿。

    (二)Kingman’s公式(金曼公式):排隊多久取決於流量穩不穩這個公式講的是:系統越穩定,效率越高。
    用高速公路舉個例子:高速公路的利用率=實際車流量/最大能承受的車流量;變異係數(CV)=車流的忽多忽少程度,早晚高峰車忽多忽少,CV高;半夜車流穩定,CV低。金曼公式說:同樣的利用率下,CV越高(車流越亂),平均塞車時間越長。半夜車流穩定(CV低),利用率80%也不堵;早高峰車流忽多忽少(CV高),利用率60%就可能塞死。
    對應到GPU的Fabric(互連繫統):穩定比速度更重要Fabric就像連接多個GPU的“高速公路網”,排隊延遲相當於利用率。
    UALink它傳遞資料用固定640位元組的「資料包」(FLIT),所以車隊保持固定車距行駛,車流穩定(CV低)。
    所以即使利用率高(例如80%),延遲也不大。 SUE它的資料包大小不固定(變長size),還要等不同GPU的隊列(不同出口的車搶道),車流忽快忽慢(CV高)。
    就算利用率不高的60%利用率,也容易塞車(延後飆漲)。還有2個讓CV變高的添亂因素:對端HBM太忙:也就是內存滿了,那麼高速出口被堵住,進來的車只能排隊,車流變亂;Incast擁塞:多個GPU同時往一個GPU發數據,多條小路匯到主,車流大亂。
    不管是記憶體存取還是資料傳輸,光追求「速度快」(高頻寬)沒用,還得讓「流量穩」(低CV)。
    首先用Little’s Law算清楚需要多少“同時傳輸的字節”(Inflight-Bytes)才能打滿頻寬,先不要瞎加並行;再看看Kingman’s公式:盡量讓數據傳輸“有規律”,減少突發和混亂,才能在高利用率下不堵車。
    四、總結早年超算要低延遲,RDMA 搞無損(不丟包、協議簡單),當時來看性價比很高。後來AI 要滿頻寬、雲環境也用不了無損,就轉 “有損”,當然也不是真的有損,而是丟了迅速恢復。

    但RoCE還是有些問題,一亂序就重傳、控不住突發流量等。至於「記憶體牆」如何解決,要靠記憶體語義,畢竟1條指令遠端訪問,比幾十條指令的RoCE快。也不能光堆硬件,光是高頻寬不夠,還得降低延遲,讓流量跑穩。