思享家丨FSO 在混合辦公中大顯身手

思享家丨FSO 在混合辦公中大顯身手
原創 思科聯天下 思科聯天下
自新冠疫情爆發以來,混合辦公已經在確保員工安全、保持企業連續經營和提升企業效率等方面展示出了明顯作用。據思科《2022 混合辦公研究》顯示,79% 的中國受訪者表示工作質量提高了,86% 的受訪者認為自己的幸福感提升了。作為混合辦公的早期踐行者,思科更在今年蟬聯《財富》 “ 美國 100 家最適宜工作的公司 ” ,第五次被評為 “ 大中華區最佳職場 ” 。

在思科推進混合辦公的過程中,IT 團隊作為技術平台的搭建者和日常運維的管理者可謂感受良多。看過 思享家丨體驗制勝,這才是選擇混合辦公的黃金標準 的讀者都知道,混合辦公的體驗受制於很多因素,比如網絡、安全、協作工具,甚至和電信運營商的處理能力也有關係。那麼 IT 團隊要怎麼從紛繁複雜的現像中,釐清問題根源,準確採取措施,確保思科全球十幾萬員工都能順暢方便地調用上千種應用呢?今天我們就通過兩個實例來讓讀者一窺究竟。
ThousandEyes
快速定位網絡故障

據思科 2022 混合辦公指數(HWI – Hybrid Work Index)報告對基礎網絡的監測分析看,雲服務商的網絡中斷次數,要遠遠少於 ISP 的網絡:

也正是基於這樣的全棧可觀察力,思科 IT 部門會持續監控應用和基礎網絡(端到端全鏈路),以便高效恢復業務。比如一旦發現跨區運營商線路故障這類高級別事件,會立刻與運營商分享監控到的運營商側故障現象,並通過運營商的故障處理平台 API 接口,向 ISP 運營商開故障工單。同時也會向內部系統發出故障支持,這兩個一內一外的動作,均自動實現,確保混合辦公在內的各類業務永續。

這在以前沒有 ThousandEyes(以下簡稱 TE)的時候,沒有相關的故障報告做證據,無法快速精準地知曉網絡故障位置、故障特徵。如果懷疑運營商線路問題,按照 ISP 運營商流程,即使用戶側沒有任何問題,也通常堅持用戶首先檢查網絡周邊問題,這大大增加了排障時間和業務恢復時間(通常以天計),更別說進一步優化的自動化故障申告。
下圖顯示了思科班加羅爾辦公室在故障期間出現了網絡質量的異常下降,TE 檢測發現到不同雲服務均出現延遲和丟包的大幅上升,可以輔助運營商進行線路檢查和故障定位。

TE 還能用於檢測指定的網絡前綴(子網/subnet)在互聯網上是否得到了正確的發布(子網通告)。下圖顯示,TE 檢測到思科香港 IDC 在 ISP 端發生變更後,指定的前綴在一些節點丟失。我們將此故障現象反饋給 ISP 後,ISP 修復了這個問題。本次的故障處理中,TE 第一時間發現了問題,並發出警報,使問題得到及時處理,服務得到快速恢復。

如果沒有這種量身定制的檢測機制,我們將不得不使用其它外部工具來定位故障點,問題的發現和處理將耗費更長的時間。

持續不斷的全鏈路監控,讓思科 IT 更為準確地判斷不同運營商的線路質量、服務能力,基於這些數據洞察優化組合不同城市不同 ISP 線路。離開 TE 的能力,是做不到這類業務決策的。

AppDynamics 發現應用瓶頸

就思科 IT 自身而言,既有思科 IT 自研的監控平台,也有第三方監控平台,亦包括思科在銷售的產品平台。比如思科 FSO 裡的 AppDynamics 平台,是作為思科 IT 重大故障恢復流程裡的第二個決策點所使用到的工具之一,它能夠最大化利用數據分析發掘真相,支持決策。

以思科銷售和運營環節中的訂單處理為例,這是思科最關鍵的 IT 服務之一。

整個應用架構複雜,涉及大量基於 JAVA 的應用(JVM)、各類不同數據庫、各類搜索引擎、各類數據採集系統。一旦訂單發生故障或延遲,根因分析非常困難。僅僅 MongoDB 數據庫就有 130 多個副本(2019 年數據),負責支撐訂單裡的多個子系統。部署 FSO 平台以前,思科 IT 很難深度監控這些複雜應用,很難得到從前端應用到數據庫的端到端性能視圖,根因查找非常耗時,嚴重影響客戶下單。

▲ 思科訂單處理架構: 多步驟、多數據庫、混合雲應用部署

思科 IT 通過 FSO 的 AppDynamics 這一智能平台,輕鬆監控軟件服務可用性、服務節點成員狀態、數據庫鏈接情況、和網絡訪問延遲等等關鍵指標;AppDynamics 自動收集應用性能信息並製作不同需求的監控大屏,並且可以將告警、通告數據自動發送到 IT 和其他各應用團隊,以供按需集成、大屏生成、業務決策。極大地提高了客戶和合作夥伴滿意度,同時也幫助了 IT 部門優化各類多雲資源。

▲ AppDynamics 服務可用性及平均耗時視圖示例

比如我們一直以為發票編排過慢,是因為數據庫內部處理過載,可是通過分析 AppDynamics 性能數據,我們發現編排發票時,對後端發出的訪問請求裡,包含其中三個部分:數據庫、稅務子系統、地理信息子系統,恰恰是因為最容易被忽視的地理信息子系統,拖慢了整個發票生成過程,進而影響了整個 O2C 的處理進度。根據這樣的洞察,我們做了針對性的擴容和縮容,擴地理信息子系統的節點數和全球部署點,縮原先不必要的數據庫資源,優化整體 IT 投資。根據思科 2020 年數據, MTTD 和 MTTR(故障感知時間、修復時間),均有 10 倍提升,故障申告總量下降 15%,節省成本 30% 左右。

除了針對混合辦公中業務應用的可用性、性能做 FSO 運營外,思科 IT 正在實施讓應用程序更安全的計劃,以檢測 “ 正在運行 ” 的應用可能存在的安全威脅,以便全方位全視角推動更安全的混合辦公。

今天,思科通過 FSO 全面提升思科自己/合作夥伴混合辦公的同時,也在積極和業界分享自身從設計、部署、使用到管理 IT 產品和安全運營業務過程中積累的經驗,以幫助更多的企業自信地向混合辦公轉型。

This entry was posted in News.

发表评论

邮箱地址不会被公开。 必填项已用*标注


*

在线客服系统