科技改變生活 · 科技引領未來
近日,由中國銀行業協會金融科技專業委員會指導,金科創新社主辦的“第二屆金融數據智能優秀解決方案評選”結果揭曉。經過建設銀行、農業銀行、民生銀行、中國人壽、太平洋保險等大中型金融機構的數十位IT專家的嚴格評審、打分和答辯環節的詳細問詢,云智慧“金融行業智能業務運維解決方案”獲得“2020金融數據智能·專家推薦TOP10優秀解決方案”和“2020金融數據智能·運維創新優秀解決方案”兩大獎項。
正是憑借先進的AIOps理念和豐富的金融行業實踐成果,云智慧“金融行業智能業務運維解決方案”才能在上百套參選方案中脫穎而出,獲得金融行業專家一致認可和推薦。中國民生銀行北京分行科技部兼數據應用部總經理郭慶對云智慧“金融行業智能業務運維解決方案”作出如下評價:“實現業務系統的可視化、自動化實時監控目標,并提供自動化日志分析等功能,利用機器學習和人工智能自動設置比人工更為合理的監控閾值等。”
下面就讓我們一起來看看云智慧參評方案的概要內容和相關應用實踐案例。
行業背景
如今金融行業掀起了一場數字化變革的浪潮,無論運營方式還是消費場景都產生了巨大變化,傳統低效的人工服務模式逐漸被高效的數字化方式所取代。手機銀行、電子理財、電子保單、移動查勘等數字業務規模的不斷擴大使得金融業IT運維面臨軟硬件數量激增、應用和架構復雜化、變更頻繁、運維數據井噴等困難和挑戰。
【數字化應用系統架構示例】
行業痛點
由于IT發展所處的階段不同,不同金融機構遇到的痛點也有所不同,總結下來主要有幾個方面:
缺乏面向業務的端到端應用性能監控,已有監控屬于底層監控,缺少業務層面的用戶體驗及應用性能監控,無法及時有效的感知業務運行健康及性能質量。
缺乏立體化監控體系,當業務系統出現問題時,無法快速定位是網絡、服務器、中間件、應用、數據庫哪一層次導致的故障。
監控數據孤島叢生,各控工具產生的數據都孤立存在,無法將各層次的監控數據有效關聯應用,故障排查困難,效率低下,無法從全局掌握IT運維的狀態。
海量運維數據價值無法充分挖掘,產生大量運維數據,缺乏標準化體系,只能進行簡單分析,無法進行深度學習和融合智能分析管理,例如綜合業務可視化、根因分析、異常檢測、智能告警等。
解決方案
云智慧金融行業智能業務運維解決方案以數據為基礎、算法為支撐、場景為導向,結合行業最佳實踐進行封裝,幫助用戶逐步建立數字化運維管理體系:
?通過輕量級、低入侵、松耦合的立體化監控工具集幫助用戶采集全棧運維數據;
?通過專業運維數據庫組織、存儲和管理數據;通過指標體系管理幫助企業打造集中、統一、規范和高效的指標體系;
?通過數字化運維工作臺、數字化運維監控中心、智能事件管理等產品落地運維數據在不同場景下的應用。
【面向金融行業的AIOps整體平臺架構圖】
案例1:一體化大數據運維管理平臺
隨著業務系統的全面互聯網化,金融核心業務應用對網絡的依賴程度越來越高。因此,需要一套符合全新業務理念的一體化大數據運維管理平臺,對基礎設施、網絡鏈路、應用系統性進行統一監控,實現基于業務的端到端應用系統性能監控管理。
【一體化大數據運維管理平臺】
通過全球部署的骨干網監測點節點,特別是國內100多個重點城市的監測點,持續監控微信客服等業務場景中區域用戶體驗問題,以及移動、瀏覽器用戶遇到的頁面加載緩慢的問題,及時發現和解決網絡性能瓶頸。
【網絡鏈路監控】
通過在移動APP上集成SDK,抓取移動端出現的緩慢、錯誤、崩潰、卡頓等問題,從發現問題到定位問題只需要2~5分鐘時間,大大提升了IT部門解決前端用戶體驗問題的效率。
通過端到端監控技術,基于唯一的請求ID標識自動串接從用戶前端到后端應用代碼以及基礎設施的整個請求,基于單次請求序列還原問題快照,幫助用戶從外到內逐步分析每個環節對應用性能造成影響的問題瓶頸。
【端到端應用監控】
通過在應用服務實例上部署Agent,實現對微服務實例的監控,幫助運維人員更快速、更精確地定位微服務后端的性能問題。
【可視化監控大屏】
通過對網絡質量、移動端、瀏覽器端和應用端的監控,獲得了豐富的多源數據指標,通過統一可視化工具將數據進行關聯分析并實時展現,為管理決策提供有效數據依據。
案例2:基于大數據和機器學習的智能運維平臺建設
某金融機構的監控體系覆蓋超過數十萬臺主機和數千個系統,產生了海量監控數據,運維管理面臨更大的挑戰。需要基于大數據和機器學習技術構建新一代的智能運維平臺,實現運維數據的智能化處理、關聯分析、故障根因定位和風險預測。
【智能運維平臺建設架構】
利用現有監控資源指標,建設運維工作臺,實現復雜業務模型下的異常檢測、故障定位、根因分析、決策分析支持;
利用專業運維數據庫實現海量運維數據的高效采集和存儲、大規模數據離線計算分析;
針對主機、存儲、應用系統、業務場景和運維場景,形成產品經理、運維人員、研發人員、ECC值班視圖;
通過可視化大屏實時展現業務系統的關鍵指標,第一時間發現異常,輔助運維人員進行運維決策和自動化處理;
利用異常檢測算法對系統問題進行深度分析,通過業務場景的調用鏈關系以及應用的指標數據,定位到可能引起異常的應用指標,實現根因定位。
方案價值
云智慧金融行業智能業務運維解決方案充分利用大數據和AI技術,幫助企業建立了立體化監控和運維管理體系,打破數據孤島,實現運維事件的統一管控、IT故障的智能分析和風險預測、數字化業務健康的可視化決策和IT服務管理流程的智能優化。
對于不同規模、不同IT成熟度、不同需求場景的金融企業,提供靈活定制、模塊化的產品和解決方案組合,用較高性價比滿足用戶的差異化需求。
何陽