2015年5月28日,黑色星期四,滬指一日連續下破整數關口,上證指數收盤下跌6.5%,深成指下跌6.19%,創業板下跌5.39%,創4個月來單日最大跌幅,全國股民人均賠兩萬!正當股民們心灰意冷,打算出去看看世界的時候,攜程掛了!
從11:09分開始,到晚上22:45分恢復,此次攜程網站崩潰時間共持續了近12個小時。事后攜程的官網解釋:經攜程技術排查,確認此次事件是由于員工錯誤操作導致。由于攜程涉及的業務、應用及服務繁多,驗證應用與服務之間的功能是否正常運行,花了較長時間。
從攜程的聲明來看,導致此次事件的直接原因是員工誤操作造成,但有一個現象非常形象地描述了目前IT運維的真實狀況:
系統出現故障后→
1、業務使用者最先發現應用受到影響,開始抓狂和投訴。
2、繼而運營監控的各種大屏幕會出現流量的異樣圖、系統告警圖。
3、最后輪到攻城獅們手忙腳亂進行troubleshooting,挨個設備的各種telnet/ssh抓取信息。
4、可以定位故障的,對癥解決;不明所以的,嘗試重新啟動設備或者切換備份方案。
5、提交故障報告、問責、致歉、危機公關等等
目前的IT運維系統,可以查看鏈路狀態,監控設備資源利用率,故障告警,但從業務的角度來說,還缺乏一種手段對這些數據進行系統性的分析,呈現出更明確更有意義的結論,以便在突發事件時,啟動預案、快速定位和給出指導性建議。
攜程事件再次向我們表明了新常態下,系統可靠性的重要作用,據統計,這次宕機給攜程網造成的直接損失超過數百萬美元,股價暴跌11%。云計算、大數據、互聯網+ 的空前繁榮,讓IT運維面臨前所未有的挑戰,如何及時全面的掌握網絡、主機、數據庫、存儲、桌面等各類資源的運行情況?如何使我們的運維工作未雨綢繆,做到防患于未然呢?
【IT運維人員八種痛】
東華網智認為,互聯網+時代,系統化的運維管理對企業有著不可估量的作用,規模化的IT系統和復雜的業務系統穩定運行是信息部門的重要職責,如果發生故障不能及時準備定位,引發業務中斷,給企業帶來的損失是巨大的,同時,企業IT治理、流程規范、智能巡檢將有效減少違規操作、消弭隱患,降低故障發生機率。換言之,企業需要一套清晰、智能化的運維管理系統來幫助IT人員提高對整個業務系統的把控能力,而東華網智正是致力于精細化IT服務管理,幫助企業建立健全IT運維管理體系,實現IT“監.管.控”一體化,全面提升IT服務質量。
【東華IT服務綜合管理解決方案技術架構】
“監”之綜合監控
對IT基礎架構和業務系統的實時監控,能夠幫助管理人員準確定位故障,及時處理問題,并在警戒閾值達到前,將系統隱患扼殺于搖籃。東華IT綜合監控范圍涵蓋機房動力環境、網絡設備、服務器、數據庫、中間件、虛擬化資源、桌面終端、通用服務等IT資源的運行狀態及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等遠程非代理監測和Agent代理監測,根據管理規模不同支持分布式采集和集中管理模式,提供7X24不間斷監測服務。系統將復雜的技術指標、監控狀態等以圖形化方式展現給客戶,支持機房、辦公區域、場所的3D可視化展現,大大提高用戶的操作便捷性及工作效率。
“管”之性能管理
系統不宕機、應用可訪問只是保障業務連續性的入門級要求,在“永遠在線”的互聯網+時代,最終用戶的應用體驗成為關鍵要素。東華網智強調“業務服務視角”,分段監測業務系統的每個過程環節,快速解析應用問題并將問題范圍定位到具體的應用組件,幫助運維者實現對業務應用問題的監測、定位和診斷,達到先于用戶發現問題,提前建立緊急預案,保障業務可用性,提高用戶體驗。
“控”之流程把控
攜程宕機的問題最終定位為“員工誤操作”,實際是流程管控和權限設置不當,“人為因素”在很多IT事故中不是小概率事件,必須要依賴必要的IT手段將流程僵化再優化,將人為因素將至最低,操作是否合規,變更是否合理,訪問是否越權,數據是否備份,一切全部由流程鐵律進行約束。東華網智IT運維管理系統的目的正是通過建立一套標準的運維服務流程,圍繞事件管理、問題管理、變更管理、配置管理、發布管理、服務級別管理等ITIL最佳 實踐,幫助用戶實現IT運維服務的流程化、規范化管理,最終讓IT的“精確化”制約人力的“隨機化”。
5.28攜程的重大故障雖然是一次災難,但也為所有的企業敲響了警鐘,安全生產重于泰山,一個誤操作帶來的可能就是毀滅性的損失。在互聯網企業各項業務都依賴IT系統的今天,做好IT系統的運維管理工作無疑是保障業務正常運行的核心所在。
專業的事一定要交給專業的系統來做,讓5.28事件不再重演,讓企業長青!