IT運維
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
IT運維是指單位IT部門採用相關的方法、手段、技術、制度、流程和文檔等,對IT運行環境(如硬軟體環境、網路環境等)、IT業務系統和IT運維人員進行的綜合管理。
IT運維的難題與對策[1]
一、企業目前面臨著如下的網路運維管理難題:
1.網路運維缺乏績效考核標準,職責不清,相互推諉。
多數企業的IT部門目前都基本是按照IT基礎架構功能來劃分各個部分,也有少部分的企業是按照業務來進行劃分。缺乏IT服務工作量量化考核工具,沒有計算IT服務人員的工作績效,也沒有監督IT服務人員解決故障的處理效率和處理質量。因而在IT服務人員解決問題時缺乏協作,而一般IT出現故障或問題,都不會是簡單的某個環節單獨出問題,很多時候需要多個部門協作才能排除故障。所以,在企業運維過程中經常出現責任不清,相互推諉的現象。
2.網路資產管理混亂,漏洞百出。
IT設備和軟體資產眾多,目前還停留在人工管理的範疇。例如,IT設備的定期排查力度不夠,設備巡檢不到位:IT設備台賬不能方便反映設備維修歷史記錄;軟體資產未建立台賬進行管理,軟體的升級、變更等缺乏登記信息:設備和軟體的配置信息不詳,或者配置信息經過長期維修調整已經與實際不相符合:還有IT設備採購、調撥、報廢等管理流程處理效率低。
3.網路運維服務管理缺乏流程保障,維護人員忙於救火,缺乏主動服務。
IT部門除了確保信息系統安全、穩定、可靠運行之外,還將面臨如何管好、用好這龐大的系統,為業務部門提供有效的決策支持的挑戰。然而很多時候,管理員都具有這樣的通性,那就是IT業務沒問題的時候神情特別輕鬆,但是一旦故障發生,尤其是涉及到企業核心電子業務的時候,那就得全體動員,儘快恢復業務運行,要是正趕上領導親自來部門督戰,氣氛就會更加緊張,所以“救火隊員”這個稱號是對IT部門最恰當的角色定義。
4.網路組織重“硬平臺”建設,輕“軟平臺”管理,維護人員與客戶滿意度低投訴引起的相關部門的責難將打擊}T運維人員積極性。
5.日常工作中未能建立知識庫,因此知識分散,信息中心過度依賴某個人,人員流失就會影響故障解決速度。
6.網路系統缺乏長期規劃,更缺乏複雜系統的運維管理經驗。
二、提高IT運維服務能力的理論分析
針對以上所說的網路運維管理難題,早在20年前,國外的一些政府單位和大型企業已開始著手探索應對辦法,經過多年實踐,總結出了相對完備的一套體系架構,該架構已經被業界公認為事實上的國際標準——ITIL(Information Technology lnfrastructure Library),即IT基礎架構庫。在國外,該標準正在被HP、IBM、CA、微軟等企業廣泛採用,並付諸實施。併在實踐的基礎上,形成了各自的ITSM(即information technology service management,IT服務管理)方法論及產品,併成為了他們開拓IT服務市場的招牌。
1.IT基礎架構庫ITIL簡介
20世紀80年代,英國政府為了提升信息化設備和系統的運行效率,保障信息系統建康運行,有效進行服務外包管理,指定當時的英國政府電腦與通信局,研究開發一種方法,用於指導全國政府部門高效、經濟地運營信息化設備和系統,結果產生了信息技術基礎架構庫((Information Technology Infrastructure Library),它彙集了IT服務業內的最佳實踐,是指導如何在運維管理中定義人員、流程、服務活動及其之間關係的指導框架。ITIL的框架包括業務管理、服務管理、IT基礎架構管理、安全管理、應用管理等,其中最核心的是服務管理中的服務支持和服務提供。
2.ITIL對IT部門的效益分析
①通過實施ITIL,IT部門可以全面監控網路、主機、存儲設備、安全設備、資料庫、中間件及應用軟體等IT資源。
②更加有利於IT部門對其負責的IT資源進行管理。
③ITIL流程可以對日常運行維護工作(或外包作業)提供一個管理框架。
④通過ITIL規範的服務台,可以建立一個更好的IT部門與業務部門溝通的平臺。
三、提高IT運維服務能力的對策
綜上可知,企業IT運維的難題並不是網路應用能力的不足而是網路運維管理能力和IT運維服務的缺失。網路運維的行業標準為ITIL,通過ITIL在企業的實踐,我們可以從以下幾個方面提高企業的網路運維服務能力:
1.基於ITIL流程和理念,建立合理的工作流程,合理安排人員崗位,明確職責,避免一旦出現故障,互相推諉或者不知該找誰解決的情況。能保障在業務中斷的第一時間找到相關負責人去解決問題,迅速恢復業務。
2.實現統一監控平臺,將各種監控資源通過集中展現和告警的方式進行統一管理,從整體上全面、快速瞭解系統當前的運行狀態,幫助運維人員快速定位故障,縮短排查時間。
3.高效的、合理的流程設置和流轉,相互關聯的事件工單、問題工單、變更工單、配置工單,使得運維工作流轉過程中的資源關聯清晰、過程明確可控、歷史數據和處理過程可查,提高業務系統運行效率。
4.高效、實時、準確的配置管理庫可為運維服務提供所需的配置項信息,可通過設定的條件自定義查詢、瀏覽、列印,不必費時費力去整理雜亂繁多的紙質記錄,降低IT運維人員工作量。
5.追蹤資產生命全周期的資產管理,可對所有台賬資源一目瞭然,對資產的使用狀態準確記錄,提高資產設備的重覆使用率,及時淘汰報廢設備,更新所需設備,提高IT資產使用率,降低IT資產投入。
6.建立知識庫積累,避免專業的技術問題永遠只能依賴某一個或幾個專業人員來解決的現狀,使運維工作中的實際經驗和專業知識得到共用,讓人人都能成為IT運維專家。
7.量化運維人員的運維工作,通過運維分析數據制定運維考核標準,逐步提高運維人員的服務水平和服務質量。
總的來說,通過有效的實施IT運維管理,降低人員工作量。同時提高IT運維人員工作效率,保障業務人員的工作效率,提高業務系統運行狀況,進而提高企業整體網路運維能力,同時提高客戶滿意度。
IT運維的內控化管理[2]
1.內部層面
1.1 轉變IT運維管理工作方式和理念,強調從技術型向管理型轉變。各企事業單位的應用系統和網路系統已經成支撐業務正常運轉的重要基礎,保證應用系統和網路系統的正常運行和使用成為了IT運維工作的重中之重。IT運維部門的職能應當從傳統的重服務輕管理,逐步轉變為服務與管理並行,規範化與人性化相輔相成的模式,以適應現代化信息的工作模式。
1.2 清理、簡化現有IT運維管理制度。形成適合企事業單位管理實際的制度體系。以建立完整、規範、有效的內部規章制度體係為目標,緊密聯繫工作實際,按照適用、可行、合法、有效的原則,對現有規章制度進行全面的自查和清理。按照IT運維管理工作的職能分工分層次、分步驟地對制訂的各項內部管理制度規程進行分類清理,從制度內容的適用性、可行性、依據和效力的合法性、執行的有效性等方面進行了逐條審核,並結合實際工作,對上級部門制訂的內部管理制度與當前實際工作不符的情況進行修訂和完善。逐步擯棄傳統的“人管人”的工作模式,形成以制度帶動人,以制度帶動工作的長效機制。
1.3 建立完善的內部信息共用平臺。從基礎設施。應用系統和業務服務三個方面打造完善的信息共用和資源監控平臺。能建立有效的信息資源庫,減低對關鍵技術人員的依賴,為日常IT運維和管理工作提供有效的保障:基礎設施管理方面,對網路,應用系統軟、硬體等資源進行細化管理,詳細記錄電子設備的出入庫、維保、報廢等環節。保證資源的有效利用;應用系統管理方面,對於各類應用系統的備份,日常維護進行有效管理控制,保證所有應用系統數據的一致性、準確性、及時性、可用性和完整性,並根據實際需要不斷進行改進、完善或更新;業務服務管理方面,儘可能的記錄所有的事件要素,包括問題描述、解決方案、操作人員等等。使得部門對人員的考核有了量化的標準,同時這個過程也有助於知識積累,形成有效的知識庫,可以極大地減少對關鍵人員的依賴,降低人員流失的風險。
1.4 建立例行巡查和通報制度。IT運維部門的負責人和業務主管可通過內部信息共用這一平臺,對業務進行有效的監督。一是定期對記錄的相關事項進行巡查,審計已登記發生事項的規範性。二是對正在發生的事件實時跟蹤,及時瞭解事件的進展狀況。規範各個流程的操作,從源頭避免業務差錯的發生。三是建立採集問題,核實整改問題及問題通報三個環節的通報機制,以提升力IT運維管理的效率。
2.外部層面
2.1 加強與內部審計部門的溝通交流和人員培訓,培養複合型管理人員。定期組織IT運維人員和內部審計人員進行學習交流,探討內控管理中存在的問題,交流內控管理的心得體會,充分發揮IT運維的技術優勢和內控的管理優勢,通過良好的內部溝通機制和完善的信息共用平臺,建立內部控制體系運行網路和內部控制管理組織體系。
2.2 加強與內部審計部門的業務合作。內部控制審計對組織治理、風險管理、改善控制效率和效果等方面有很大的促進作用。IT運維部門可配合內部審計部門進行運維管理,將內部控制審計作為常態化審計類型,通過這種方式,突出內控特點,運用規範的審計方法和評價體系,註重從控制、風險、管理等巨集觀層面查找問題、提出建議,以達到促進IT運維管理工作,完善內控和加強管理的目的。
2.3 通過內部審計部門,加強督導、整改等工作的實效。在IT運維管理工作的過程中,不僅要發現問題解決問題,更重要的是要形成完善的IT運維管理工作規範和流程,在這點上。可以通過內部審計部門對企事業單位內部進一步規範制度、程式和方法,形成對風險進行事前防範、事中控制、事後監督和糾正的動態過程和機制,強化重要業務環節的風險控制。加大檢查力度,切實有效地推進督導、整改工作,建立內控管理的長效機制。
IT運維管理的應用與實踐[3]
所謂IT運維管理是指單位IT部門採用相關的方法、手段、技術、流程和文檔等,對IT運維環境(如硬軟體環境、網路環境等)、IT業務系統和IT運維人員進行的綜合管理。
IT運維管理主要包括八個方面的管理內容。
設備管理:對網路設備、伺服器設備、操作系統運行狀況進行監控和管理。
應用/服務管理:對各種應用支持軟體如資料庫、中間件、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web等的監控與管理。
數據/存儲/容災的管理:對系統和業務數據進行統一的存儲、備份和恢復。
業務管理:包含對企業自身核心業務系統運行情況的監控和管理。對於業務的管理,主要關註該業務系統的CSF (關鍵成功因素Critical Success Factors)和KPI(關鍵績效指標Key Performance Idicators)。
目錄/內容管理:該部分主要對於企業需要統一發佈或因人定製的內容管理和對公共信息的管理。
資源資產管理:管理企業中各IT系統的資源資產情況,這些資源資產可以是物理存在的,也可以是邏輯存在的。並可以與企業的財務部門進行數據交換。
信息安全管理:該部分包含了許多方面的內容,目前信息安全管理主要依據的國際標準是ISO17799,該標準涵蓋了信息安全管理的十大控制方面,36個控制目標和127中控制方式,如企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通信與運營安全、訪問控制、業務連續性管理等。
日常工作管理:該部分主要用於規範和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共用手段。
通過以上對IT運維管理的理解,我們對伺服器設備進行了系統的維護,根據企業的實際情況制定了詳細的策略和方法,為伺服器穩定運行提供最基礎的保障。
在錯綜複雜的信息環境中,企業要想吸取有效信息就必須面對跨越異構環境(硬體平臺、操作系統、資料庫平臺……)帶來的層層障礙。針對企業的現狀以及我們對IT運維管理的理解,我們制定的策略和方法。
- 1.設備管理
設備管理主要是對網路設備、伺服器設備和操作系統等的運行狀況進行監控和管理。本公司的網路設備有思科、華為和中興等三家的產品,伺服器設備IBM、HP、Sun以及聯想等四家;操作系統更是有AIX、Windows、Unix和Solaris等四種;為保證應用系統安全穩定的運行,各應用系統也由單機系統變成了雙機備份系統,這樣就大大提高了網管系統的效率和可用性。
1.1 網路設備
對於企業來說,功能完善的網路屬於必備的條件。本公司的網路設備類型有三種,我們使用HP的軟體在被管節點上安裝代理程式通過SNMP把需要採集的信息,包括性能數據、閾值告警等傳遞到管理站,然後我們的網路管理員就可以通過網路管理站來實時的監控獲取到的相關信息來監控網路運行狀況,為網路管理和運維提供可靠依據,保證網路7x24小時穩定運行。
1.2 伺服器設備
我們首先對設備進行正常的日常維護,除此之外,我們還針對不同設備、應用系統的要求以及維護的要求分別對各類設備進行維護,如我們現有伺服器50多台,一臺一臺地檢查一次至少需要2個小時,既浪費時間也麻煩還容易出錯,給運維帶來很大的工作量,我們根據這種情況通過交換機將各伺服器連接起來,組成一個區域網,利用帶外管理軟體來管理和運維,這樣既可以快速發現故障也減少了許多的 作量。
1.3 操作系統
操作系統是一管理電腦硬體與軟體資源的程式,同時也是電腦系統的內核與基石。操作系統身負諸如管理與配置記憶體、決定系統資源供需的優先次序、控制輸入與輸出設備、操作網路與管理文件系統等基本事務。操作系統是管理電腦系統的全部硬體資源包括軟體資源及數據資源、控製程序運行、改善人機界面、為其它應用軟體提供支持等,使電腦系統所有資源最大限度地發揮作用。目前操作系統的種類繁多,但所有的操作系統具有併發性、共用性、虛擬性和不確定性四個基本特征,根據這些特征,我們制定了各類操作系統的巡檢制度,並結合網管軟體將錯誤日誌等通過簡訊或郵件發給維護人員,使我們能夠及時快速的發現和處理故障保證業務系統的正常運行。
- 2.應用/服務的管理
應用和服務的管理主要是對各種應用支持軟體如資料庫、中間件、群件以及各種通用或特定服務的監控管理,而我們維護主要對資料庫進行日常管理和維護。資料庫是應用軟體的核心,資料庫日常維護工作是系統管理員的重要職責,熟悉資料庫的維護方法對於電腦技術人員解決日常工作中的問題來說是很有幫助的。我們主要從幾個方面對資料庫進行維護。
2.1監視系統運行狀況,及時處理系統錯誤
我們通過觀察監視當前用戶以及進程的信息、目標占用空間情況、監視Server的統計數據等對資料庫進行日常巡檢和管理。
2.2備份和恢複數據庫數據
利用IBM 公司的TSM 軟體和Acronis軟體,對各系統的資料庫定期進行備份、恢復和歸檔,並定期進行資料庫優化工作。
2.3保證系統數據安全。定期更改用戶口令
- 3.業務管理
我們的業務系統分為數據採集、綜合展示和簡訊系統等部分,我們通過HP的採集軟體將網路設備和伺服器設備進行監控,並通過報表和簡訊系統展示出來,逐漸從傳統的人工監管向利用軟體自動監管的方向過度,並將出現的故障寫入服務流程單,進行總結和歸檔,為以後的維護提供原始資料。
- 4.數據/存儲/容災的管理
存儲已經從網路基礎架構外的一部分發展為網路的重要組成,從直接連接到伺服器上的一塊磁碟到龐大的網路存儲。存儲管理之所以複雜,是因為它管理的對象龐大而且層次不齊。從廣義上講,凡是一個企業的網路環境中有數據存放的地方都是存儲,這就包括了資料庫、伺服器、用戶終端,甚至鏈接的線路都和存儲發生著緊密的關聯,此外還有那些時而離線時而連線的筆記本電腦、移動硬碟、優盤、快閃記憶體等。狹義地講,存儲就是指光碟、磁碟陣列、磁帶庫、NAS、SAN系統等,而無論是廣義概念上的存儲管理還是狹義概念上的存儲管理,都不是一件容易的事情,尤其是在大型的異構網路環境之中。我們使用的存儲設備是HP StorageWorks Storage系列,利用IBM 的TSM 軟體根據各應用系統的要求制定存儲策略。通過TSM 靈活的策略管理功能,定製數據備份、恢復和存檔,規定哪些數據需要備份或存檔、存儲在哪裡以及保存多長時間等。TSM 的調度特性也消除了人工備份和跟蹤的需求,促進了存儲操作向非高峰時間的調度,從而優化了網路資源和性能。
- 5.資源資產管理
資產管理包括所有IT相關的硬體軟體的資產清單、彙總、報表及異常情況報告等管理,資產管理功能從兩個方面實現。
一是管理的資產類別,包括PC機、交換機、伺服器等硬體和操作系統、應用軟體等軟體這兩個方面。資產管理不僅可以實時監視資產的當前運行狀況,資產變動,而且對於一些非IT的設備,或者一些無法直接獲取數據的設備也應納入管理範圍,允許用戶手工增加編輯這些設備。對於資產的類別,IT運維管理系統也應允許用戶自由添加、編輯和刪除類別信息,如可以允許用戶增加一個“存儲陣列櫃”的資產類別,用戶可以自己編輯相關的屬性。這樣可以實現一個完整的資產管理。
二是基於生命周期的資產管理,資產的生命周期,主要是指資產的採購、入庫、領用、正常使用、維修、庫存、報廢等一系列資產的生命狀態。資產是個動態的概念,我們要隨時掌握當前有哪些設備是正常運行的,哪些處於維修或者庫存狀態。基於生命周期的管理可以全面的考查資產的全面信息。
我們現在根據ITIL流程中的配置流程和更改流程,利用HP的Service Manager軟體將硬體、網路設備等管理起來,通過管理可以很清楚地知道我們有哪些基礎設施,用在哪裡,怎樣合理的使用這些資源等,這樣既可以節約成本也可以提高效率。
- 6.信息安全管理
BS 7799信息安全管理體系標準強調風險管理的思想。指導組織建立信息安全管理體系ISMS。ISMS是一個系統化、程式化和文件化的管理體系,基於系統、全面、科學的安全風險評估,體現預防控製為主的思想,強調遵守國家有關信息安全的法律法規及其他合同方要求,強調全過程和動態控制,本著控制費用與風險平衡的原則合理選擇安全控制方式保護組織所擁有的關鍵信息資產,使信息風險的發生概率和結果降低到可接受水平,確保信息的保密性、完整性和可用性,保持組織業務運作的持續性。