容災系統
出自 MBA智库百科(https://wiki.mbalib.com/)
容災系統(Disaster Recovery System)
目錄 |
容災系統是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統,互相之間可以進行健康狀態監視和功能切換,當一處系統因意外(如火災、地震等)停止工作時,整個應用系統可以切換到另一處,使得該系統功能可以繼續正常工作。容災技術是系統的高可用性技術的一個組成部分,容災系統更加強調處理外界環境對系統的影響,特別是災難性事件對整個IT節點的影響,提供節點級別的系統恢復功能。
完善的容災系統是企業保護核心數據,讓企業生產應用不間斷運行、為客戶提供增值服務的關鍵和前提。
從其對系統的保護程度來分,可以將容災系統分為:數據容災和應用容災。
數據容災就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個實時複製。
應用容災是在數據容災的基礎上,在異地建立一套完整的與本地生產系統相當的備份應用系統(可以是互為備份),在災難情況下,遠程系統迅速接管業務運行。數據容災是抗禦災難的保障,而應用容災則是容災系統建設的目標。
一、數據容災
所謂數據容災,就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個可用複製。在本地數據及整個應用系統出現災難時,系統至少在異地保存有一份可用的關鍵業務的數據。該數據可以是與本地生產數據的完全實時複製,也可以比本地數據略微落後,但一定是可用的。採用的主要技術是數據備份和數據複製技術。
數據容災技術,又稱為異地數據複製技術,按照其實現的技術方式來說,主要可以分為同步傳輸方式和非同步非同步傳輸方式(各廠商在技術用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占 I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據容災的距離,數據容災又可以分成遠程數據容災和近程數據容災方式。下麵,我們將主要按同步傳輸方式和非同步非同步傳輸方式對數據容災展開討論,其中也會涉及到遠程容災和近程容災的概念,並作相應的分析。
二、應用容災
所謂應用容災,是在數據容災的基礎上,在異地建立一套完整的與本地生產系統相當的備份應用系統 (可以是互為備份)。建立這樣一個系統是相對比較複雜的,不僅需要一份可用的數據複製,還要有包括網路、主機、應用、甚至IP等資源,以及各資源之間的良好協調。主要的技術包括負載均衡、集群技術。數據容災是應用容災的技術,應用容災是數據容災的目標。
在選擇容災系統的構造時,還要建立多層次的廣域網路故障切換機制。本地的高可用系統指在多個伺服器運行一個或多種應用的情況下,應確保任意伺服器出現任何故障時,其運行的應用不能中斷,應用程式和系統應能迅速切換到其它伺服器上運行,即本地系統集群和熱備份。
在遠程的容災系統中,要實現完整的應用容災,既要包含本地系統的安全機制、遠程的數據複製機制,還應具有廣域網範圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發生,系統要有強大的故障診斷和切換策略制訂機制,確保快速的反應和迅速的業務接管。實際上,廣域網範圍的高可用能力與本地系統的高可用能力應形成一個整體,實現多級的故障切換和恢復機制,確保系統在各個範圍的可靠和安全。
參照國際災難備份行業的通行災難備份等級劃分原則,根據異地數據的多寡,異地數據與生產數據的差異程度,以及災難恢復環境的完備程度,將災難備份系統從低到高劃分為如下四個等級:
第0級:沒有備援中心
這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數據備份,並且被備份的數據只在本地保存,沒有送往異地。
第1級:本地磁帶備份,異地保存
在本地將關鍵數據備份,然後送到異地保存。災難發生後,按預定數據恢復程式恢復系統和數據。這種方案成本低、易於配置。但當數據量增大時,存在存儲介質難管理的問題,並且當災難發生時存在大量數據難以及時恢復的問題。為瞭解決此問題,災難發生時,先恢復關鍵數據,後恢復非關鍵數據。
第2級:熱備份站點備份
在異地建立一個熱備份點,通過網路進行數據備份。也就是通過網路以同步或非同步方式,把主站點的數據備份到備份站點,備份站點一般只備份數據,不承擔業務。當出現災難時,備份站點接替主站點的業務,從而維護業務運行的連續性。
第3級:活動備援中心
在相隔較遠的地方分別建立兩個數據中心,它們都處於工作狀態,併進行相互數據備份。當某個數據中心發生災難時,另一個數據中心接替其工作任務。這種級別的備份根據實際要求和投入資金的多少,又可分為兩種:①兩個數據中心之間只限於關鍵數據的相互備份;②兩個數據中心之間互為鏡像,即零數據丟失等。零數據丟失是目前要求最高的一種容災備份方式,它要求不管什麼災難發生,系統都能保證數據的安全。所以,它需要配置複雜的管理軟體和專用的硬體設備,需要投資相對而言是最大的,但恢復速度也是最快的。
不同等級的災難備份系統,其投資差異非常巨大,企業需要根據實際情況,主要是遭受嚴重災難後的損失情況,以及發生災難的幾率,建立滿足企業需求的災難備份系統。
衡量容災系統的兩個技術指標:
RPO(Recovery Point Objective):即數據恢復點目標,主要指的是業務系統所能容忍的數據丟失量。
RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業務停止服務的最長時間,也就是從災難發生到業務系統恢復服務功能所需要的最短時間周期。
RPO針對的是數據丟失,而RTO針對的是服務丟失,二者沒有必然的關聯性。RTO和RPO的確定必須在進行風險分析和業務影響分析後根據不同的業務需求確定。對於不同企業的同一種業務,RTO和RPO的需求也會有所不同。
在建立容災備份系統時會涉及到多種技術,如:SAN或NAS技術、遠程鏡像技術、基於IP的SAN的互連技術、快照技術等。這裡重點介紹遠程鏡像、快照和互連技術。
1. 遠程鏡像技術
遠程鏡像技術是在主數據中心和備援中心之間的數據備份時用到。鏡像是在兩個或多個磁碟或磁碟子系統上產生同一個數據的鏡像視圖的信息存儲過程,一個叫主鏡像系統,另一個叫從鏡像系統。按主從鏡像存儲系統所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程複製,是容災備份的核心技術,同時也是保持遠程數據同步和實現災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和非同步遠程鏡像。
同步遠程鏡像(同步複製技術)是指通過遠程鏡像軟體,將本地數據以完全同步的方式複製到異地,每一本地的I/O事務均需等待遠程複製的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求複製的內容相匹配。當主站點出現故障時,用戶的應用程式切換到備份的替代站點後,被鏡像的遠程副本可以保證業務繼續執行而沒有數據的丟失。但它存在往返傳播造成延時較長的缺點,只限於在相對較近的距離上應用。
非同步遠程鏡像(非同步複製技術)保證在更新遠程存儲視圖前完成向本地存儲系統的基本I/O操作,而由本地存儲系統提供給請求鏡像主機的I/O操作完成確認信息。遠程的數據複製是以後臺同步的方式進行的,這使本地系統性能受到的影響很小,傳輸距離長(可達1000公裡以上),對網路帶寬要求小。但是,許多遠程的從屬存儲子系統的寫沒有得到確認,當某種因素造成數據傳輸失敗,可能出現數據一致性問題。為瞭解決這個問題,目前大多採用延遲複製的技術(本地數據複製均在後臺日誌區進行),即在確保本地數據完好無損後進行遠程數據更新。
2.快照技術
遠程鏡像技術往往同快照技術結合起來實現遠程備份,即通過鏡像把數據備份到遠程存儲系統中,再用快照技術把遠程存儲系統中的信息備份到遠程的磁帶庫、光碟庫中。
快照是通過軟體對要備份的磁碟子系統的數據快速掃描,建立一個要備份數據的快照邏輯單元號 LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數據塊同時快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁碟子系統中不變的數據塊(在備份過程中)。在正常業務進行的同時,利用快照LUN實現對原數據的一個完全的備份。它可使用戶在正常業務不受影響的情況下(主要指容災備份系統),實時提取當前線上業務數據。其“備份視窗”接近於零,可大大增加系統業務的連續性,為實現系統真正的7×24運轉提供了保證。
快照是通過記憶體作為緩衝區(快照cache),由快照軟體提供系統磁碟存儲的即時數據映像,它存在緩衝區調度的問題。
3.互連技術
早期的主數據中心和備援數據中心之間的數據備份,主要是基於SAN的遠程複製(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(複製)。當災難發生時,由備援數據中心替代主數據中心保證系統工作的連續性。這種遠程容災備份方式存在一些缺陷,如:實現成本高、設備的互操作性差、跨越的地理距離短(10公裡)等,這些因素阻礙了它的進一步推廣和應用。
目前,出現了多種基於IP的SAN的遠程數據容災備份技術。它們是利用基於IP的SAN的互連協議,將主數據中心SAN中的信息通過現有的TCP/IP網路,遠程複製到備援中心SAN中。當備援中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光碟庫中。這種基於IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發展前景。基於IP的互連協議包括:FCIP、iFCP、Infiniband、iSCSI等。
1.加強數據安全意識
目前國內用戶所能購買到的災難備份產品,在技術上並不落後於國外用戶,但是國外用戶在災難備份意識上,明顯比國內用戶強。國外很多企業是全球性運作,要求業務能夠7×24小時不間斷工作,對業務的連續性要求高,一旦出現中斷將造成巨大損失。而目前國內企業的規模相對較小,對業務連續運行的需求沒有那麼強烈,因此對災難備份的意識相比國外客戶來說要淡薄些。但隨著中國加入WTO市場以及跨區域、跨國企業的逐漸增加,國內客戶的認識、需求正逐漸提高。
在數據安全意識方面,國內企業常常會走兩個極端。有的企業是沒有數據安全的防衛意識,而一旦意識到要保證數據安全了,就想到容災。數據安全其實不僅僅是容災,它應該是一個體制,是一個管理範疇的問題,例如人員的管理,大樓的安全,網路的安全等,這些對於企業保證數據安全才是最重要的;其次才是技術的問題。容災系統應該具有三個層次,包括了主機的高可用系統、備份系統和整體系統故障異地容災。但是國內的許多企業在做異地容災的時候都只重視第三個層次,殊不知前兩個層次能夠有效地屏蔽掉單點故障等局部故障問題,在整個容災系統中也起著重要的作用。
2.實現容災需因地制宜
企業在制定數據安全方案時,首先要加強人員管理,建立安全體制,避免人為失誤;第二步是採用磁帶和雙機熱備份來確保本地的數據安全;第三步才是用到遠程災難備份。其實災難備份只是業務連續性的一部分,保證業務連續性應包括兩個方面:一是計劃內的停機,如備份、系統升級、維護等造成的計劃停機;另一方面是非計劃的中斷,如電源、通信鏈路、災難等引起的災難性備份。
根據企業的規模、所處地域、業務類型、網路狀況、數據量等因素,容災備份系統的建設需因地制宜地採取不同容災技術以免造成不必要的成本消耗。如果是防火災,則容災中心距離容災數據中心只需要幾百米就可以了。如果要是水災,則要求它們之間的距離在數公裡以上。如果要是預防地震的話,則需要保持幾百公裡的距離。此外,不同的地域需求也有不同,例如在北京,就可以不用考慮水災的問題,而在有的地區,地震就不用考慮。
3.容災成本考慮
企業在建立災難備份系統時,須考慮整個系統成本問題。如果實現遠程異地自動備份,租賃通信鏈路所付出的代價較大。國內中小企業目前一般採用的多是本地備份,這主要是因為資金和中國通信廣域網線路的限制。而國外用戶一般都租用比較寬的帶寬。
100公裡以上的異地災難備份將是未來的一種趨勢。這種備份目前分為兩種形式,一種是歷史備份,一般採用每天凌晨備份的形式,出現問題可以恢復一天前的數據。如果對數據要求不是很高的話,可以採用3天,甚至一周備份的方式,可以節約很多成本。
4.數據大集中有利於災難恢復
要想做好針對災難性的備份系統,數據大集中是亟待解決的問題。由於災難性備份系統的建立需要耗費很大的資金,如果每一個地市都建立一個災難性備份中心,企業是很難承受的。有效整合目前的資源,建立全省性的,或是區域性的數據集中系統,可以減少災難備份系統建設的成本。
目前最有效的備份方式是“數據大集中”,以“數據大集中”為基礎的災難備份手段,可以有效避免企業各分部各自進行備份而導致的各自為政、管理不統一的問題出現。以“數據大集中”為基礎的災難備份會使管理更有效,也便於數據統計。
實現了數據集中處理之後,企業的業務運行和經營管理將更依賴於信息系統的可靠運行。服務的連續性以及業務數據的完整性、正確性和有效性,將直接關係到企業的生產、經營與決策。一旦因自然災害、設備故障或人為因素等引起了信息系統的停頓,導致了數據丟失或業務處理的中斷,將會造成巨大的經濟損失和聲譽損害,甚至會讓企業受到致命打擊。
當然,企業的業務信息數據是有生命周期的,從產生那一刻起就進入到一個迴圈周期,從收集、複製、訪問、遷移到刪除,周而複始,而處在生命周期不同階段的信息數據的價值又是不一樣的。因此,業務信息需要不同級別的保護,其中一些信息和事務需要比以前更高的保護級別; 而另外一些信息和事務則僅需要用更有吸引力的價位提供標準保護就行了。企業在構建自己的容災系統時,有必要根據信息價值的變化實施分級存儲,以合理調配存儲資源,降低整體擁有成本。
選擇好技術與工具
建立容災系統的初衷就是以最合理的代價保護應用數據的完整性與安全性,在災難發生後儘快恢復系統運行,減少業務停頓時間,儘可能不中斷或不影響業務的正常進行,並讓災難對企業造成的損失降到最低。也就是說,無論兩個系統相隔多遠,當一個數據中心出現問題時,另一個數據中心就能迅速接替運行,同時既要保證業務數據的完整性,又要保證關鍵業務的連續性。
保持業務連續性就對災難恢復系統提出了更高的要求—要保證業務的連續性,要保證業務數據的連續性,就要對系統提供連續完整的基本數據; 縮小或取消應用系統用於批處理和數據備份(如磁帶備份)的時間,保證關鍵業務服務24小時不中斷; 為業務發展及應用提供與生產系統完全一致的開發與測試環境。
目前,在構建容災系統方面出現了四個不同發展方向的技術趨勢,這為保證企業數據的完整性及業務的連續性提供了新的不同的選擇。
1. 實時熱備份技術實時熱備份技術雖然缺點非常明顯,比如一次性投資昂貴、通信費用高等,但其優點也很明顯,就是對數據的完整性以及對業務連續性的高保證。現在,隨著業務的發展及競爭的需要,企業對業務連續性的要求將越來越高,因此用實時熱備份技術來實現災難備份已經成為了主流的發展趨勢。
2. 外包方式 災難恢復計劃涉及業務風險分析、方案選擇、實施、測試、培訓、演習等內容,是一項既複雜又煩鎖的工作。採用外包方式則可以將災難恢復計劃交給專業公司來完成,企業就可以專心從事核心業務的生產和經營了。
3. 開發災難恢復計劃輔助工具 災難恢復計劃是一項系統工程,開發災難恢復計劃輔助工具與系統是非常有必要的,這其中包括備份策略決策系統、災難恢復指引系統及自動運行管理系統等。
備份策略決策系統是以風險及損失分析為基礎的,同時考慮成本、恢復速度、防災種類、數據的完整性等因素,通過科學的分析及決策方法來確定應採用的備份策略; 災難恢復指引系統是通過將相應的災難恢復處理流程編成相應的線上指引性軟體系統,在災難發生後指導管理維護人員一步一步地依照設定好的步驟,準備相應的資源,執行相應的操作,從而準確地進行災難恢復; 自動運行管理系統是指通過軟硬體等措施,實現生產系統及備份系統的全部或部分自動操作,這樣既可減少人員的投入,又可減少由於人為失誤而帶來的損失,從而提高整個系統的安全性與可靠性。
4. 遠程容災前面提到,根據業務種類的不同,各種數據的安全級別是不同的,為防範高級別的故障(如火災、地震),可以通過遠程監控體系和報警體系實現遠程切換,切換包括IP、功能變數名稱和應用等。一旦故障解除,應用系統的主備站點恢復傳輸,採用異地複製中斷傳輸的恢復流程(軟體方式複製),斷點序號重傳,增量異地同步實現增量塊複製。
七大規劃原則
首先,在制定容災系統方案的過程中要考慮的就是容災系統建設對原有業務系統帶來的影響。比如,採用數據複製技術對系統I/O帶來的延遲,應用數據同步對日常業務處理系統帶來的壓力等。因此,企業要通過周密的測試和分析來規避容災系統建設時帶來的這些風險,以保證業務系統不會因容災系統的建設而出現在處理性能上下降的問題。
第二,數據狀態要保持同步。為保證在災難發生時,業務可以成功地切換到備份中心,就必須保證容災系統數據同步機制的可靠性。因此,建立可靠的數據同步校驗機制是必須的; 同時,還要考慮建立定時的、自動的數據同步核查對比機制,以檢驗兩個中心數據的一致性,這是數據容災工作中非常重要的一部分。
第三,容災系統的日常維護工作要儘可能輕,並能承擔部分業務處理和測試的工作。容災系統的維護和管理是容災切換成功的重要保證,在系統建設中,就必須要考慮系統的維護管理流程。生產中心任何業務處理過程的改變都必須完整地複製到備份中心; 所有新業務系統上線時,必須通知備份中心,併在備份中心配置好數據同步機制; 對原程式的改動也必須保證兩個中心同時上線。
第四,系統恢復時間要儘可能短。容災系統主要是為了實現在主中心系統發生災難時,可以在規定時間切換到備份中心,保證數據不會丟失,並且繼續向用戶提供服務。但往往在災難發生時,主要技術人員不能及時到達現場,為了順利實現系統間的切換,應該讓系統切換操作儘可能地簡單; 並建立固定化的、標準化的切換流程,要求維護人員在切換演習時嚴格按照流程的指導步驟進行操作。
第五,可實現部分業務子系統的切換和回切。當人事變動、業務變化、IT設施變化以及其他可能引起恢復規劃文檔失效的變化發生時,應及時更新各恢復規劃文檔,併在必要時啟動模擬測試或演習,確保業務連續性系統的工作能力。
第六,技術方案選擇要遵循成熟穩定、高可靠性、可擴展性、透明性的原則。目前,國際上比較成熟的容災技術包括: SAN/NAS技術、遠程鏡像技術、虛擬存儲、基於IP的SAN互連技術以及快照技術等。其中基於IP的SAN遠程數據容災備份技術應用比較廣泛,其是利用基於IP的SAN的互連協議,將主數據中心SAN中的信息通過現有的TCP/IP網路,遠程複製到備份中心的SAN中的。當備份中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光碟庫。這種基於IP的SAN遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好。基於IP的互連協議主要包括FCIP、iFCP、InfiniBand、iSCSI等。
第七,構建系統方案可以選擇多種技術組合方式。目前,業內應用較多的容災方案是基於智能存儲系統的遠程數據複製技術,它是由智能存儲系統自身實現的數據遠程複製和同步,即智能存儲系統將對該系統中的存儲器I/O操作請求複製到遠端的存儲系統中並執行。由於在這種方式下,數據複製軟體運行在存儲系統內,因此較容易實現主中心和容災備份中心的操作系統、資料庫、系統庫和目錄的實時拷貝及維護能力,且不會影響主中心主機系統的性能。如果在系統恢復場具備了實時數據,那麼就可以做到在災難發生時,及時開始應用處理過程的恢復。但這種方案也有開放性差(不同廠家的存儲設備系統一般不能配合使用)、對於主、備中心之間的網路條件(穩定性、帶寬、鏈路空間距離)要求較苛刻等缺點。
建立模型、制度及管理流程
按照容災能力的高低,目前數據容災可分為多個層次,按國際標準SHARE 78定義的容災系統有七個層次:從最簡單的僅在本地進行磁帶備份,到將備份的磁帶存儲在異地,再到建立應用系統實時切換的異地備份系統; 恢復時間也可以從幾天到小時級再到分鐘級、秒級或0數據丟失等。
無論是採用哪種容災方案,數據備份還是最基礎的,沒有備份的數據,任何容災方案都是沒有現實意義的。當然,光有備份也是不夠的,容災也必不可少。在建立容災系統的過程中,建設容災系統模型、容災演習制度以及容災系統管理流程都非常重要。
而容災系統主要是從業務連續能力、應用系統連續能力、網路連續能力三個方面來保證業務應用系統的正常運行的。
對於數據級容災,可以採用定期拷貝的方式,如磁帶備份、數據快照、廉價存儲等。定期拷貝是在業務運行過程中某一時刻對生產數據的保護,這種保護一般在業務正常運行時生成,主要預防業務因生產數據的邏輯故障而造成的停頓。當產生的數據因人為誤操作而損壞時,可以利用該定期拷貝將業務狀態恢復到損壞發生前的某一時刻(即執行定期拷貝時)的業務狀態。在業務恢復過程中,輔以其他手段(如手工錄入等),補充自定期拷貝生成時至業務中斷時這一段時間內業務運行產生的數據。
對於應用級容災,可以採用連續複製的方式,如應用分發、資料庫複製、文件系統複製、邏輯捲複製、智能存儲等。連續複製是對業務狀態數據進行持續不斷的複製,主要是預防業務系統遭遇嚴重故障而造成生產系統長時間無法修複,利用該複製作為恢復生產的基礎。在進行業務恢復時,利用複製結果可以恢復系統中斷現場的生產數據,從而恢復業務。
容災演習是對容災項目建設是否成功的檢驗標準,也是對容災維護管理流程和文檔檢測的重要手段。通過演習可以及時發現問題,並確保各相關部門的配合和人員的操作准確無誤。容災演習的主要工作內容包括:對業務影響的評估、核查恢復規劃、制定回退計劃、觸發演習場景、執行恢復規劃、總結報告、維護等。
此外,容災系統管理流程的建立也至關重要,容災項目的實現過程是人員、流程、技術相輔相成的過程,容災管理流程的建立是容災系統成功運作的保證。通過固化的流程,指導維護人員按照實現規定的步驟進行系統切換和演習工作,才能保證容災技術的最終實現。