集群技術
出自 MBA智库百科(https://wiki.mbalib.com/)
集群技術(Cluster Technology)
目錄 |
集群技術是指一個通過網路互聯卻彼此相互獨立的電腦群組,通過協同工作可表現為一個單一的計算資源供用戶使用。即便其中的某台應用伺服器發生故障,也不會影響用戶使用。其可靠性、可擴充性和抗災難性,成為構建安全穩定的企業業務平臺的首選。
集群(cluster)技術是一種較新的技術,通過集群技術,可以在付出較低成本的情況下獲得在性能、可靠性、靈活性方面的相對較高的收益,其任務調度則是集群系統中的核心技術。集群是一組相互獨立的、通過高速網路互聯的電腦,它們構成了一個組,並以單一系統的模式加以管理。一個客戶與集群相互作用時,集群像是一個獨立的伺服器。集群配置是用於提高可用性和可縮放性。其目的是:
- 提高性能
一些計算密集型應用,如:天氣預報、核試驗模擬等,需要電腦要有很強的運算處理能力,現有的技術,即使普通的大型機其計算也很難勝任。這時,一般都使用電腦集群技術,集中幾十臺甚至上百台電腦的運算能力來滿足要求。提高處理性能一直是集群技術研究的一個重要目標之一。
通常一套較好的集群配置,其軟硬體開銷要超過100000美元。但與價值上百萬美元的專用超級電腦相比已屬相當便宜。在達到同樣性能的條件下,採用電腦集群比採用同等運算能力的大型電腦具有更高的性價比。
- 提高可擴展性
用戶若想擴展系統能力,不得不購買更高性能的伺服器,才能獲得額外所需的CPU 和存儲器。如果採用集群技術,則只需要將新的伺服器加入集群中即可,對於客戶來看,服務無論從連續性還是性能上都幾乎沒有變化,好像系統在不知不覺中完成了升級。
- 增強可靠性
集群技術使系統在故障發生時仍可以繼續工作,將系統停運時間減到最小。集群系統在提高系統的可靠性的同時,也大大減小了故障損失。
- 科學集群
科學集群是並行計算的基礎。通常,科學集群涉及為集群開發的並行應用程式,以解決複雜的科學問題。科學集群對外就好像一個超級電腦,這種超級電腦內部由十至上萬個獨立處理器組成,並且在公共消息傳遞層上進行通信以運行並行應用程式。
- 負載均衡集群
負載均衡集群為企業需求提供了更實用的系統。負載均衡集群使負載可以在電腦集群中儘可能平均地分攤處理。負載通常包括應用程式處理負載和網路流量負載。這樣的系統非常適合向使用同一組應用程式的大量用戶提供服務。每個節點都可以承擔一定的處理負載,並且可以實現處理負載在節點之間的動態分配,以實現負載均衡。對於網路流量負載,當網路服務程式接受了高入網流量,以致無法迅速處理,這時,網路流量就會發送給在其它節點上運行的網路服務程式。同時,還可以根據每個節點上不同的可用資源或網路的特殊環境來進行優化。與科學計算集群一樣,負載均衡集群也在多節點之間分發計算處理負載。它們之間的最大區別在於缺少跨節點運行的單並行程式。大多數情況下,負載均衡集群中的每個節點都是運行單獨軟體的獨立系統。但是,不管是在節點之間進行直接通信,還是通過中央負載均衡伺服器來控制每個節點的負載,在節點之間都有一種公共關係。通常,使用特定的演算法來分發該負載。
- 高可用性集群
當集群中的一個系統發生故障時,集群軟體迅速做出反應,將該系統的任務分配到集群中其它正在工作的系統上執行。考慮到電腦硬體和軟體的易錯性,高可用性集群的主要目的是為了使集群的整體服務儘可能可用。如果高可用性集群中的主節點發生了故障,那麼這段時間內將由次節點代替它。次節點通常是主節點的鏡像。當它代替主節點時,它可以完全接管其身份,因此使系統環境對於用戶是一致的。
高可用性集群使伺服器系統的運行速度和響應速度儘可能快。它們經常利用在多台機器上運行的冗餘節點和服務,用來相互跟蹤。如果某個節點失敗,它的替補者將在幾秒鐘或更短時間內接管它的職責。因此,對於用戶而言,集群永遠不會停機。 在實際的使用中,集群的這三種類型相互交融,如高可用性集群也可以在其節點之間均衡用戶負載。同樣,也可以從要編寫應用程式的集群中找到一個並行集群,它可以在節點之間執行負載均衡。從這個意義上講,這種集群類別的劃分是一個相對的概念,不是絕對的。
高性能集群系統目前在國內的應用領域主要集中在氣象雲圖分析和石油勘探的領域。這樣的應用對於高性能集群系統來說進入門檻比較低,所以目前這些領域都採用了國內廠商構建的集群系統。雖然對比要處理大量併發的小問題的用於商業計算的高可用性集群來說,高性能集群實現起來要簡單一些。但實際上,高性能集群的構建中仍有許多技術上的難點,尤其是高性能集群系統往往是針對一個很獨特的科學計算的應用,而對這種應用的實現用高性能集群系統來計算,就必須要先建立數學模型,而這樣的建模過程需要大量的對於這種應用模式的理解。總結起來,可管理性、集群的監控、並行程式的實現、並行化的效率以及網路實現是構建高性能集群的幾個難點。這其中,並行化程式的實現就是指特定應用領域的特定應用程式在集群系統上的實現。根據典型的集群體繫結構,集群中涉及到的關鍵技術可以歸屬於四個層次:
(1)網路層:網路互聯結構、通信協議、信號技術等。
(2)節點機及操作系統層高性能客戶機、分層或基於微內核的操作系統等。
(3)集群系統管理層:資源管理、資源調度、負載平衡、並行IPO、安全等。
(4)應用層:並行程式開發環境、串列應用、並行應用等。
集群技術是以上四個層次的有機結合,所有的相關技術雖然解決的問題不同,但都有其不可或缺的重要性。
集群系統管理層是集群系統所特有的功能與技術的體現。在未來按需(On Demand)計算的時代,每個集群都應成為業務網格中的一個節點,所以自治性(自我保護、自我配置、自我優化、自我治療)也將成為集群的一個重要特征。自治性的實現,各種應用的開發與運行,大部分直接依賴於集群的系統管理層。此外,系統管理層的完善程度,決定著集群系統的易用性、穩定性、可擴展性等諸多關鍵參數。正是集群管理系統將多台機器組織起來,使之可以被稱為“集群”。
- 1、進程遷移
進程遷移就是將一個進程從當前位置移動到指定的處理器上。它的基本思想是在進程執行過程中移動它,使得它在另一個電腦上繼續存取它的所有資源並繼續運行,而且不必知道運行進程或任何與其它相互作用的進程的知識就可以啟動進程遷移操作,這意味著遷移是透明的。進程遷移是支持負載平衡和高容錯性的一種非常有效的手段。對一系列的負載平衡策略的研究表明:進程遷移是實現負載平衡的基礎,進程遷移在很多方面具有適用性。
(1)動態負載平衡。將進程遷移到負載輕或空閑的節點上,充分利用可用資源,通過減少節點間負載的差異來全面提高性能。
(2)容錯性和高可用性。某節點出現故障時,通過將進程遷移到其它節點繼續恢復運行,這將極大的提高系統的可靠性和可用性。在某些關鍵性應用中,這一點尤為重要。
(3)並行文件IO。將進程遷移到文件伺服器上進行IO,而不是通過傳統的從文件伺服器通過網路將數據傳輸給進程。對於那些需向文件伺服器請求大量數據的進程,則將有效地減少通訊量,極大地提高效率。
(4)充分利用特殊資源。進程可以通過遷移來利用某節點上獨特的硬體或軟體能力。
(5)記憶體導引機制。當一個節點耗盡它的主存時,記憶體導引機制將允許進程遷移到其它擁有空閑記憶體的節點,而不是讓該節點頻繁地進行分頁或和外存進行交換。這種方式適合於負載較為均衡,但記憶體使用存在差異或記憶體物理配置存在差異的系統。
- 2、進程遷移的實現角度
進程遷移的實現複雜性及對OS 的依賴性阻礙了進程遷移的廣泛使用,尤其是對透明的進程遷移的實現。根據應用的級別,進程遷移可以作為OS 的一部分、用戶空間、系統環境的一部分或者成為應用程式的一部分。
(1)用戶級遷移:用戶級實現較為簡單,軟體開發和維護也較為容易,因此,現有的很多系統都是採用用戶級實現,如Condor和Utopia。但由於在用戶級無法獲得Kernel的所有狀態,因此,對於某類進程,無法進行遷移。另外,由於Kernel空間和User空間之間存在著壁壘,打破這個邊界獲得Kernel提供的服務需要巨大的開銷。因此,用戶級實現的效率遠遠低於內核級實現。
(2)應用級遷移:應用級遷移的實現較為簡單,可移植性好,但是需要瞭解應用程式語義並可能需對應用程式進行修改或重新編譯,透明性較差,這方面的系統有Freedman、Skordos等。
(3)內核級遷移:基於內核的實現可以充分利用OS提供的功能,全面的獲取進程和OS狀態,因此實現效率較高,能夠為用戶提供很好的透明性。但是由於需要對OS進行修改,實現較為複雜。這方面的典型系統有MOSIX和Sprite系統。
進程遷移的主要工作就在於提取進程狀態,然後在目的節點根據進程狀態再生該進程。在現實中,一個進程擁有很多狀態,並且隨著操作系統的演化,進程狀態也越來越多樣。一般來說,一個進程的狀態可以分為以下幾類:
①進程執行狀態。表示當前運行進程的處理器狀態,和機器高度相關。包括內核在上下文切換時保存和恢復的信息,如通用和浮點寄存器值、棧指針、條件碼等。
②進程式控制制。操作系統系統用來控制進程的所有信,一般包括進程優先順序、進程標識,父進程標識等。一旦系統編排了進程式控制制信息,進程遷移系統必須凍結該進程的運行。
③進程Memory狀態和進程地址空間。包括進程的所有虛存信息,進程數據和進程的堆棧信息等,是進程狀態的最主要的一部分。
④進程的消息狀態。包括進程緩衝的消息和連接(Link)的控制信息。進程遷移中通訊連接的保持以及遷移後連接的恢復是進程遷移中一項較有挑戰意義的問題。
⑤文件狀態。進程的文件狀態包括文件描述符和文件緩衝符。保持文件的Cache一致性和進程間文件同步訪問也是進程遷移機制需要著重考慮的。