分散式計算
出自 MBA智库百科(https://wiki.mbalib.com/)
分散式計算(Distributed Computation)
目錄 |
分散式計算是一種計算方法,和集中式計算是相對的。隨著計算技術的發展,有些應用需要非常巨大的計算能力才能完成,如果採用集中式計算,需要耗費相當長的時間來完成。分散式計算將該應用分解成許多小的部分,分配給多台電腦進行處理。這樣可以節約整體計算時間,大大提高計算效率。
廣義定義
所謂分散式計算是一門電腦科學,它研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然後把這些部分分配給許多電腦進行處理,最後把這些計算結果綜合起來得到最終的結果。 最近的分散式計算項目已經被用於使用世界各地成千上萬位志願者的電腦的閑置計算能力,通過網際網路,您可以分析來自外太空的電訊號,尋找隱蔽的黑洞,並探索可能存在的外星智慧生命;您可以尋找超過1000萬位數字的梅森質數;您也可以尋找併發現對抗艾滋病病毒的更為有效的藥物。這些項目都很龐大,需要驚人的計算量,僅僅由單個的電腦或是個人在一個能讓人接受的時間內計算完成是決不可能的。
中國科學院的定義
分散式計算是一種新的計算方式。所謂分散式計算就是在兩個或多個軟體互相共用信息,這些軟體既可以在同一臺電腦上運行,也可以在通過網路連接起來的多台電腦上運行。分散式計算比起其它演算法具有以下幾個優點:
1、稀有資源可以共用。
2、通過分散式計算可以在多台電腦上平衡計算負載。
3、可以把程式放在最適合運行它的電腦上。
其中,共用稀有資源和平衡負載是電腦分散式計算的核心思想之一。
實際上,網格計算就是分散式計算的一種。如果說某項工作是分散式的,那麼,參與這項工作的一定不只是一臺電腦,而是一個電腦網路,顯然這種“螞蟻搬山”的方式將具有很強的數據處理能力。網格計算的實質就是組合與共用資源並確保系統安全。
分散式計算是利用互聯網上的電腦的中央處理器的閑置處理能力來解決大型計算問題的一種計算科學。下麵,看看它是怎麼工作的:
首先, 要發現一個需要非常巨大的計算能力才能解決的問題。這類問題一般是跨學科的、極富挑戰性的、人類急待解決的科研課題。其中較為著名的是:
解決較為複雜的數學問題,例如:GIMPS(尋找最大的梅森素數)。
研究尋找最為安全的密碼系統,例如:RC-72(密碼破解)。
生物病理研究,例如:Folding@home(研究蛋白質摺疊,誤解,聚合及由此引起的相關疾病)。
各種各樣疾病的藥物研究,例如:United Devices(尋找對抗癌症的有效的藥物)。
信號處理,例如:SETI@Home(在家尋找地外文明)。
在以前,這些問題都應該由超級電腦來解決。但是, 超級電腦的造價和維護非常的昂貴,這不是一個普通的科研組織所能承受的。隨著科學的發展,一種廉價的、高效的、維護方便的計算方法應運而生——分散式計算!
隨著電腦的普及,個人電腦開始進入千家萬戶。與之伴隨產生的是電腦的利用問題。越來越多的電腦處於閑置狀態,即使在開機狀態下中央處理器的潛力也遠遠不能被完全利用。可以想象,一臺家用的電腦將大多數的時間花費在“等待”上面。即便是使用者實際使用他們的電腦時,處理器依然是寂靜的消費,依然是不計其數的等待(等待輸入,但實際上並沒有做什麼)。互聯網的出現, 使得連接調用所有這些擁有限制計算資源的電腦系統成為了現實。
那麼,一些本身非常複雜的但是卻很適合於劃分為大量的更小的計算片斷的問題被提出來,然後由某個研究機構通過大量艱辛的工作開發出計算用服務端和客戶端。服務端負責將計算問題分成許多小的計算部分,然後把這些部分分配給許多聯網參與計算的電腦進行並行處理,最後將這些計算結果綜合起來得到最終的結果。
當然,這看起來也似乎很原始、很困難,但是隨著參與者和參與計算的電腦的數量的不斷增加, 計算計劃變得非常迅速,而且被實踐證明是的確可行的。目前一些較大的分散式計算項目的處理能力已經可以達到甚而超過目前世界上速度最快的巨型電腦。
您也可以選擇參加某些項目以捐贈Cpu的內核處理時間,您將發現您所提供的 中央處理器 內核處理時間將出現在項目的貢獻統計中。您可以和其他的參與者競爭貢獻時間的排名,您也可以加入一個已經存在的計算團體或者自己組建一個計算小組。這種方法很利於調動參與者的熱情。
隨著民間的組隊逐漸增多, 許多大型組織(例如公司、學校和各種各樣的網站)也開始了組建自己的戰隊。同時,也形成了大量的以分散式計算技術和項目討論為主題的社區,這些社區多數是翻譯製作分散式計算項目的使用教程及發佈相關技術性文章,並提供必要的技術支持。
那麼誰可能加入到這些項目中來呢? 當然是任何人都可以! 如果您已經加入了某個項目,而且曾經考慮加入計算小組, 您將在中國分散式計算總站及論壇里找到您的家。任何人都能加入任何由我站的組建的分散式計算小組。希望您在中國分散式總站及論壇里發現樂趣。
參與分散式計算——一種能充分發揮您的個人電腦的利用價值的最有意義的選擇——只需要下載有關程式,然後這個程式會以最低的優先度在電腦上運行,這對平時正常使用電腦幾乎沒有影響。如果你想利用電腦的空餘時間做點有益的事情,還猶豫什麼?馬上行動起來吧,你的微不足道的付出或許就能使你在人類科學的發展史上留下不小的一筆呢!
BOINC是Berkeley Open Infrastructure for Network Computing的簡稱,即伯克利開放式網路計算平臺。
BOINC是不同分散式計算可以共用的分散式計算平臺。不同分散式計算項目可以直接使用BOINC的公用上傳下載系統、統計系統等,這樣不僅可以發揮各個分散式計算之間的協調性,也能使分散式計算的管理、使用更加方便易用。
BOINC項目由美國加州大學伯克利分校(U.C.Berkeley)主持發起。
BOINC項目由美國國家科學基金會(National Science Foundation)贊助。
BOINC有自己的積分系統,因為在BOINC上可以運行的項目千差萬別,比如項目A的任務包(Workunit,簡稱WU)在某台機器里需要3個小時完成,而項目B的任務包在這台機器里需要30個小時才能完成,顯然用WU的數目來衡量工作量是不可行的;類似的,機器性能也有差別,用CPU時間來衡量工作量更是不行的。積分系統只能通過一定的演算法得到用戶實際完成的計算量,這篇文章對BOINC中積分的計算方法進行了說明。
據中國互聯網信息中心(CNNIC)的統計信息,中文網民人數占世界的比重已經增長到了12%左右,並且還在快速增長著。這裡所說的中文網民是包括大陸、香港、澳門、臺灣和海外華人的。
相比於互聯網在中國的快速發展,中國的分散式計算卻發展緩慢。就我看來,網民數量的統計並不能十分客觀地反映一個國家信息化程度的高低,而參與分散式計算網民的數量或比例卻可以明顯地看出這個國家科學普及化的水平。在這方面,毋庸置疑,歐美國家是十分領先的。在北歐國家,幾乎一半的電腦參加了分散式計算項目,這是一個驚人的數字。再讓來看看中國和印度,儘管擁有了不少最新科技,且看上去在網路普及化進程中有不錯表現,但是在分散式計算方面卻很薄弱。讓來看些例子:
SETI@home是世界上最大的分散式計算項目。從中國的參與人數來看,它在中國也是最著名的項目。它通過使用聯網的電腦下載程式分析射電望遠鏡所收到的訊號,來搜索地球外的生命跡象。
儘管中國在分散式計算中取得了進步,中國的國際排名從29上升到了24,但是中國用戶卻仍然只完成了日本用戶完成的工作數的十分之一,而日本,這個高度發達的國家網民人數卻少於中國。看來,提高網民素質、提高科學普及化程度也是十分重要的。印度和一些中東國家也有相似的問題,而中歐國家明顯在這方面作得比較好,不少獨聯體國家所完成的數據量已經超過了俄羅斯聯邦的總合。
Folding@home是一個研究蛋白質摺疊,誤解,聚合及由此引起的相關疾病的分佈式計算工程。它使用聯網式的計算方式和大量的分散式計算能力來模擬蛋白質摺疊的過程,並指引對由摺疊引起的疾病的一系列研究。
中國參加這個項目的人數在不斷增多,截至2011年3月底,中國3213團隊的用戶數達到3025人,活躍用戶有190人左右。
參與該項目 Climateprediction工程是把最新的氣候預測模型通過家庭、學校、辦公室的電腦來進行計算。這些計算完成的結果將會組成世界最大的氣象預測模型。氣候改變了,而對此的行動已經是全球重要的話題。這將影響到人類的農業生產、水資源量、生態系統、能源需求、保險花費和很多其他與人類息息相關的方面。確鑿的科學依據表明,地球在在接下來的幾個世紀可能會變得溫暖,但是無法估計到底變化會有多大。如果您參加,這將能有助與21世紀的氣候科學預測。
中國已經有了很多電腦,其中不乏性能極其先進的。而他們中的大多數僅僅是打字、播放幻燈而已。這不能不說是一種資源的浪費。
從另外一個角度看,不難發現發達國家和發展中國家的差距。把這種現象稱為數字鴻溝。另一個現象同樣令人痛心疾首,所有的分散式計算項目都是由發達國家,如:美國、德國、英國、日本等發起的,這一方面也加深了科學鴻溝。斯坦福大學化學系的戈爾哈姆·理查德·切爾曼教授說,分散式計算將加快整個人類的科學進程。科學家們可以完成以前從來想不到要去完成的,或者要花幾十年幾百年才能完成的計算任務。這是的確是千真萬確的,但是這種計算從一定程度上助長了發達國家的科學壟斷。
中國有關部門也開始意識到分散式計算的重要性,一些大學教授和科學家也開始鑽研分散式計算科學,比如:中科院CAS@HOME和清華大學的“清水計劃”。
(一)分散式計算與人類
由於現代人類各個課題學科繁多,涉及面廣,而分類又細。而當今的每個學科似乎都需要進行大量的計算。天文學研究組織需要電腦來分析太空脈衝(pulse),星位移動;生物學家需要電腦來模擬蛋白質的摺疊(protein folding)過程;藥物學家想要研製剋服艾滋病(AIDS)或非典(SARS)的藥物;數學家想計算最大的質數和圓周率的更精確值;經濟學家要用電腦分析計算在幾萬種因素考慮下某個企業/城市/國家的發展方向從而巨集觀調控。由此可見,人類未來的科學,時時刻刻離不開計算。而分散式計算(Distributed Computing),以其獨特的優點——便宜、高效而越來越受到社會的關註。
(二)分散式計算格局
就目前來看,全球的各種分散式計算已有約百種,這些計算大多互無聯繫、獨立管理、獨立使用自己的一套軟體。這種分散式計算互相割據的格局很不利於發展的需要。比如,某個生物學研究機構需要利用世界各地誌願者的電腦來模擬蛋白質摺疊的過程,那個生物學研究機構沒有分散式計算方面的專業人才,而但是社會上也並沒有任何公司可以提供這樣的服務,他們就不得不自己花費大量精力用於開發分散式計算的伺服器、客戶端。這樣一來,原來可以用於研究生物的時間用在了別的地方。剛纔提到的生物學研究機構就是美國斯坦福大學的PANDE小組。
(三) BOINC一統大局
為了改變這種雜亂無章的割據,美國加州大學伯克利分校(UC Berkeley)首先提出了建立BOINC的想法。BOINC的中文全稱是伯克利開放式網路計算平臺(Berkeley Open Infrastructure for Network Computing),他能夠把許多不同的分散式計算項目聯繫起來統一管理。並對電腦資源進行統一分配(比方您對研究艾滋病藥物和探索地外文明同時感興趣,您就可以同時選擇兩個運行,並設置優先順序)。對統計評分系統進行統一管理(無論你在為哪個項目工作,只要你奉獻CPU時間長,就積分高)。有了這樣的統一管理,的確給PANDE小組這樣的科學研究機構提供了便利!
BOINC已經成熟,多個項目已經成功運行於BOINC平臺之上,如SETI@home,LHC@home等。
對用戶方來說,加入任何一個項目之前,您必須確保您可以信任項目的研製方,主要涉及兩方面:
(1)電腦上的隱私數據
您從項目方下載的計算程式,運行在本機,而且可以訪問網路,因此,只有可靠的項目方纔能保證您電腦上的隱私數據不會惡意的取走、修改等。
(2)個人電腦的壽命
雖然分散式計算的計算程式一般運行在最低優先順序,不會對您的日常使用造成影響,但計算程式全負荷運行時仍會對電腦的各個部件造成一定壓力,要瞭解更多請查看分散式計算對電腦軟硬體的影響。
對項目方來說,參加分散式計算的志願者畢竟不是項目方自己的人員,並不是全體可信任,因此必須引入一定的冗餘電腦制,才能防止計算錯誤、惡意作弊等。