智算中心
出自 MBA智库百科(https://wiki.mbalib.com/)
智算中心(Artificial Intelligence Data Center)
目錄 |
智算中心(Artificial Intelligence Data Center)是智慧時代最主要的計算力生產中心,它以融合架構計算系統為平臺,以數據為資源,能夠以強大算力驅動AI模型對數據進行深度加工,源源不斷產生各種智慧計算服務,並通過網路以雲服務形式供應給組織及個人。
計算是在發展過程中從最初的數值計算逐漸演變為科學計算、關鍵計算和智慧計算。每種計算都有相應的算力中心去支撐。承載科學計算的算力中心是超算中心。承載當前企業應用、政府應用和個人應用的算力中心是數量眾多的各類數據中心。當前人工智慧計算需求正呈指數級增長,未來在社會總計算需求中將占據80%以上,承載這種需求的就是AI算力中心,即智算中心。
智算中心將成為智慧時代的基礎設施。智算中心之於智慧社會,就像水利、交通之於農業社會,鐵公基、電網之於工業社會。
2021年12月10日,中科曙光宣佈,打造具備“開放、融合、綠色、普惠、服務” 能力的“5A級”智算基礎設施。
智算中心提供的算力不僅能支持人工智慧產業的發展,還對國家經濟有顯著影響。
根據IDC的《2021-2022全球計算力指數評估報告》,一個國家的計算力指數每提高1點,數字經濟將增長3.5‰,GDP將增長1.8‰。
智算中心作為人工智慧產業發展的重要底層基礎設施形態,每單位功耗所能產生的計算的能力、智能的能力,遠遠高於傳統的算力中心,也因此被推向發展新高地。
目前我國的智算中心基本採用了高標準建設,算力高的像張北超級智算中心,少的也有100P,比如哈爾濱和鄭州的智算中心(1P相當於每秒運算能力為一千萬億次,100P大約相當於5萬台高性能電腦的算力)。100P算力是很多智算中心的起步目標。
一般認為,100P大約相當於5萬台高性能電腦的算力。拿科研場景為例,天文學家在20萬顆天體的星空圖中要定位某種特征星體,如果算力不夠,耗時可能要超100天,如果擁有100P算力,定位星體所需時間僅為100秒。
2021年國家發改委等四部委聯合發佈了《全國一體化大數據中心協同創新體系算力樞紐實施方案》,明確提出在8個地區佈局全國算力網路國家樞紐節點,啟動實施“東數西算”工程,構建國家算力網路體系。
細數過來,從2021年到2022年開年,全國有不下20座城市建成或正在建智算中心。
人們的生活越來越智能化,可能很多時候大家沒有意識到在使用智能化的服務,其實打開高德導航的時候,背後全部是數據智能化應用,比如隨時提醒你改變一條道路。眾所周知,AI正在迅速融入到千行百業的多個業務場景之中,但一個看似簡單的AI應用,卻有著複雜的全鏈路過程,很多企業因資本量小、人才缺乏、AI門檻高等難題,對智能化轉型望而卻步。
智算中心作為公共基礎設施,其目標是建設類似於水利系統、水務系統、電力系統的公共性、公益性的基礎設施,承載智能化的居民生活服務、政務服務智能化。從各大已建設的智能中心架構上來看,智算中心將重點關註AI用起來和好用。事實上,算力演算法基建化錨定的是“實現智算的普惠”,智算中心的算力演算法基建化則可以很好地屏蔽複雜性,大幅降低AI使用門檻。
智算中心要滿足開放標準、集約高效和普適普惠三個基本要求。
開放標準,要求智算中心從硬體到軟體、從晶元到架構、從建設模式到應用服務都應該是開放的、標準的; 從軟體到硬體,從晶元到數據中心,開源開放的IT軟硬體基礎,讓構建智算中心成為可能。
目前ICT產業開放的邊界已經越來越廣闊,這為智算中心的開放標準提供了堅實的基礎。 從最初的操作系統、資料庫、中間件的開源到雲和大數據、演算法框架等基礎軟體的開源,再到以RISC-Ⅴ為代表的晶元的開放,以開放計算項目、開放數據中心委員會為代表的計算硬體的開放。由軟體到硬體,從晶元到數據中心,開放變革了IT產業的生產模式和應用服務模式,持續推動著信息技術的發展,促進了整個IT產業的生態繁榮。開源開放的IT,是一個健康的IT。開源開放的軟硬體,才是智算中心建設的需要。
代表數據中心最高發展水平的頂級互聯網數據中心已經大規模部署了OCP、ODCC開放計算伺服器,通信、金融、能源等關鍵領域的TOP企業也紛紛加入這些開源組織併在數據中心建設中加以實踐。像OpenStack、K8S、Hadoop、TensorFlow等面向雲計算、大數據、人工智慧等場景的開源基礎軟體,已經成為了智算中心軟體平臺的事實標準,超過80%的企業都在其數據中心中應用了開源軟體技術。開放計算給這些用戶帶來了巨大的價值,浪潮一個客戶在某個大型數據中心使用開放計算技術後,節約電力 30%,系統故障率降低 90%,投資收益提高33%,並且運維效率提升3倍以上,交付速度可達到每天1萬台。
集約高效要求智算中心的建設要有超大規模,要採用領先的技術,保證自身的先進性。 融合架構代表著數據中心體繫結構的未來發展方向。融合架構=硬體重構+軟體定義,融合架構可以讓部署幾十萬台伺服器的智算中心像一臺電腦一樣工作,從根本上改變了智算中心資源的利用方式,實現了高效集約。 目前融合架構正處於3.0階段,通過連接、池化和重構的技術,實現不同計算資源的自動化協同,通過軟體定義實現業務自動感知和資源自動重構。 硬體層面,通過硬體重構實現資源池化。例如CPU與GPU、FPGA、xPU等各種加速器將更加緊密結合,利用全互聯的新型超高速內外部互連技術,實現異構計算晶元的融合;與此同時,計算資源可以根據業務場景實現靈活調度;NVMe,SSD,HDD等異構存儲介質則通過高速互連形成存儲資源。
軟體層面,通過軟體定義,在可重構的硬體資源池基礎上,通過靈活的組織,將不同的資源池組成專業的伺服器、存儲、網路系統,並實現資源的高效管理和調度以及數據在池化資源的靈動流轉。
AI與軟體定義進一步結合,“讓合適的人乾合適的事”,智算中心的AI計算效率將實現驚人提升。
從業務上,實現了基於業務特征感知的智能資源調度,讓合適的資源在合適的位置去執行合適的任務,就像一般人常說的讓合適的人去乾合適的事一樣。 軟體定義一個典型的趨勢是軟硬體協同設計,由專用晶元、FPGA處理更多的業務負載,由軟體進行更智能化的管理和調度,這種趨勢將為AI計算帶來驚人的效率提升。例如,FPGA和NVMe組成資源池,以硬體輔助虛擬化的方式為虛擬機提供接近硬體性能的計算、存儲、網路功能,性能損失從傳統軟體模擬方式的50%降低到1%左右,性價比提升25%~50%, 百倍加速了AI作業效率。
普適普惠,則要求智算中心發揮基礎設施的社會價值,服務大眾。 智算中心作為基礎設施,要服務大眾,提供算力服務、數據服務和智能服務,支撐智慧城市、智能製造、智能家居以及智能醫療等行業的智慧化轉型。
智算中心是智慧時代社會經濟運行必不可少的基礎設施,開放計算和AI是智算中心重要發展方向。
硬體的開放設計與軟體的開源正在重構ICT產業的分工模式,在全球範圍內形成一個開放融合的產業生態。浪潮持續引領和驅動開放計算,為智算中心的建設和發展提供必要的產業基礎,目前,浪潮開放計算業務已經形成了全棧產品佈局,涵蓋計算、存儲、網路、管理等全領域,硬體支持OCP、ODCC、Open19等三大硬體開放社區標準,雲海OS全面轉向OpenStack。
斜體發展AI要創新計算技術,發展領先AI計算力,還要發展AI生態,推進產業AI化。 AI技術的應用過程就是計算力從“生產、聚合、調度到釋放”全過程,支持各類AI晶元的全系列高性能AI伺服器將成為智算中心生產算力的“動力機組”,生產出強大的計算力;優化的計算平臺、框架和底層演算法將進一步完成算力的聚合;浪潮AIStation管理平臺實現從模型開發、訓練、部署、測試、發佈的全流程的“流水式生產”與一站式交付,在業務全過程中,將算力精細調度,與應用需求完美匹配;最後,釋放算力上,通過自動機器學習平臺AutoML Suite,自動建模、自動模型壓縮、自動參數調整,降低AI應用門檻,快速釋放AI算力,推動AI在不同產業和行業的應用,成就行業大腦。
國家工業信息安全發展研究中心11日發佈的《新一代人工智慧算力基礎設施發展研究報告》認為,作為一種新型的公共服務平臺,新一代人工智慧算力基礎設施應考慮其包容性、普惠性、安全性、共用性及節能性,應成為能夠覆蓋多元算力的創新融合型算力平臺、能夠兼容行業主流軟體的開放包容型算力平臺、能夠確保自主可信和持續升級的安全可信型算力平臺、能夠實現資源跨區域流動的快速靈活型算力平臺,以及低能耗、高效能的綠色節能型算力平臺。
作為新一代人工智慧計算平臺的主要參與方,中科曙光宣佈,面向新時代新要求,打造具備“開放、融合、綠色、普惠、服務” 能力的“5A級”智算基礎設施。以期加速形成智算基礎設施的建設共識,形成可複製範本,推進行業透明化、標準化進程。“5A級”智算中心通過分散式異構並行體繫結構,搭載多類型晶元,可覆蓋全算力精度,實現多樣性算力供應,滿足不同應用場景和多類型用戶的需求。 依托全球領先的浸沒式相變液冷技術,PUE值可降至1.04,能耗降低達30%。
同時,“5A級”智算基礎設施通過多種策略,持續優化算力成本,實現綜合建設成本低於市場既有價格30%。它採取了一體化服務模式,實現從規劃設計、中心建設、到平臺運營的完整配套服務,貫穿智算基礎設施的全生命周期,為地方算力建設和產業生態繁榮提供切實保障和支撐。
智算中心VS傳統超算中心VS雲數據中心
智算中心也是一種公共基礎設施,類似於水利系統、水務系統、電力系統的公共性、公益性的基礎設施,其將承載智能化的居民生活服務、政務服務智能化。
主要指標 | 超算中心 | 雲數據中心 | 智算中心 |
---|---|---|---|
建設目的 | 面向科研人員和科學計算場景提供支撐服務 | 幫助用戶降本增效或提升盈利水平 | 促進AI產業化、產業AI化、政府治理智能化 |
技術標準 | 採用並行架構,標準不一,存在多個技術路線,互聯互通難度較大 | 標準不一、重覆建設CSP內部互聯、跨CSP隔離安全水平參差不齊 | 統一標準、統籌規劃、開放建設、互聯互通互操作、高安全標準 |
具體功能 | 以提升國家及地方自主科研創新能力為目的,重點支持各種大規模科學計算和工程計算任務 | 能以更低成本承載企業、政府等用戶個性化、規模化業務應用需求 | 算力生產供應平臺、數據開放共用平臺、智能生態建設平臺、產業創新聚集平臺 |
應用領域 | 基礎學科研究、工業製造、生命醫療,模擬模擬、氣象環境、天文地理等 | 面向眾多應用場景,應用領域和應用層級不斷擴張,支撐構造不同類型的應用 | 面向AI典型應用場景,如知識圖譜、自然語言處理、智能製造、自動駕駛、智慧農業、防洪減災等。 |
中信所《人工智慧計算中心發展白皮書(2021)》中指出,智算中心借鑒了超級計算(高性能計算)中心和雲計算數據中心大規模並行計算和數據處理的技術架構,但它是以AI專用晶元為計算算力底座的。上述三類中心的軟體和業務架構不一樣,不過雲數據中心和超算中心也可以通過延展建設,來對外提供智能算力。