智算中心

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

智算中心(Artificial Intelligence Data Center)

目录

什么是智算中心

  智算中心(Artificial Intelligence Data Center)是智慧时代最主要的计算力生产中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动AI模型对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式供应给组织及个人。

  计算是在发展过程中从最初的数值计算逐渐演变为科学计算、关键计算和智慧计算。每种计算都有相应的算力中心去支撑。承载科学计算的算力中心是超算中心。承载当前企业应用、政府应用和个人应用的算力中心是数量众多的各类数据中心。当前人工智能计算需求正呈指数级增长,未来在社会总计算需求中将占据80%以上,承载这种需求的就是AI算力中心,即智算中心。

  智算中心将成为智慧时代的基础设施。智算中心之于智慧社会,就像水利交通之于农业社会,铁公基、电网之于工业社会

  2021年12月10日,中科曙光宣布,打造具备“开放、融合、绿色、普惠、服务” 能力的“5A级”智算基础设施。

智算中心产生背景

带动国家经济发展

  智算中心提供的算力不仅能支持人工智能产业的发展,还对国家经济有显著影响。

  根据IDC的《2021-2022全球计算力指数评估报告》,一个国家的计算力指数每提高1点,数字经济将增长3.5‰,GDP将增长1.8‰。

  智算中心作为人工智能产业发展的重要底层基础设施形态,每单位功耗所能产生的计算的能力、智能的能力,远远高于传统的算力中心,也因此被推向发展新高地。


  目前我国的智算中心基本采用了高标准建设,算力高的像张北超级智算中心,少的也有100P,比如哈尔滨和郑州的智算中心(1P相当于每秒运算能力为一千万亿次,100P大约相当于5万台高性能电脑的算力)。100P算力是很多智算中心的起步目标。

  一般认为,100P大约相当于5万台高性能电脑的算力。拿科研场景为例,天文学家在20万颗天体的星空图中要定位某种特征星体,如果算力不够,耗时可能要超100天,如果拥有100P算力,定位星体所需时间仅为100秒。

  2021年国家发改委等四部委联合发布了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出在8个地区布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。

  细数过来,从2021年到2022年开年,全国有不下20座城市建成或正在建智算中心。

为生活带来便利

  人们的生活越来越智能化,可能很多时候大家没有意识到在使用智能化的服务,其实打开高德导航的时候,背后全部是数据智能化应用,比如随时提醒你改变一条道路。众所周知,AI正在迅速融入到千行百业的多个业务场景之中,但一个看似简单的AI应用,却有着复杂的全链路过程,很多企业因资本量小、人才缺乏、AI门槛高等难题,对智能化转型望而却步。

  智算中心作为公共基础设施,其目标是建设类似于水利系统、水务系统、电力系统的公共性、公益性的基础设施,承载智能化的居民生活服务、政务服务智能化。从各大已建设的智能中心架构上来看,智算中心将重点关注AI用起来和好用。事实上,算力算法基建化锚定的是“实现智算的普惠”,智算中心的算力算法基建化则可以很好地屏蔽复杂性,大幅降低AI使用门槛。

智算中心典型特征

  智算中心要满足开放标准、集约高效和普适普惠三个基本要求。

开放标准

  开放标准,要求智算中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;   从软件到硬件,从芯片到数据中心,开源开放的IT软硬件基础,让构建智算中心成为可能。

  目前ICT产业开放的边界已经越来越广阔,这为智算中心的开放标准提供了坚实的基础。 从最初的操作系统数据库中间件的开源到云和大数据、算法框架等基础软件的开源,再到以RISC-Ⅴ为代表的芯片的开放,以开放计算项目、开放数据中心委员会为代表的计算硬件的开放。由软件到硬件,从芯片到数据中心,开放变革了IT产业的生产模式和应用服务模式,持续推动着信息技术的发展,促进了整个IT产业的生态繁荣。开源开放的IT,是一个健康的IT。开源开放的软硬件,才是智算中心建设的需要。

  代表数据中心最高发展水平的顶级互联网数据中心已经大规模部署了OCP、ODCC开放计算服务器通信、金融、能源等关键领域的TOP企业也纷纷加入这些开源组织并在数据中心建设中加以实践。像OpenStack、K8S、Hadoop、TensorFlow等面向云计算、大数据、人工智能等场景的开源基础软件,已经成为了智算中心软件平台的事实标准,超过80%的企业都在其数据中心中应用了开源软件技术。开放计算给这些用户带来了巨大的价值,浪潮一个客户在某个大型数据中心使用开放计算技术后,节约电力 30%,系统故障率降低 90%,投资收益提高33%,并且运维效率提升3倍以上,交付速度可达到每天1万台。

集约高效

  集约高效要求智算中心的建设要有超大规模,要采用领先的技术,保证自身的先进性。 融合架构代表着数据中心体系结构的未来发展方向。融合架构=硬件重构+软件定义,融合架构可以让部署几十万台服务器的智算中心像一台计算机一样工作,从根本上改变了智算中心资源的利用方式,实现了高效集约。   目前融合架构正处于3.0阶段,通过连接、池化和重构的技术,实现不同计算资源的自动化协同,通过软件定义实现业务自动感知和资源自动重构。 硬件层面,通过硬件重构实现资源池化。例如CPUGPUFPGA、xPU等各种加速器将更加紧密结合,利用全互联的新型超高速内外部互连技术,实现异构计算芯片的融合;与此同时,计算资源可以根据业务场景实现灵活调度;NVMe,SSD,HDD等异构存储介质则通过高速互连形成存储资源。


  软件层面,通过软件定义,在可重构的硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度以及数据在池化资源的灵动流转。

  AI与软件定义进一步结合,“让合适的人干合适的事”,智算中心的AI计算效率将实现惊人提升。

  从业务上,实现了基于业务特征感知的智能资源调度,让合适的资源在合适的位置去执行合适的任务,就像一般人常说的让合适的人去干合适的事一样。 软件定义一个典型的趋势是软硬件协同设计,由专用芯片、FPGA处理更多的业务负载,由软件进行更智能化的管理和调度,这种趋势将为AI计算带来惊人的效率提升。例如,FPGA和NVMe组成资源池,以硬件辅助虚拟化的方式为虚拟机提供接近硬件性能的计算、存储、网络功能,性能损失从传统软件模拟方式的50%降低到1%左右,性价比提升25%~50%, 百倍加速了AI作业效率。

普适普惠

  普适普惠,则要求智算中心发挥基础设施社会价值,服务大众。 智算中心作为基础设施,要服务大众,提供算力服务、数据服务和智能服务,支撑智慧城市智能制造智能家居以及智能医疗等行业的智慧化转型。

智算中心发展方向

  智算中心是智慧时代社会经济运行必不可少的基础设施,开放计算和AI是智算中心重要发展方向。

发展开放计算,筑基智算中心

  硬件的开放设计与软件的开源正在重构ICT产业的分工模式,在全球范围内形成一个开放融合的产业生态。浪潮持续引领和驱动开放计算,为智算中心的建设和发展提供必要的产业基础,目前,浪潮开放计算业务已经形成了全栈产品布局,涵盖计算、存储、网络、管理等全领域,硬件支持OCP、ODCC、Open19等三大硬件开放社区标准,云海OS全面转向OpenStack。

AI计算是智算中心的核心

斜体发展AI要创新计算技术,发展领先AI计算力,还要发展AI生态,推进产业AI化。 AI技术的应用过程就是计算力从“生产、聚合、调度到释放”全过程,支持各类AI芯片的全系列高性能AI服务器将成为智算中心生产算力的“动力机组”,生产出强大的计算力;优化的计算平台、框架和底层算法将进一步完成算力的聚合;浪潮AIStation管理平台实现从模型开发、训练、部署、测试、发布的全流程的“流水式生产”与一站式交付,在业务全过程中,将算力精细调度,与应用需求完美匹配;最后,释放算力上,通过自动机器学习平台AutoML Suite,自动建模、自动模型压缩、自动参数调整,降低AI应用门槛,快速释放AI算力,推动AI在不同产业和行业的应用,成就行业大脑。

  国家工业信息安全发展研究中心11日发布的《新一代人工智能算力基础设施发展研究报告》认为,作为一种新型的公共服务平台,新一代人工智能算力基础设施应考虑其包容性、普惠性、安全性、共享性及节能性,应成为能够覆盖多元算力的创新融合型算力平台、能够兼容行业主流软件的开放包容型算力平台、能够确保自主可信和持续升级的安全可信型算力平台、能够实现资源跨区域流动的快速灵活型算力平台,以及低能耗、高效能的绿色节能型算力平台。

  作为新一代人工智能计算平台的主要参与方,中科曙光宣布,面向新时代新要求,打造具备“开放、融合、绿色、普惠、服务” 能力的“5A级”智算基础设施。以期加速形成智算基础设施的建设共识,形成可复制范本,推进行业透明化、标准化进程。“5A级”智算中心通过分布式异构并行体系结构,搭载多类型芯片,可覆盖全算力精度,实现多样性算力供应,满足不同应用场景和多类型用户的需求。 依托全球领先的浸没式相变液冷技术,PUE值可降至1.04,能耗降低达30%。

   同时,“5A级”智算基础设施通过多种策略,持续优化算力成本,实现综合建设成本低于市场既有价格30%。它采取了一体化服务模式,实现从规划设计、中心建设、到平台运营的完整配套服务,贯穿智算基础设施的全生命周期,为地方算力建设和产业生态繁荣提供切实保障和支撑。

智算中心VS传统超算中心VS云数据中心

智算中心也是一种公共基础设施,类似于水利系统、水务系统、电力系统的公共性、公益性的基础设施,其将承载智能化的居民生活服务、政务服务智能化。

主要指标 超算中心 云数据中心 智算中心
建设目的 面向科研人员和科学计算场景提供支撑服务 帮助用户降本增效或提升盈利水平 促进AI产业化、产业AI化、政府治理智能化
技术标准 采用并行架构,标准不一,存在多个技术路线,互联互通难度较大 标准不一、重复建设CSP内部互联、跨CSP隔离安全水平参差不齐 统一标准、统筹规划、开放建设、互联互通互操作、高安全标准
具体功能 以提升国家及地方自主科研创新能力为目的,重点支持各种大规模科学计算和工程计算任务 能以更低成本承载企业、政府等用户个性化、规模化业务应用需求 算力生产供应平台、数据开放共享平台、智能生态建设平台、产业创新聚集平台
应用领域 基础学科研究、工业制造、生命医疗,模拟仿真、气象环境、天文地理等 面向众多应用场景,应用领域和应用层级不断扩张,支撑构造不同类型的应用 面向AI典型应用场景,如知识图谱自然语言处理智能制造、自动驾驶、智慧农业、防洪减灾等。

  中信所《人工智能计算中心发展白皮书(2021)》中指出,智算中心借鉴了超级计算(高性能计算)中心和云计算数据中心大规模并行计算数据处理的技术架构,但它是以AI专用芯片为计算算力底座的。上述三类中心的软件和业务架构不一样,不过云数据中心和超算中心也可以通过延展建设,来对外提供智能算力。

相关条目

本条目对我有帮助0
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

上任鹅陈.

评论(共0条)

提示:评论内容为网友针对条目"智算中心"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

闽公网安备 35020302032707号