从计算中心走向算力网络 人工智能悄然“豹变”

从计算中心走向算力网络 人工智能悄然“豹变”

从计算中心到计算力网络人工智能悄然“豹变”字体:大中小学校共享:从计算中心到计算力网络人工智能悄然“豹变”2022-03-17 07:55:30来源:人民邮电人工智能是数字经济高质量发展的引擎,也是新一轮科技革命和产业变革的重要驱动力。 ***总***指出,人工智能是引领这一轮科技革命和产业变革的战略性技术,具有较强溢出驱动的“头雁”效应。 加快发展新一代人工智能,是我们赢得全球科技竞争主动权的重要战略抓手。 《中华人民共和国国民经济和社会发展第十四个五年规划纲要》和《2035年远景目标纲要》也做出了相关部署。 人工智能计算中心作为人工智能的计算基础设施,受到了全世界的关注。 ***、美国、欧洲、日本等国家和地区都在积极推进人工智能计算中心的建设。 目前,人工智能计算中心的发展面临着新的形势。 一方面,随着人工智能的发展,对计算能力的需求持续上升,以鹏程盘古为代表的超大规模预训练模式开始赋能各行各业;另一方面,在国家“双碳”战略下,计算中心有必要加强整体建设,提高利用率,进一步减排降耗。 新形势下,人工智能计算中心正朝着网络化、集约化方向悄然“豹变”,将实现计算力、大模型、数据集、行业应用等人工智能要素的移动共享,成为满足新需求的重要途径。 人工智能计算中心不再是一个***的系统,而是逐渐走向一个互联互通的计算力网络,这将深化人工智能计算中心的高质量建设,是人工智能计算中心下一步发展的新形态和新范式。 新的网络技术将分布在全国各地的人工智能计算中心的节点连接起来,形成一个感知、分配和调度人工智能计算能力的网络,可以更好地聚集和共享计算能力、数据和算法资源,更好地满足我国经济社会高质量发展的新要求。 推动人工智能计算中心高质量网络化发展人工智能计算中心及其网络建设具有技术实现复杂、建设周期长、资源投入巨大、产业辐射面广等特点。为满足我国经济高质量发展需求,进一步推动人工智能集约化、大众化、低碳化发展,我国需要进一步加强战略规划和政策支持,进行系统的组织机制和制度创新,加强关键核心技术研究和标准化建设,加快人工智能计算中心向高质量网络化发展。 整体推进计算中心高质量建设,在保证已建人工智能计算中心高效运行的同时,必须坚持应用导向,坚持自主创新技术路线,加强人工智能计算中心建设。 继续推动计算中心的高效运行和可持续发展。 已建成的人工智能计算中心要加强洞察人工智能产业发展现状和调研计算力需求的能力,继续实施计算力全民化政策,为行业用户、应用开发企业、科研机构和高校提供普惠计算力服务。 联合行业组织编制人工智能应用场景项目机会清单,向人工智能企业、高校、院校和研究机构公开发布,鼓励开展人工智能试点应用和场景测试,将科技创新成果拖入商业转化,打造一批有影响力的实际应用示范项目,围绕大模型形成产业集群,进一步推动产业智能化升级。 坚持自主创新技术路线,推进开放和开源并重。 在当前日益复杂的国际竞争环境下,在推进人工智能计算中心建设过程中,应继续坚持自主技术路线,进一步加强政策支持,广泛吸引产学研各方参与,共同提升相关产业链供应链现代化水平。 同时,坚持自主创新的技术路线,并不意味着沾沾自喜,闭门造车。 在把握核心竞争力的基础上,我们仍然需要以积极开放的态度拥抱开源和开放,推动形成全球范围内共建共享的人工智能计算力和创新生态。 推进人工智能计算网络有序建设当前,适应新形势要求,推进人工智能计算网络建设,迫切需要做好以下三个方面的工作。 鼓励京津冀、长三角、粤港澳大湾区、长江经济带等人工智能发展基础较好的重点区域先行发展人工智能计算网络,有序推进地方人工智能计算中心加入计算网络,探索推广计算能力跨网结算机制,降低计算网络使用成本。 重点领域先行先试,有序推进。 在京津冀、长三角、长江经济带、粤港澳大湾区、成渝双城经济圈等人工智能创新资源聚集、产业联系紧密的重点区域,节点城市可以平等互联或一方率先组建计算网络,实现资源交换共享。 在节点自发互联、资源共享的基础上,随着更多网络互联、节点加入,积极做好相关制度安排,探索全国计算网络统一规划、统一管理的体制和机制。 鼓励人工智能计算中心加入计算力网络,降低计算力网络使用成本,推进计算力跨网结算;通过政策扶持和资金支持,鼓励不同运营商的人工智能计算中心加入计算力网络,突破资源流动的现实壁垒和地域壁垒;探索建立跨算力网络结算机制,解决AI要素评级、定价、计费、传输、核算、监控、交易等难点问题,推进人工智能计算中心间算力、数据、生态服务的可信交易,整合多方、异构资源,实现供需灵活对接、资源统一管控,在满足用户业务需求的同时实现资源利用的整体优化。 加强人工智能计算力网络核心技术研究目前,我国人工智能计算力网络技术仍处于发展初期,需要加强高效网络传输、计算力调度、联通等关键技术的R&D部署和资金支持,引导相关企业和研究机构加大投入,共同研究。 同时,在现有用电技术和管理水平的基础上,进一步加强绿色能源技术的研发和应用,提高电力利用水平,确保低碳可持续发展。 解决计算力网络关键核心技术问题,加大攻关经费保障。 发展高效网络传输技术,重点解决高带宽低成本传输、低时延低抖动连接和信息安全问题,满足海量数据传输和分布式计算需求。 开发适用于计算力网络的调度器技术,实现作业调度级别的连通,构建多级计算力调度系统层,实现全网计算力与网络的调度匹配,形成“计算力操作系统”,将全网计算力节点纳入统一体系。 围绕上述关键技术问题,与计算技术、网络技术等多技术厂商和科研机构联合攻关。通过引进相关科技研究项目。 以低碳生活技术为牵引,优化人工智能计算能力的利用和能耗。 围绕人工智能计算中心和计算能力网络的可持续发展,加强绿色能源技术的研究和应用。 在技术研发方面,出台政策推动节能技术成为计算技术研发的重点方向,绿色新能源和能效技术得到积极应用。 在规划建设方面,人工智能计算中心应尽可能靠近能源丰富、便于自然散热的区域,更多利用可再生能源,推广使用集成机柜、液冷等先进散热方案。 推进人工智能计算力网络标准化建设在推进人工智能计算力网络建设的过程中,计算力网络的集成标准非常重要。要在各人工智能计算中心自身标准研究和应用实践的基础上,积极推动建立统一的计算力网络标准,形成包括计算力网络架构、节点互联标准、应用接口标准和人工智能数据集接口标准在内的标准体系,兼容计算力、开发框架等各类软硬件平台,促进计算力网络上AI要素的开放共享。 它包括以下三个方面。 支持多样化的计算能力,形成可迭代、可替换的硬件标准体系。 国内很多厂商都在AI算力方面投入研发,逐渐形成了自主创新的技术力量。 不同厂商搭建的人工智能计算中心提供的计算能力资源包括不同指令集和架构的异构硬件,如CPU、NPU、GPU等。不同的指令集和架构有不同的优缺点,适用于不同的场景。 在支持多样化计算能力的过程中,人工智能计算中心网络需要适应不同厂商的基础设施硬件架构,同时支持不同厂商硬件的迭代和替换,以提高计算能力基础设施层的通用性和易用性。 坚持开放兼容,推进运营商、框架、平台多层次互操作软件标准体系建设。 在人工智能计算的发展中,已经形成了各具特色和优势的算子库、框架和使能平台,并拥有自己的用户群体。 计算网络需要支持多运营商库、多人工智能开发框架、多使能平台等基础软件。开发人员可以根据场景和需求使用不同的框架和支持平台。 应加快构建跨厂商的算子库、框架、使能平台等多层次标准,实现人工智能开发软件系统的分层解耦,实现层间接口的统一和互联,最终在计算力网络上形成开放的编程环境和编程接口标准。 以满足场景应用的联合创新需求为重点,推进互联互通、应用和人工智能数据集等接口标准建设。 为解决计算力感知与调度、区域协同联合应用创新和数据汇聚共享等技术难题,以计算与服务感知、互联与资源控制与调度、应用场景联合创新为目标,重点推进计算力网络架构与接口、应用与计算力感知接口、计算力与建模、人工智能数据集接口、资源信任与协作等标准化建设。 人工智能计算力网络作为计算中心的新形态和新范式,让科研创新更加高效,让人工智能与产业的融合更加深入,共建资源,共享资源,共同发展,共同推动AI产业发展。 人工智能计算网络作为一种新型基础设施,允许各地区共享资源,促进AI技术生态和商业生态的发展,加速新的科学发现,促进新场景的应用,发现新的产业方向,孵化新的发展思路,为数字经济的发展提供动力,建设***人工智能的数字基地,在***建设共同富裕的新格局中发挥人工智能的引擎作用。 就现在!进入人工智能计算网络计算力跨计算中心调度、大规模模型研究和行业跨区域创新协作、人工智能生产要素流动共享等新需求催生了人工智能计算力网络。 人工智能计算能力网络将分布在不同地方的人工智能计算中心的节点连接起来,在多个计算中心之间形成人工智能计算能力感知、分配和调度的网络。在此基础上,汇聚并共享计算能力、数据、大模型等算法资源,是人工智能计算中心进一步发展的重要方向,将有助于构建区域乃至全国范围的人工智能产业生态网络。 随着5G、人工智能、云计算、大数据等新一代信息技术在各行各业的广泛应用,行业应用的多样性带来了数据和计算能力的多样性。 未来,人工智能计算能力网络将进一步连接高性能计算中心和集成大数据中心,并演变为多元化的计算能力网络,以满足数字技术交叉应用的广泛需求。 人工智能计算力网络(artificial intelligence computing power network)是以新型网络技术连接各地人工智能计算中心,聚集计算力、算法、生态等创新资源,释放人工智能产业赋能的新范式。 通过计算力网络的建设,打造***信息基础设施的数字基地,实现“共建计算力、资源共享、共同发展”的愿景 人工智能计算力网络的核心思想是通过新的网络技术将分布在全国各地的人工智能计算中心的节点连接起来,动态、实时地感知计算力和网络资源状态,然后对计算任务进行整体分配和调度,形成一个感知、决策、分配和调度计算力的网络,在此基础上汇聚和共享计算力、应用、数据和算法资源,是多资源、多样性和异构计算力深度融合,释放人工智能赋能能力的新范式。 人工智能计算能力网络将计算能力资源从单个计算中心的统一分配转变为所有计算中心之间任务和资源的统一调度。 过去,人工智能计算中心由各地的企业和科研机构建设和使用。就像私家车一样,被大家购买、维护、使用。从整体来看,车辆利用率低,使用成本高。 整体建设人工智能等计算中心,可以实现资源的统一分配和计算任务的队列管理。就像出租车一样,车辆由出租车公司集中采购,车辆统一调配,用户排队打车。这样出租车利用率高,成本降低。但是用户需要排队使用车辆,而且需要在高峰时段等待,无法利用空闲置的社会车辆。 人工智能计算能力网络统一管理所有计算中心的计算能力需求,共享数据、算法、应用资源等。以开放统一的方式,实现全网效率***化,扩大应用与创新的空差距。 就像现在的互联网叫车平台,加入平台的车辆资源是按需求统一分配的,用户可以从叫车平台申请叫车,这样就可以利用全网的车辆资源,更快的用车,进一步降低时间预测(数据为往年仅供参考)和成本的综合成本,达到全局资源的***利用率,实现可调度、协作、汇聚、共享,从而实现网络价值***化。 从计算中心到计算网络,符合国家“双碳”目标的新要求。在国家二氧化碳排放峰值和碳中和目标下,往年10月21日,国家***等部门发布《关于严格能效约束推进重点领域节能减碳的若干意见》,将“加强数据中心绿色高质量发展”作为重点任务,鼓励重点行业使用绿色数据中心等新型基础设施,实现节能降耗。 新建大型和超大型数据中心的电力利用效率(PUE)不得超过1.3。 到2025年,数据中心的电力利用效率一般不超过1.5。 这些都对人工智能计算中心提出了进一步提高电能利用率、协调不同计算中心间计算能力调度、削峰填谷、精细化能耗控制的要求。 人工智能计算中心的总能耗很大,而且还在增长。 往年,马萨诸塞大学阿姆赫斯特分校的研究人员发现,训练一个AI模型的过程可以排放超过62.6万磅的二氧化碳,这相当于普通汽车生命周期排放量的5倍(包括汽车本身的制造过程)。 统计显示,往年,***所有数据中心总用电量达到1600亿千瓦时,需要5300万吨标准煤,占***社会总用电量的2.5%。 工信部往年7月发布的《新型数据中心发展三年行动计划(2021- 2023年)》提出,到2023年底,全国数据中心机架规模年均增速保持在20%左右。 按照目前的增长速度,2023年***所有数据中心的用电量将达到2600亿千瓦时,相当于2.6个三峡大坝的年发电量。 人工智能计算中心提供人工智能计算范式所需的特殊计算能力,配合少量通用计算能力进行数据预处理等任务,以低能耗提供高效的人工智能计算能力。 英伟达曾经估算过,在完成同样的人工智能计算任务的情况下,人工智能计算中心的计算效率是传统计算中心的10倍,能耗只有十分之一。 近年来,计算中心不断降低PUE,能耗效率显著提高。 主要有两个原因:一是得益于统筹规划,集中建设。 在全球各地区政策的引导下,数据中心从较小的传统数据中心向超大型数据中心转变。 二是受益于制冷、供配电等基础设施技术的不断完善。 这两项措施有效地降低了计算中心的PUE。 2013年之前,全国服务型数据中心平均PUE在2.5左右,而到往年底,全国服务型数据中心平均PUE近1.6,实现了质的飞跃。 虽然计算中心有效降低了PUE,但计算业务自然有波动,闲置能耗现象依然存在。 计算中心的业务波动会造成计算能力利用的高峰和低谷。在山谷中,一些计算集群没有任务运行,能量消耗会闲置。 比如超大规模的预训练模型在人工智能计算中心训练时,会占用计算中心的大部分计算能力,而且会持续数周或数月,形成计算能力的周期性波动。当计算能力峰值时,计算能力满负荷运行,其他计算任务排队,当计算能力低谷时,能耗闲置。 因此,人工智能计算中心需要采用计算能力调度,进一步降低业务峰谷带来的闲置能耗。 多个人工智能计算中心的协同调度,可以在A中心计算能力高峰时,将排队任务转移到计算能力低谷的B中心,削峰填谷,多个计算中心可以保持较高的计算能力利用率,充分利用计算中心的能量消耗。从全球和长远来看,这是进一步提高电能利用率和减少碳排放的有效途径。 国家“双碳”目标对计算中心的能耗控制提出了更高的要求。多计算中心联网感知计算应用所需的计算资源,通过任务调度做出能效比约束下的计算能力分配***决策。从全局来看,可以获得***的计算效率和能耗效率。 因此,计算力网络将成为人工智能计算中心下一步发展的新形态和新范式。 人工智能超大规模预训练模型的不断涌现,基于大规模模型开发行业的应用赋能领域经济社会发展需求的激增,人工智能数据集等AI要素的进一步流动和共享,以及社会对计算中心不断提高能耗控制水平的要求,都促使人工智能计算中心之间的连接。 人工智能计算中心不再是一个***的系统,而是一个互联的计算网络。 地理上分布的计算中心将连接在一起,为基于基本模型开发新的分布式融合应用提供支持。 计算力网络可以感知应用所需的计算力和存储资源,通过任务调度满足业务需求。多个组织的用户在多个计算中心共享计算能力和数据,以满足复杂应用对计算和数据处理的需求。 (作者徐勇)[更正]
  • 姓名:
  • 专业:
  • 层次:
  • 电话:
  • 微信:
  • 备注:
文章标题:从计算中心走向算力网络 人工智能悄然“豹变”
本文地址:https://www.55jiaoyu.com/show-268572.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦

热门文档

推荐文档