超级算力背后,TA们扮演了什么角色?

来源:中国科学报

2021-07-20 17:18:34

如果把人工智能喻为一盘佳肴,数据如同原料、算法相当菜谱,而算力,恰如那个后厨掌勺的厨师。


数据、算法和算力被视为驱动人工智能(AI)发展的“三驾马车”。


随着人工智能在加速经济发展和数字转型中的作用越来越突出,以人工智能新型计算(智算)能力为代表的人工智能计算中心也成为新型基础设施的重要组成部分。


提升人工智能算力水平、做强人工智能算力产业,已经成为全球40多个国家的战略共识。在我国,作为新一轮科技革命和产业变革的“生产要素”,人工智能计算能力建设已驰入新的“赛道”。


“抢滩”AI算力


日前,全国首个人工智能计算中心在武汉建成投运。与此同时,一大批人工智能计算中心也“正在赶来”……


截至目前,我国已批复建设15个国家新一代人工智能创新发展试验区。


6月29日,长沙市发布《长沙建设国家新一代人工智能创新发展试验区三年行动计划(2021-2023年)》。


此前数周,武汉市更是以“雷神山速度”,建成投运全国首个人工智能计算中心。


当日,武汉大学、中国科学院自动化所等20多家科研院所和企业入驻试验区。


此外,西安、成都、河南、上海、南京、杭州、广州、大连、青岛、长沙、太原、南宁等多个城市的人工智能计算中心也“正在赶来”。


IDC预测,中国AI服务器市场在2018年至2023年的年复合增长率为37.9%,到2023年,整体通用服务器市场仅增长34.5%,以此估算,到2023年,AI算力占比至少可提高到72%。


有专家预言,当前已进入“智慧时代”,计算技术、产品与产业面临多元化、巨量化、生态化三大挑战,计算产业格局有望重塑。这些变化将促使“计算”向“智算(AI计算)”加速进化,“十四五”时期,“计算需求将呈指数级增长”。


“超算”到“智算”


计算技术与产业正在催生AI计算迅猛发展,与此同时,公众对“超算”和“智算”的性能和特点并不清楚,有时甚至张冠李戴。


计算是人类认知世界的一种模式。从大型计算机到PC,从智能手机到可穿戴设备,计算能力正一步步拓展着人类的能力范畴。


随着技术进步和社会经济的发展,计算能力建设也不断演进,出现了超级计算中心、云计算数据中心和人工智能计算中心等不同形态的算力基础设施。


20世纪60年代,为对重大科学问题和军事研究进行模拟,超级计算机(又被称作高性能计算机)和超级计算中心应运而生。


2007年,互联网、大数据和云计算技术的成熟带动了云计算数据中心的建设。


2012年以来,以深度学习计算模式为主的人工智能技术迅速发展,计算机视觉、自然语言处理等应用越来越广,对算力的需求也爆炸式增长,专门的人工智能计算中心开始进入人们视野。


“理论上,传统的神经网络训练过程也是在求解方程,这点与科学计算没有太大区别。但神经网络除了训练还有推理过程(模型的使用),这部分计算对精度要求较低,因此AI计算机评价性能使用的是‘OPS’(每秒操作次数),而传统高性能计算更强调双精度(求解方程对精度有理论方面的要求)。”中国计算机学会高性能计算专业委员会副主任、超级计算创新联盟秘书长迟学斌告诉《中国科学报》。


专家认为,超算中心和人工智能计算中心两者战略定位不同、服务领域不同、所使用的技术体系也不同,是计算领域的两个重要发展方向。


在战略定位方面,超算中心立足于科学研究,是支撑国家科研体系的大科学装置,主要解决大系统、大工程、大科学的问题。超级计算机系统对国家提升整体科研创新实力和应对科学挑战具有重要战略意义。


人工智能计算中心立足于赋能产业,是支撑数字经济的基础设施。提前规划和布局人工智能计算中心,可为大规模AI算法和模型研究形成条件支撑,促进人工智能赋能各行业,实现数字经济高质量发展。


从应用方面说,超算中心主要应用于重大工程或科学计算领域的通用和大规模科学计算。如新材料、新能源、新药设计、高端装备制造、航空航天飞行器设计等领域的研究。


人工智能计算中心主要支持人工智能与传统行业的融合创新与应用,提升传统行业的生产效率。在自动驾驶,辅助诊断、智能制造等方面大显身手。


在技术架构上,超算的核心计算能力由高性能CPU或协处理器提供,注重双精度通用计算能力,追求精确的数值计算,单位是“FLOPS”(每秒浮点运算能力)。


人工智能的核心计算能力由训练、推理等专用计算芯片提供,注重单精度、半精度等多样化计算能力,是一种不确定的近似计算其单位应该是“OPS”。


“这是两个不同的单位,不能直接横向比较。”中国计算机学会高性能计算专业委员会秘书长张云泉说。


精准适配算力


随着人工智能技术的应用越来越广泛,人工智能与超算的结合将愈来愈紧密。


作为一种通用算力,超级计算机的高精度计算能力更强,应用范围更广。


专家介绍说,超算系统当然可用于完成人工智能计算任务,但成本高、效率低,浪费严重。


曾有超算中心通过增加图形加速器硬件(GPU)来应对AI类需求,但算力消耗巨大,以训练一个有1750亿参数的GPT-3模型为例,需要“355个GPU年”(一块GPU运行355年的运算量),一次训练费用就高达460万美元。


显然,使用超算技术架构处理人工智能业务成本高昂(经费或者时间)。


中国工程院院士陈左宁曾用“大马拉小车”,来形容用超级计算机做AI计算虽然“十项全能”,但毕竟不是为AI量身打造。


“人工智能计算中心借鉴了传统超算中心大规模并行和数据处理的技术架构,以图形芯片为计算算力底座,为人工智能快速赋能发展和应用提供新型算力基础设施。”浙江大学计算机科学与技术学院副院长、浙江大学人工智能研究所所长吴飞对《中国科学报》说。


区别于传统的超算中心,人工智能计算中心因产业而生,尽管在赋能产业方面游刃有余,“但让智算中心去跑需要运行数万不同类型软件的任务,就勉为其难了”。


“赋能”新赛道


当前已从“AI+”时代步入“+AI”时代,我们迫切需要像“发电厂”一样的基础设施。


“AI+”时代的主要目标是探索人工智能自身能力,而“+AI”时代的特点是千行百业融合AI,走向场景化应用。


当前,我们迫切需要像“发电厂”一样的基础设施,提供公共AI算力,可兼顾普惠共享、安全公信、节约能耗等需求。因而,超算中心和人工智能计算中心各自肩负重要使命。


“AI具有增强任何领域的技术的潜力,是类似于内燃机或发电厂一样的赋能技术。”吴飞说,“因此,人工智能这一种赋能技术被广泛应用于其他众多领域。”


当前,我国人工智能计算发展面临根技术缺乏、基础设施不足(算力昂贵稀缺,行业数据集缺乏)、行业落地困难(应用门槛高,落地领域不均衡)、顶尖人才稀缺,基础创新能力不足等问题。


“依托全栈的人工智能计算中心,可以打造公共算力服务平台、应用创新孵化平台、产业聚合发展平台、科研创新和人才培养平台,形成‘1个人工智能计算中心+ 4个平台’的产业布局,以此实现‘政产学研用’五位一体打通,形成区域乃至全国的人工智能产业的汇聚。”中国科学技术信息研究所研究员赵志耘等人在《人工智能计算中心发展白皮书》中这样描述。


“人工智能的赋能技术依赖于算力,需要通过庞大算力对海量数据进行分析和处理,因此建设算力中心是人工智能发展的基础设施。”吴飞说。


人工智能计算中心可以将算力资源开放给企业、科研机构和高校,解决算力短缺和昂贵问题。


同时结合各地产业特点,开展竞争性和先导性应用开发和场景试验,牵引科技创新成果转化、带动相关产业升级,促进和推动人工智能产业集约集聚发展。


此外,人工智能计算中心还可作为科研创新和人才培养平台,支撑科研创新和AI人才培养。


“AI很多时候被定义为深度神经网络,科研人员可以创建出从数据到结果的模型,有些模型是无法解释其科学性的,但在应用上有一定示范效果。”迟学斌说,“因此,未来人工智能计算与科学计算是互补的。”


计算刷新未来。超算中心和人工智能计算中心都是提供多样化计算能力支撑的新型基础设施,在国家经济建设和科技自立这幢“摩天大楼”里,它们同样是“基石和承重墙”。


未来很长一段时间内,超算中心仍然是国家重要的战略科技力量,支撑我国在科研领域的纵深探索。人工智能计算中心是支撑数字经济高质量发展的新型基础设施,同时肩负培育我国新一代人工智能产业体系的重大历史使命。

 

责任编辑:侯博

Baidu
map