8月18日至19日,2023中国算力(基础设施)大会在银川举行。18日举行的“大模型时代下的AI算力新基建”分论坛颇受关注。
(资料图)
近年来,数字经济催生了云计算、数据中心等信息基础设施新基建。今年以来,AI大模型的迅速变革发展,各界广泛认为AI将深刻影响未来社会。AI大模型训练推动算力需求迅猛增长,对算力新基建各环节均提出了新的挑战。如何应对,产业链公司给出作答。
AI对算力新基建提出多重挑战
据华为发布的《智能世界2030》报告,到2030年,全球通用计算算力相比2020年将增长10倍,AI算力将增长500倍。可以说,未来全球算力增长主要依靠AI。
华为中国区数据中心高级专家赵波认为,AI超大算力规模对基础设施制冷、供电提出更高要求。相较传统数据中心,AI算力数据中心机架功率密度更高。类似ChatGPT等爆款AIGC应用的出现,使用户需求可能在短时间内大量扩张。
联通数字科技有限公司高级副总裁陈海峰说:“智算产业发展推动云计算技术进入新阶段。大模型训练、分布式推理等智算场景对云提出更多需求,促使云商加快智能算力建设、强化智算服务能力。”
陈海峰认为,新智算场景对于云服务提出三重挑战。一是复杂性挑战,包括算力需求场景逐渐细化,国内外异构芯片多样,基础设施改造难度提升。产业急需向新型的智算云服务演进,加快对智算基础设施能力建设。二是巨量性挑战,包括巨量应用对调度的挑战、巨量数据对时延的挑战和巨量模型对算力的挑战。三是融合性挑战,设备芯片产业链生态需要融合,模型和数据的生态需要融合,云、边、端管理调度需要融合。
产业链公司应对有道
为适应AI大模型浪潮下蓬勃的市场需求,算力产业链公司抢抓机遇,直面挑战。
中国联通践行新战略,全面升级智算服务,由提供通用算力升级为提供通用算力、智能算力和超算算力等多样性算力。
“中国联通以市场需求为导向,结合联通云资源布局推进智算设施有序落地。”陈海峰介绍说,中国联通将依次布局超大规模智算训练中心、智算训推一体枢纽节点和属地化智算推理节点。
超大规模智算训练中心定位集团级单体超大规模智算中心,聚焦AI大模型训练场景业务支撑。智算训推一体枢纽节点将优先选择人工智能产业和市场热点区域,及国家“东数西算”起步区节点,提供AI训推一体服务供给。最终,属地化智算推理节点将实现GPU等智算能力的属地化下沉和低延迟推理决策。
对于数据中心架构而言,赵波表示,AI算力数据中心需采用以液冷为主的多种散热方式组合,从而有效应对超过20kW的机架功率密度。随着供电系统空间占比越来越高,“高密化”的电力系统成为必需。模块化、预制化的数据中心建设方式成为应对突发性业务需求的解决方案。
AI算力的核心是GPU芯片,而目前GPU市场几乎由英伟达垄断,其训练AI大模型的专用芯片持续供不应求。国产化GPU芯片正处于关键培育期,需要产业链多方合作。
“完整的生态需要软硬件相互配合,共创开源GPU软件生态利好行业。”中兴通讯国内营销事业部综合方案总工袁越表示,希望国内GPU厂商秉承开放共赢的态度,以开源模式共建共享GPU软件生态,丰富国产硬件,加速产品落地。(刘怡鹤)
(文章来源:上海证券报·中国证券网)
标签: