信通院:智算中心建设模式的颠覆与重构

作者:中国信息通信研究院 王月 张佳琪 李洁 责任编辑:包建羽 2025.06.10 14:47 来源:通信世界网

通信世界网消息(CWW)随着DeepSeek等大模型与生成式AI的快速演进,智能机器人、智能化科研、数字孪生、智慧城市、虚拟现实等应用场景日益丰富,智算需求呈井喷式增长,传统数据中心建设模式已难以满足新的发展要求,智算中心建设正成为数字经济蓬勃发展的新引擎。本文聚焦智算中心发展新形势,从弹性灵活、集约部署、绿色低碳、高效智能等维度深入分析基础设施以及传统建设模式的新变化,探究未来技术演进方向,期望为智算中心的建设与发展提供参考。

新形势催生智算中心新变化

政策上,国家对算力中心PUE的管控持续加码,绿色低碳是智算中心建设的刚性约束。2024年发改委、工信部等部门发布《数据中心绿色低碳发展专项行动计划》,明确提出到2025年底,新建及改扩建大型和超大型数据中心电能利用效率降至1.25以内,国家枢纽节点数据中心项目电能利用效率不得高于1.2,可再生能源利用率年均增长10%,平均单位算力能效和碳效显著提高。智算中心因高密度算力设备运行与高散热需求导致能耗显著高于传统数据中心,需通过液冷散热、余热回收、AI能效优化等技术革新,以及绿电交易、分布式储能等能源管理模式创新降低PUE、CUE,构建符合国家政策要求的绿色低碳基础设施。

技术上,上层业务需求倒逼智算中心风火水电等底层基础设施加速变革。AI计算任务的复杂性和数据量的爆炸性增长,一方面要求AI芯片具备更强处理能力和更高运算效率,AI芯片设计不断向更高集成度、更多核心数、更高频率的方向发展,计算能力提升的同时功耗显著增加。另一方面,智算中心业务不确定较强、变化迭代快、流量峰谷波动显著,给供电制冷、监控运维等配套系统带来多重挑战,基础设施、服务器、芯片、网络、应用之间的高效协同与耦合成为重要方向。

弹性灵活

高密集群化部署使得供电制冷系统的复杂程度显著增加。一方面,GPU芯片的热设计功耗从过去的百瓦级向千瓦级跃迁,单个机柜功率密度攀升至30~200千瓦,单体楼宇负载或达兆瓦级,亟需新型高效的供电架构革新。另一方面,智算中心的运算任务会使设备负载不断变化,如在进行大规模人工智能模型训练时,服务器集群的耗电量会急剧上升,而在日常数据处理任务时,负载相对较低。业务量变化和高功耗驱动智算中心供电制冷系统实现弹性灵活、快速响应业务变化需求。

机房基础设施应综合考虑算力演进、适配多样化算力需求,按需支持多功率密度、多种制冷方案弹性匹配。规划设计上,冷源、电源、机房适当进行容量或空间预留,比如增加地板出线孔数量、设计容量冗余、制冷方式兼容性、智能电力管理等。末端部署上,机柜可采用智能小母线和智能PDU实现精细化电力分配、实时监测及智能化能源管理,提高配电系统的灵活性和运行效率。电力模块可采用“旁路满载供电+电池放电逆变补电”的混合模式确保供电稳定。制冷方式可根据训练和推理业务的占比情况选择适当比例的风液融合,构建机柜微模块、供电模块、制冷模块共用冷源、风水液冷同源、按需分配的架构,支持算力的弹性部署和迭代演进。比如中国联通粤港澳大湾区枢纽(韶关)智算中心大规模集成使用AI调优、智能小母线、光伏、储能等技术,机房灵活部署、多场景设计及高扩展性,可适配4-20kW功率并预留液冷高功率需求。

集约部署

人工智能服务场景业务追求快速响应,建设模式集约部署趋势加深。首先是建设部署预制化,传统数据中心建设周期长,通常需要三年以上,难以适应当前算力技术的快速迭代和业务智能化升级的需求。预制化模式通过标准化设计、工厂预制和现场组装,随需部署弹性扩展,有效缩短建设周期的同时减少建设过程碳排放,更能适应技术发展和市场需求。中联数据乌兰察布亚信数据港园区1号智算中心在建设过程中采用模块化设计、预制式氟泵空调机组,集装箱式柴油发电机组。

其次是产品设备集成化,基础设施层以供电系统为例,电力模块将电源转换单元、控制电路、保护装置、监测传感器等供电相关组件整合成为功能完备的模块化单元,打破了传统供电系统中各组件独立设置、相互连接的模式,实现了供电功能的高度集成与优化。维谛技术Liebert@APM2系列大功率模块化UPS以超高双变换系统效率、较小占地面积和丰富灵活的配置显著节约了运营成本。IT层,统筹规划软硬件集成,使基础设施与IT设备适配,避免重复建设和资源浪费,确保高效算力输出。目前,规划建设和设备部署的协同设计,供电制冷等机房基础设施如何更好匹配业务发展,支撑算存网发挥最大性能也是重要研究方向。

绿色低碳

根据中国信通院数据,截至2024年底,我国算力中心用电量超过1660亿千瓦时,未来几年仍将高速增长,2030年或将超过4000亿千瓦时。智算中心的绿色低碳发展趋势也在驱动商业模式创新,绿色低碳不仅是用户选购智算中心、算力服务的重要考量因素,也是企业服务方案的核心竞争力,需从基础设施、IT设备到算力平台、应用进行全方位、全流程、全技术栈的能效优化与碳排放管理。

基础设施层,可通过布局绿色能源、绿电交易、源网荷储等技术实现算力与绿色能源的协同发展。合盈数据在张家口地区开拓“绿电供绿产”模式,依托区域内的可再生能源与新型电力系统及储能配套,结合创新节能减排技术,合盈数据(怀来)科技产业园实现充足稳定的绿电供应、CUE值处于较低水平。IT设备层,多个政策文件强调提升算力能效和碳效水平,关注AI芯片、CPU、显存、带宽等设备的利用率,持续优化单位能耗输出的算力,充分发挥算力性能,减少算力设备的无效、低效运行时间。平台侧,通过灵活的算力资源选择和迁移能力、算力编排管理、碳排放监测与统计平台等适应不断变化的应用需求和能效要求。蚂蚁集团GreenOps绿色减碳平台,有效解决了大规模集群资源合理分配、分钟级有效调度、智能流量预测等行业难题,显著提升了资源利用率,从2017年到2023年,蚂蚁集团服务器CPU利用率翻5倍。

高效智能

随着技术的飞速发展,运维架构也历经了显著的变革。早期的传统运维架构主要以人工运维为主,运维人员需手动执行服务器配置、软件部署、故障排查等各类任务,效率低下且容易出错。算力中心现场生产和远程集中化管理的运维需求溢出,可利用动环监控以及更高效智能的DCIM等平台或工具,使用运维大模型等算法整合的方式来达到自动化、智能化的运维,并对执行的过程进行监管。

在全面拥抱AI的今天,为了确保智算中心能够满足人工智能业务高并发、海量数据处理、实时性要求高、模型迭代频繁需求,需要监控更多维度的指标,不仅要关注服务器CPU、内存等常规指标,更需重点监控GPU利用率、显存占用、网络带宽延迟等关键指标,同时跟踪模型训练进度、推理准确率等业务指标。因此,亟需构建更普遍的联动运维机制,整合供电制冷、算存运等多源数据,实现智能分析与快速响应,以满足人工智能业务对智算中心的复杂运维需求。如普洛斯怀来大数据科技产业园采用自研GLP DCBASE智慧化运营系统,通过AI智能算法,高效耦合运维管理系统,切实满足客户快速部署大规模算力集群应用场景。

未来发展趋势

随着上层业务愈加复杂多元,对智算中心算力性能和服务能力等软能力输出更加关注。智算中心将呈现高算力、高安全、高可用、高能效、智运营、优服务等六大特征。高算力方面,考虑综合显存容量与带宽、互联技术以及系统架构设计等因素下的真实有效算力表现。高可用方面,建设资源管控、故障分级、故障检测修复等全套能力,提高无故障运行时间。高能效方面,从硬件、软件、平台及应用等方面构建全方位能效管理体系,优化单位算力能效碳效。高安全方面,从网络、数据、应用等方面构建完善的安全保障体系。智运营方面,通过智能化管理平台、运维大模型等工具实现从数据采集到预测性维护全流程的数智化。优服务方面,适配业务场景提供灵活弹性的算存运服务,开展数据处理、模型迁移开发,提高算力普适普惠服务水平。智算中心围绕六大特征持续演进,成熟度内涵从基础设施、IT设备、软件平台向应用持续拓展,各系统高效协同与耦合趋势不断深化,推动智算产业高质量发展。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容