为落实国家五部委《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》,中国移动在国家数据局指导下,全面参与全国一体化算力网监测调度先行先试工作。基于算力网络科学装置CFITI(CFN Innovative Test Infrastructure)的算力原生跨架构迁移和算网大脑能力实现全国一体化算力网监测调度平台的跨主体、跨区域、跨架构算力并网和异构算力池化,推动构建全国算力“一张网”、“一盘棋”。同时,积极参与构建全国一体化算力网标准体系,主导编写《全国一体化算力网 智能算力池化技术要求》和《全国一体化算力网 算力资源管理与调度技术要求》技术文件,助力实现异构算力资源的全局统筹与智能调度。本文重点解读如何从算力并网和算力池化两大核心方向全面助力全国一体化算力网高效建设。
为什么一体化算力网需要进行算力“并网”和“池化”?
全国一体化算力网作为数字经济核心基础设施,旨在通过整合多元异构算力实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需,主要面临以下问题和挑战:
一是“自建水井”太多,资源闲置严重: 算力资源建设分散孤立,“小作坊”遍地开花,缺乏统一调度。一边是算力饥渴的AI大模型嗷嗷待哺,另一边却是大量算力设备闲置“晒太阳”,整体利用率亟待提升。
二是“度量衡”不统一,难以互通: 不同厂商的芯片(CPU、GPU、AI加速卡等),如同说着不同方言、使用不同货币。缺乏统一“度量衡”,导致异构算力资源难以抽象建模形成统一的共享资源池,无法高效整合和统一调用。
三是“技术小圈子”林立,各自为政: 不同硬件厂商构筑技术“护城河”,软硬件深度捆绑。应用想跨平台?难如登天!结果就是“小圈子”生态多而不强,用户被锁定,创新被束缚。
四是“迁移成本”高昂,国产化遇冷: 应用想换个“国产芯”?移植难度大、成本高,开发者望而却步,“小圈子”生态难以突破壮大。
打通算力孤岛,实现智算资源池化
为解决上述算力利用率低、异构算力统一度量、调度难,跨架构迁移难的问题,全国一体化算力网重点从算力并网和智能算力池化两方面破局:
一方面通过算力并网打破算力孤岛,广泛接入枢纽节点和社会算力,通过网络连接实现异属异构异地的算力资源高效汇聚。通过制定开放统一API接口将分散在各地的算力中心(无论国家枢纽节点还是社会企业自建算力)通过高速网络连接起来, 实现异属(不同所有者)、异构(不同芯片架构)、异地(不同地理位置) 算力资源的可达和可用,推动算力资源便捷接入全国一体化算力网,破解算力孤岛困局,为广泛调度奠定基础。
另一方面通过算力池化对汇入的五花八门算力资源进行“抽象”和“虚拟化”管理,形成统一、透明的“算力池”。通过先进的虚拟化、资源调度和抽象建模技术,一是屏蔽异构差异, 如同一个“万能翻译官”和“统一度量衡”,将不同芯片的性能、能力转化为标准化的“算力单元”;二是资源池化管理,将物理上分散的算力,在逻辑上聚合成一个巨大的、可灵活切分的资源池;三是解耦硬件与应用,让应用开发者无需关注底层芯片异构性,大幅降低开发复杂度和运维成本,支撑全国一体算力网实现资源按需分配,动态调度和应用自由迁移,让算力服务像水电一样便捷取用。
中国移动以算力并网筑基,以算力原生“芯合”平台赋能全国一体化算力网
在算力并网方面,中国移动基于算力网络试验网CFITI共性开放创新环境,创新提出并验证三种算力并网技术模式,联动产、学、研、政推进超算并网、跨域并网调度等前沿技术验证,依托协同创新基地,联合新华三、曙光、浪潮、华为、亚信等合作伙伴创建算网协同服务子实验室,形成1+N合作生态,实现中国移动百川并网平台商用落地,当前中国移动已并网汇聚21家智算中心、3家国家级超算中心、3家量子计算中心算力资源。
在智能算力池化方面,中国移动已布局异构超融合技术体系-算力原生,攻克统一算力抽象、统一编程模型、跨架构迁移编译优化、自适应运行、XPU算力资源统一调度及纳管等关键技术,形成算力抽象、统一编程范式等系列标准,研发业内首个“芯合”异构超融合基础软件栈,当前已实现多样异构算力资源的统一适配及纳管和泛AI应用跨7家芯片厂商的一键式迁移部署,为支撑实现全国一体化算力网提供了有力支撑。
未来中国移动将加速推动算力并网和算力池化多路径示范验证和产业化规模应用,同时加大标准及开源投入,促进形成产业共识,全方位支撑全国一体化算力网建设和“东数西算”工程深入实施。