算力基础设施高质量发展技术探析与展望

责任编辑:包建羽 2025.05.20 09:57 来源:中移智库

算力,作为人工智能等新一代信息技术进步的基石,也是数字时代新质生产力的代表,近年来呈现爆发式增长态势。同时,AI应用需求高涨对算力的规模扩展、能效优化及智能化水平提出更高要求。国家相关部门对此高度重视,相继颁布了《数字中国建设整体布局规划》、《算力基础设施高质量发展行动计划》等政策措施,通过构建“顶层设计-产业推进-生态培育”全链条政策体系,为AI应用爆发式增长筑牢支撑根基。面对AI应用带来的前所未有的挑战,以往硬件与软件的发展相对独立、建设交付周期长、运营维护效率低的传统模式难以满足快速变化的市场需求。以近期DeepSeek为代表的创新实践表明,通过对软硬件深层次协同、建设交付及运营维护等工程环节进行优化,可以显著提升算力基础设施的整体性能、质量和效率,从而进一步服务于AI普惠的目标。本文将重点从算力基础设施的技术、运营、评估三方面分析其高质量发展的核心内容,并提出后续展望与建议。

背景与趋势

算力基础设施高质量发展的涵义

算力基础设施高质量发展是指通过集成信息计算力、网络运载力和数据存储力,构建新型信息基础设施,以满足社会各领域对算力的需求。该发展强调多元供给、优化布局,旨在提升算力综合供给能力,推动产业转型升级和科技创新,满足人民美好生活的需求。算力基础设施具有智能敏捷、安全可靠和绿色低碳等特征,能够有效支持数字经济的高质量发展。通过加强计算、网络、存储和应用的协同创新,推动算力资源的高效利用,促进各行业的数字化转型,实现社会高效能治理。算力基础设施的高质量发展是推动经济社会全面进步的重要基础。

面向智算的算力基础设施发展趋势

工信部等六部门联合印发的《算力基础设施高质量发展行动计划》中提到,2025年我国算力规模目标是超过300 EFLOPS(每秒百亿亿次浮点运算),其中智能算力占比达到35%。随着目前生成式人工智能、大模型应用的迅猛发展,推动智能算力的需求激增,业内普遍预计在未来五年国内外的算力规模仍将持续快速增长。据相关机构预测,我国智能算力规模在2028年预计达到2,781.9 EFLOPS(《2025年中国人工智能计算力发展评估报告》,IDC联合浪潮信息),至2030年,全球算力将超过16 ZFLOPS,其中智能算力占比将超过90%(《先进计算暨算力发展指数蓝皮书》,信通院)。

image.png

图1.中国智能算力和通用算力规模及预测

(来源:《2025年中国人工智能计算力发展评估报告 》)

在智能算力的需求增长的同时,伴随着大模型算力所带来的成本压力指数级增长,面对成本压力带来的挑战,通过大规模基础设施的建设投入和核心技术要素的创新突破,持续降低总体成本,帮助释放人工智能的应用红利。

image.png

图2. 大模型算力的成本压力

(来源:《新一代人工智能基础设施白皮书》)

由此可见,算力基础设施作为新型信息基础设施中的主要形态之一,呈现出多元泛在、智能敏捷、安全可靠和绿色低碳等特征,是推动数字经济发展和社会数字化转型的关键支撑。通过提供算力这一新型生产力,向社会各领域提供高效、安全、稳定的算力服务,尤其是其中面向智算的建设与发展更是人工智能产业的关键支撑要素,推动社会经济的高质量发展。因此,算力基础设施自身实现高质量发展是保障其充分发挥社会价值、持续赋能社会发展的重要基础。

技术层面:核心要素创新突破

算力基础设施的高质量发展离不开核心技术的支撑。在当前数字化转型和智能化升级的背景下,算力基础设施的五大核心技术要素:算力与芯片、网络技术、自动化与智能化、绿色与节能、安全,成为推动其高质量发展的关键。

算力与芯片

算力是基础设施的核心驱动力,而芯片则是算力的物质基础,随着算力需求的指数级增长,高性能芯片的研发更是至关重要。当前,通用处理器(CPU)、图形处理器(GPU)以及专为人工智能设计的加速芯片(如TPU、NPU)成为算力提升的关键。芯片制造工艺的进步(如3nm、5nm技术)和异构计算架构的优化,进一步推动了算力效率的提升。然而,我国在高端芯片领域仍面临“卡脖子”问题,亟需加强自主创新,突破技术瓶颈,确保算力基础设施的可持续发展。

网络技术

高速、稳定的网络传输是算力基础设施高效利用的前提。当前,我国已建成全球最大规模SRv6骨干网(覆盖300+城市),但跨区域算力调度仍存在15%左右的传输损耗,影响“东数西算”工程效率。随着云计算、边缘计算的快速发展,算力资源的动态调度和协同作业越发依赖于网络的支撑能力,这就要求我们不断突破网络技术创新,构建更加智能、灵活的算力传输通道。

自动化与智能化

“人工智能+”与算力基础设施的深度融合是实现高质量发展的关键路径。通过引入AI技术,算力基础设施能够实现自动化运维、智能调度和资源优化。例如,运用AI算法可以实时监控算力负载,动态分配资源以提升利用率;机器学习模型能够预测故障并提前干预,降低运维成本。通过自动化技术实现算力资源的无人化管理和高效利用。未来,随着大模型和生成式人工智能技术的普及,算力基础设施将进一步向智能化、自适应方向发展。

绿色与节能

在“双碳”战略背景下,算力基础设施的能耗问题日益突出,绿色与节能技术成为高质量发展的必由之路。据统计,数据中心的能耗占全球总用电量的2%以上,降低能耗刻不容缓。绿色技术的应用包括采用液冷、风冷等高效散热方案;利用可再生能源(如太阳能、风能)为数据中心供电;通过AI优化能耗管理,实现动态节能。此外,芯片设计的低功耗化(如ARM架构)和算力资源的集约化利用也是重要手段。未来,构建“零碳数据中心”将成为行业的重要目标。

安全

安全是算力基础设施高质量发展的底线。随着算力资源的开放共享,数据安全和隐私保护面临严峻挑战。安全技术涵盖多个层面:硬件安全、网络安全、数据安全以及合规性管理。此外,量子加密等前沿技术的探索将为算力基础设施提供更高层级的安全保障,与此同时,推进安全标准的统一和多方协同,安全与发展并重,助力构建可信的算力环境。

运营层面:全生命周期高效优化

运营优化是实现算力基础设施高质量发展的重要环节。越来越多的成功案例经验表明,通过对算力基础设施建设交付和运营维护流程进行优化,可以有效保障上层应用的高效稳定运行。

在算力基础设施的建设交付过程中,工程化能力决定了算力落地效率。从“堆硬件”到“系统化交付”,需要产业上下游企业的深度协同。建议相关企业联合构建“算力黑灯工厂”,建立包括前置验证、实验室适配、新技术预演等环节的“研发-验证-应用”全链条协同机制,帮助加速技术成熟,缩短从研发到商用的交付周期,同时为行业提供可靠的参考依据。在此过程中,要紧密围绕核心任务,前瞻布局“事前”阶段,以研发加速验证机制,注重硬件与软件的协同发展,大幅缩短从概念到实践的周期。严格把控 “事中” 环节,借助先进的自动化交付验收手段,确保每个流程精准无误;深入剖析 “事后” 进程,通过科学的质量等级评估体系,全面复盘总结。如此环环相扣,形成一套完备的全生命周期管理体系,实现对算力基础设施建设与交付在效率和质量维度的双重提升。

在算力基础设施建设领域,人工智能公司x.AI通过系统性工程优化实现“Colossus”集群的快速交付,该20万卡智算集群仅用214天便成功搭建完成,其中首期10万卡部署仅耗时122天,二期扩容更低至92天,相当于完成了传统IDC厂商需要18个月的基础设施建设。这个超级集群的搭建涉及了全流程多维度的工程优化创新,包括提前完成编译器适配,采用预调试的模块化部署方式,深度整合服务器与液冷系统,支持高密部署等等。其突破性的交付能力颠覆了行业预期,大幅减少基础设施调试耗时,迅速启动模型训练任务,把算力基础设施的交付周期提升到了全新的水平。

在人工智能大模型领域,DeepSeek横空出世,其标志性成果DeepSeek-V3仅耗费557.6万美元即完成训练,是同水平大模型Llama-3.1的9.3%,GPT-4o的5.6%。该团队在官方技术报告中明确提到,这一效果正是源于算法、框架与硬件的三重协同优化共同实现,报告中还进一步向AI硬件厂商提出了对于通信和计算芯片的设计优化建议。DeepSeek通过软件与硬件深层次协同,运用MLA、MoE框架等技术创新,在提高模型训练效率的同时,显著降低对计算资源和内存的消耗,从而极大降低了成本,以高性价比的方式提供大模型服务,直接推动了大模型技术的普惠化和商业化应用。

像x.AI、DeepSeek这样的革新型案例为行业提供了可借鉴的实践经验,通过组建算力高质量发展创新的软硬件协同运营环境,推进研发、实践、验证对接,实现多方合作共赢。这种开放合作的态度有助于汇聚各方智慧和资源,加速算力基础设施技术的创新和应用推广,加速各领域各行业的数字化转型和智能化升级进程。

评估层面:推动形成标准引领

在中央网信办等三部门印发的《信息化标准建设行动计划(2024-2027年)》中,强调了推进算力基础设施标准研制,致力于构建“算、存、运”一体化的算力基础设施标准体系。这一标准体系的建设旨在适应融合共生的技术发展趋势,涵盖云计算、边缘计算、高性能计算等多种异构算力中心的共性标准研究。通过开展算力接入、调度、服务等相关标准研制,以及云网协同标准研制,促进云间互联互通,为算力基础设施的高质量发展奠定坚实基础。

这种标准体系的建立有助于统一算力基础设施的建设规范,减少不同技术体系之间的兼容性问题。例如,在云计算和边缘计算融合的场景中,统一的标准能够确保数据在不同计算节点之间高效、顺畅地传输和处理,提高整个算力网络的协同效率。同时,云网协同标准的研制能够打破云服务提供商之间的壁垒,实现资源的优化配置,提升用户体验。

2024年6月,中国移动联合中国信通院、中国电信、中国联通等多家单位,提出业内首个专门面向算力基础设施建设与运行质量的评估模型(CQM),并在开放数据中心委员会(ODCC)成立CQM项目。该模型直接面向算力基础设施建设与运行质量的评估,从多个维度对算力基础设施进行精准评估。具体包括可访问性、可管理性、健康度、一致性和环境稳定性五大维度来评估算力质量,这种客观定量的评估方法能够有效的反映算力基础设施可能存在的质量问题,促进其持续改进和提升质量水平。

2024年9月,浪潮信息联合中国信通院在郑州中国算力大会上发布《人工智能算力高质量发展评估体系报告》,首次提出"五位一体"评估框架,系统构建了AI时代算力质量的评价标准。该体系从算效(理论算效与实测性能结合)、智效(模算效率)、碳效(全生命周期管理)、可获得性(普惠算力)和可持续性(技术兼容)5个维度设置12项指标,突破传统仅关注算力规模的局限。该体系已推动我国算力产业实现“三个转变”:从硬件堆砌转向系统创新、从粗放运营转向精细管理、从追求算力规模转向注重质量效益。

建议业界各方持续围绕工业、金融、交通、能源等重点领域,推动符合共同需求和解决共性问题的标准制定,依托CCSA(中国通信标准化协会)等产业组织的优势,通过相关标准的共同制定和业界达成统一共识,形成算力基础设施高质量发展的统一标准,充分发挥标准对产业发展的引领和生态聚合作用。

结语

算力基础设施的建设和发展涉及多个部门和领域,随着技术的快速迭代发展,亟需标准化组织和产业上下游企业的持续配合协同,以行业实际需求为导向,通过健全产业标准制定,凝聚产业共识,同步推进上下游企业配合,在技术、运营和评估各方面形成更加深入的协同。

我们期待通过业界各方的共同参与和努力,推动算力基础设施的高质量发展以标准为纲,以协同为脉,深化跨域的优势互补和资源共享,促进算力质量的全方位提升,使算力基础设施持续为社会和经济发展注入源源不断的动力,为未来算力的创新突破和纵深发展打下坚实的基础。

【参考文献】

1.《数字中国建设整体布局规划》,中共中央、国务院,2023年2月27日

2.《算力基础设施高质量发展行动计划》,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委,2023年10月9日

3.《2025年中国人工智能计算力发展评估报告》,国际数据公司(IDC)、浪潮信息,2025年2月13日

4.《先进计算暨算力发展指数蓝皮书》,信通院,2024年

5.《新一代人工智能基础设施白皮书》,商汤科技智能产业研究院、中国信息通信研究院云计算与大数据研究所、中国智能算力产业联盟、人工智能算力产业生态联盟,2024年1月3日

6.《信息化标准建设行动计划(2024 - 2027年)》,中央网信办、市场监管总局、工业和信息化部,2024年5月30日

7.《人工智能算力高质量发展评估体系报告》,浪潮信息、中国信通院,2024年9月27日

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容