全栈智算服务,护航数字AI新征程

作者:新华三集团云智服务业务部 徐羲亮 / 周振华 责任编辑:包建羽 2025.06.20 12:29 来源:通信世界网

通信世界网消息(CWW)近年来,人工智能技术迎来迅猛发展,尤其是深度学 习、自然语言处理、计算机视觉等领域不断取得突破性进 展,这使得各行各业对强大计算能力的需求日益迫切。智 算作为服务于人工智能应用的核心计算方式,能够高效处 理大规模数据并完成复杂模型的训练与推理,已成为推动 人工智能从理论研究走向实际应用的关键支撑力量。

在此背景之下,国家高度重视智算产业发展,将其视 为数字经济发展的重要基石。2023 年,工信部等六部门 联合印发《算力基础设施高质量发展行动计划》,从计算 力、运载力、存储力及应用赋能四个维度提出了 2025 年 的量化发展指标,为智算中心建设提供了清晰的政策指引 与目标导向。当前,中国智算中心建设热潮持续升温,根 据《中国人工智能计算力发展评估报告(2024 年) 》数 据显示, 2024 年国内智能算力规模达 725.3 百亿亿次 / 秒 (EFLOPS),同比增长 74.1%;预计 2025 年智能算 力规模将突破 1000 EFLOPS 大关。

尽管国内智算中心建设已取得显著进展,但仍面临诸 多挑战:

规划层面

部分智算中心因前期规划不足,导致算力资源利用率 低,存在明显闲置现象。

运维层面

运行维护经验欠缺,不仅造成运维成本高企,更在大 规模训练中因算力集群服务质量不稳定,严重影响算力价 值释放。

生态层面

技术生态体系尚不完善,导致 AI 应用实际落地难度 较大。

值得关注的是,在全球 AI 浪潮与国内数字经济蓬勃 发展的双重驱动下,国内部分智算中心正从   “硬件堆 砌” 向 “服务深耕” 转型。通过构建涵盖规划建设、运维 保障、模型使能的全栈式能力体系,打造工程化的智算中 心服务架构,全面助力用户在 AI 时代的数字化变革进程。

技术筑基,打造高可靠智算底座

立体化架构设计,满足多元需求

智算服务方案在构思初期即可采用“模块化设计+算 力插座”的设计理念,融合CPU、GPU、DPU等异构计算单元,借助算力平台实现算力资源统一管理、灵活调度 与按需分配。采用高性能网络方案构建数据存储与传输网 络,保障零丢包、低时延、高吞吐传输,为模型训推过程 中数据的稳定传输搭建高速通道。在系统架构方案设计 时,规划存算一体等下一代技术的接入接口,充分满足未 来3~5年的业务扩容、技术迭代、平滑升级等需求,为系 统长期发展和性能持续提升奠定基础。

精细化管控,保障集成交付质量

智算服务方案可采用“四横三纵”管控体系对集成实 施过程进行精细化管理,遵循“方案交底→硬件安装→软 件部署→联调测试”的标准化实施路径,在各环节设置质 量检查点, 严格把控工程质量。并需配备涵盖网络架构 师、算力调优工程师、安全专家等在内的团队资源,保障 大集群、分布式、异构算力集群的专业化标准化交付,借 助数字化项目管理平台监控项目交付进度,实时掌握设备 到货、部署联调、测试验证进度,确保整体项目交付过程 安全合规,可管可控。

image.png

多维度测试,确保高可用性

通过“功能测试→性能压测→故障注入”三层测试体 系,保障智算中心上线后的高可用性。

开展GPU与驱动程序的适配性验证工作,全面检测 存储系统与AI框架的数据接口稳定性。

基于场景化压测与全链路验证方法,构建覆盖计算、存储、网络的全场景压测体系,利用J Meter、FIO、 Linpack、Horovod、TensorFlow Benchmarks、 gpu burn、cuda sample、DCGM r 4等专业化工 具, 全链路压测分析, 精准定位性能瓶颈, 再通过对单节 点及超大规模集群(如2048张GPU卡) 的梯度压力测 试,优化GPU算力利用率及分布式训练线性加速比,确 保智算中心在高并发、大规模负载下保持卓越性能的同 时,提升资源池高可用性。

精益智维,激活算力价值

预防为先, AI赋能主动运维

智算中心高负载运行下,故障预防是稳定运行的核心 挑战。参考国标《信息技术服务智能运维》,构建以智能 巡检机器人为核心的AI驱动的智能巡检体系。打破传统被 动运维局限,实现分钟级常规巡检、小时级深度巡检,以 便完成对大规模算力集群的跨域全量监测。通过机器学 习,精准捕捉算力、网络、存储、平台四大维度的基线特 征, 构建动态健康模型。 一旦设备运行数据异常,系统立 即触发多维度关联分析,自动定位潜在风险并启动修复策 略,将故障隐患消除在萌芽状态,从“事后处置”转向“事 前预防”,为算力服务的连续性和可靠性提供全时段、全 链路的智能保障。

全方位监控,数字守夜无死角

智算中心设备繁多、架构复杂,任一环节故障都可能 引发连锁风险,因此必须通过全栈监控体系实现对算力基 础设施的无死角监控覆盖。在硬件层,要实时追踪每台设 备及核心部件的运行状态与性能参数;软件层严密监测操 作系统、数据库、中间件的健康指数;网络层精准捕获流 量波动、带宽利用率、时延、丢包率及光模块状态等关键指标;模型层动态监控训练任务进度、GPU资源消耗及 推理服务效率,确保训推作业稳定高效。

构建智能数据分析系统,对海量监控数据进行实时挖 掘与关联分析,精准定位算力集群性能瓶颈,同时可以通 过趋势预测提前识别潜在风险。以全维度、全时段的监控 能力,让智算中心的每一处细微变化都清晰可溯,为故障 预判与快速响应提供数据支撑,筑牢算力服务稳定运行的 智能防线。

智能响应,高效处置故障

传统运维依赖人工导致故障处置低效,难以满足智算 中心高可靠性需求。应以“智能发现->精准诊断->自动 处置->知识沉淀”四大机制重构故障管理全流程。

spacer.gif故障发现环节,可依托全栈智能监控体系与智能巡检 机器人实现24小时实时监测,异常数据触发毫秒级智能告 警,唤醒运维响应。故障分析引入机器学习与深度学习算 法,融合行业故障知识库,自动从海量信息中提取关键特 征,精准定位故障点与根因,大幅缩减人工排查时间。处 置阶段,通过故障处置智能体基于诊断结果,自动生成包 含操作步骤、修复脚本、预期效果的全链路解决方案,支 持运维人员“一键式”执行,大幅缩短恢复时长。智能速 记完成故障处置全流程数据实时记录,自动生成复盘报告 并更新运维知识库, 形成“处置->优化->提升”的闭环 迭代。以智能技术为核心,故障处置实现从“人工主 导” 到“智能驱动”的跨越,保障智算中心在复杂场景下 的快速自愈能力。

持续调优,激发算力潜能

智算中心作为多层异构耦合系统,需通过持续调优实 现算力效能最大化。采用“分层解耦+跨层协同”双轮驱 动策略,构建系统性调优体系,可在算力效率、成本、性 能与可靠性间实现动态平衡,释放集群核心潜能。

在资源调度层,通过集中管理CPU、GPU、存储等 资源,基于实时业务负载智能分配算力,避免资源浪费与 过载瓶颈,提升资源利用率。  数据驱动层深度挖掘算力集 群运行日志、网络流量、模型训推数据,精准定位计 算、 存储、网络等环节的性能卡点。  例如,针对模型训练 中常见的流量拥塞问题,通过逐包喷洒、端网协同调 优、 动 态 负载 均 衡 (FGLB/ D DC )等 技 术 组 合 , 实 时 优化数据传输路径,消除网络瓶颈,提升分布式训练效 率。 通过该调优体系打破传统单层优化局限,通过跨层联 动实现从资源分配到应用性能的全链条优化,确保智算中 心在复杂业务场景下始终保持最佳运行状态。

模型深度使能,  加速AI应用落地

有序规划,绘制智算蓝图

规划设计是AI应用项目的起点,至关重要。模型应 用前需开展全流程需求调研, 全面评估企业现有的技术 架构、数据储备、人才资源等现状, 为后续规划奠定坚 实基础。针对不同业务场景, 通过大数据分析, 结合行 业知识, 深入挖掘场景特点与潜在需求, 进行精准场景 分析, 预估模型应用可行性, 提前做好资源准备。在此 基础上, 开展模型应用建设方案规划,制定详细实施步骤 与时间节点,确保模型应用项目有序推进。通过持续结果 监测,根据实际情况及时调整优化方案,降低模型应用成 本,提升AI应用项目成功率。

高效训推,释放算力价值

模型训推是激活算力价值的核心环节。在部署阶 段, 需实现模型在云-边-端的跨平台适配, 支持多硬件 架构的快速落地。在训练阶段,针对行业差异化需求,要 结合领域数据与知识,对通用模型进行高效微调,通过参数轻量化、特征增强等技术,提升垂域模型在智能客服、AI 办公等场景的准确率,实现“算力按需赋能,模型随需而 变”。 推理阶段则重点优化推理架构、合理分配算力,以 支持大规模并发(如实时业务响应),避免算力资源浪费。

场景赋能,构建应用生态

AI应用是连接模型与企业实际业务的桥梁。用户可以 通过API对接实现模型与企业现有系统的快速集成,打破 数据壁垒;专业人员深入研究模型特性与业务需求,  设计 高效、精准的提示词,引导模型输出更符合预期的结 果, 可以提升模型交互质量与效率; 在RAG系统构建过 程中,将检索增强生成技术与企业数据深度结合,能够构 建智能、高效的知识检索与生成系统;智能体编排服务依 据企业业务流程,灵活组合多个智能体,实现自动化、智 能化业务处理,提升企业生产效率。

新华三全栈智算服务, 护航运营商AI新征程

面对算力市场的巨大机遇和充分竞争,运营商积极响 应“东数西算”国家战略,在智算领域持续发力,构建多 重算力竞争力体系。作为运营商数字化转型的同行者,新 华三集团始终是运营商可信赖的核心战略合作伙伴。在运 营商智算业务发展过程中,新华三通过领先的智算解决方 案、专业的智算服务能力,助力运营商数智化变革。

某省运营商在智算中心建设初期,面临需求梳理不清 晰、项目交付周期紧张、智算运维保障体系不成熟、AI模 型微调训练效果不佳、推理性能无法满足业务需求等诸多 挑战。新华三组织了30多场用户访谈与场景分析,精准提 炼出共性需求框架,覆盖90%以上核心业务诉求。创新性的设计了“异构融合、分域自治”的智算中心架构,结合 新华三先进的算力网络,实现高效负载,节点间通信延迟

控制在微秒级别。智算中心建成后,新华三运维团队依托 自研的智能运维平台,实现7×24数字化监控值守,故障风 险提前识别、预警和处置,集群故障率下降50%以上。 针 对用户在模型选型适配、模型训练微调、推理部署优化等 方面的能力瓶颈,算力技术专家、模型技术专家组成的联 合专家团队,深入用户一线,为数十个AI应用开发上线提 供全方位支持,大大加快用户智能化进程。

展望未来,新华三将继续紧跟科技发展步伐,坚 持 “AI in ALL”和“AI for ALL”,携手运营商和百行 百业客户全面拥抱AIGC,激发智算资源价值,共绘美好 数字未来!

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容