广东移动全面升级故障管理架构 探索多智能体协同解决方案

作者:中国移动通信集团广东有限公司 林文锋 周立栋 彭友斌 洪洁铃 责任编辑:包建羽 2025.01.25 13:58 来源:通信世界全媒体

通信世界网消息(CWW)随着消费流通、生活服务、文娱传媒、医疗教育等领域的信息基础服务不断丰富,广东移动的用户规模也日益庞大。然而,业务的快速发展也让网络运营和维护的复杂度急剧增加,传统的单域故障管理能力已经成为制约网络运维的瓶颈:网络告警量大,单域独立故障管理易导致派单冗余;业务故障定位依赖多领域专家开会讨论,需要消耗大量专家资源,且各类协调性工作繁重,处理一个报障工单需要多个业务部门(如无线、核心网、承载网等部门)介入,导致故障处理无法快速形成闭环;人工处理的难度不断增加,运维的人力成本居高不下。

为此,广东移动联合华为公司,全面优化升级故障管理架构,突破传统“烟囱式”的运维管理模式,将单域故障管理转变为多智能体协同模式,构建“智能网元+OMC大模型+OSS智能故障管理+WAIMO智慧运维平台”管理框架,创新性地将人机交互、多智能体协同等引入到日常运维中。广东移动通过智能体协同打破故障管理的“烟囱”,实现了故障处理全程自动化、多域智能体协同作业,极大提升了网络的稳定性和可靠性,率先支撑中国移动集团自智网络L4等级目标实现。

故障管理多智能体协同解决方案

广东移动优化现场故障管理流程,实现多智能体协同管理,通过大模型智能体实现多域资源和故障信息的打通,减少业务和网络管理人员协调性工作,实现业务和故障状态全程可视可控,MTTR降低20%以上。

基于网络大模型创新,传输网、核心网、无线业务领域先后实现智能体全面落地,达成单域智能故障管理自闭环;通过机器学习算法对网络中的告警相关数据进行降噪处理,并从时间、空间维度关联聚类,使无效工单数量减少20%以上;结合业务影响性分析,支撑故障处理优先级判定。

基于“智能网元+O M C大模型+OSS智能故障管理+WAIMO智慧运维平台”管理架构,实现传输网、核心网、无线网等领域多智能体协同,并实现全业务智能故障协同处理,降低冗余派单20%,多域故障协同会议减少30%。

智能网元

基于智能网元,可实现故障精准定位、精准派单、精准排障。如智能光模块提取毫秒级粒度的接收光功率数据,根据对应波形图,基于海量的样板,使用AI算法进行特性识别和训练,精准识别对端设备掉电、尾纤脱落、光缆中断等场景(如图1所示)。

image.png

网络大模型

网络大模型支持意图理解,以自然语言驱动网络运维,并引入NLP、NLU等AI算法,提供多轮问答、上下文理解、实体识别、意图矫正等能力,准确还原操作人员的运维意图。网络大模型还支持智能体,可实现故障自诊断。结合行业知识理解网络故障排除流程的自然语言描述,大模型将诊断步骤和条件判断抽取成OMC现有原子能力和逻辑分支,通过反思优化节点间的关联,按“思维树”的方式构造“故障诊断树”(如图2所示)。

image.png

同时,网络大模型可基于自然语言实现运维自动化。操作人员无需从多个系统界面拼接搜索或分析结果,可直接基于输出结果不断迭代提问内容,并基于生成式的数据透视能力,通过NL2SQL技术和可视化组件能力,结合API的自动调用,生成各类图表,有效降低对技能的依赖程度并提升运维工作的闭环效率。

智能故障管理

以传输域为例,可通过中小屏协同实现故障管理的自动闭环(如图3所示)。聚焦重保、报障等关键场景,支撑传输室和现场作业人员分别完成资源自闭环;秒级完成报障协查和资源查询,不再依赖传统的与故障中心通话交流方式获取信息;通过中小屏协同,实现故障处理全流程可视可管、故障自查询,大幅度降低沟通成本,提升上站效率。

image.png

WAIMO智慧运维平台

WAIMO智慧运维平台立足于全专业角度,紧密贴合广东移动“3+8+N”O域网管架构,是智慧运维能力统一聚合和呈现平台,负责“AI+网络运维”生产并执行实际操作。通过聚合全专业运维能力,广东移动率先进行了故障智能体端到端自动化探索,协同故障中心实现故障域运维监控类应用的自动化、智能化落地。

在业务中台之上,WAIMO智慧运维平台承接自智网络全流程故障管控应用体系,实现自智网络事件(分为一般、人工关注、重大重要故障等)监控及全流程管控,包括故障自动识别、跨专业与跨时间定界定位、“数字员工”自动指挥调度、自动处置与恢复验证闭环等;基于云原生技术架构,支持跨环境、跨平台独立部署,实现故障域高移植性应用;对接拉通底层各专业工作台、业务中台、应用系统等外部系统,构建全专业故障管控统一应用平台。

在广东移动的应用实践中,WAIMO智慧运维平台拉通14套系统,实现能力和手段集中,支撑全专业807类事件全流程高效处理,推动从传统的人工处理方式向全程自动化处理转型升级。以OLT脱管事件为例,传统的告警监控和定界定位流程涉及6套网管系统,耗时13分钟;WAIMO智慧运维平台则实现平均5分钟的“一站式”故障识别和定界定位,并实现线上端到端故障督办和升级管控。

创新方案应用产生的效益

广东移动联合华为打造的故障管理多智能体协同解决方案已经在全省落地应用。方案创新性地将自然语言大模型、思维链自诊断技术引入故障管理中,实现了故障“自监控-自诊断-自修复”的全流程智能化管理,在运维效率得到大幅提升的同时,也为用户提供了更稳定、更可靠的网络服务。

此外,WAIMO智慧运维平台也已在广东全省推广,目前在13个地市广泛使用,日均点击量达2.5万次。在处理下游报障时,单次耗时由平均20分钟减少至1分钟,广州移动平均每月支撑550次报障,而全省每月可节省人力资源174人天。

故障管理多智能体协同解决方案通过对话交互模式,将复杂枯燥的运维操作化繁为简,有效降低工程技术人员技能门槛,提升运维领域的闭环效率;在故障处理,尤其是重保项目中,资源、隐患的排查效率,以及故障处理效率平均提升10倍。

*本文刊载于《通信世界》

总第960期 2025年1月25日 第2期

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容