中国移动发布MoMA平台：单位Token成本压降30%以上

责任编辑：孙天 2026.05.08 15:26 来源：通信世界网

通信世界网消息（CWW）5月8日，在2026移动云大会主论坛上，中国移动发布移动模型服务平台MoMA。平台接入超300款业界主流AI模型，模型丰富度行业领先，首创Token集约化运营模式，推动AI像水和电一样“随时可得、随处可用”，让人工智能真正走进千家万户、服务千行百业。

开放普惠，让AI触手可及

MoMA构建了“一次接入、智能优选、普惠可用、安全可信” 的一站式模型服务体系，着力降低AI应用门槛。

提供统一API网关，用户一次接入即可调用平台全部模型资源。目前，MoMA已接入中国移动自研“九天”基座大模型，以及DeepSeek、通义千问、豆包、Kimi、GLM等业界优质模型，覆盖文本生成、语音处理、多模态理解等多项能力，满足政务、金融、工业、医疗、教育等多场景应用需求。

首创智能路由引擎，自动分析用户需求，灵活切换“成本优先”“效果优先”“均衡优先”等三种策略，为用户动态匹配最适合的模型。当模型出现超时、限流或故障时，平台可自动实现秒级切换，确保业务连续不中断。

降低模型使用成本，MoMA平台基于国产算力部署自研推理引擎，结合智能路由对长尾模型资源调度，实现单位Token成本压降约30%，降低资源占用率50%以上。此外，智能缓存、上下文复用、Token压缩等相关技术手段运用进一步降低了使用成本。平台的中立路由原则，为用户在业务效果与算力成本之间找到了最优平衡。

服务保障安全可信，MoMA推出“机密模型”服务，将模型部署在机密容器中，基于硬件隔离技术保障计算过程的数据安全，做到“可用不可见”。这一能力覆盖从芯片到应用的全链路机密计算，为政务、金融等数据安全要求较高的场景提供了可靠支撑。

集约运营，助力Token高效调用

开放普惠主要解决“用得起、用得上”的问题，集约化运营则聚焦“用得好、管得住”难点。MoMA围绕Token全生命周期，构建了从精准计量、风险管控到经营分析的完整运营闭环体系，实现算力资源的清晰记录、高效流转与安全管控，推动算力资源规范、集约化利用。

实时精准计量，用多少、算多少。平台实施流式实时计费，用户使用Token计费端到端时延不超过1分钟，实现“即用即付”，有效破解传统按包计费模式的资源浪费以及账单消费缺乏透明度的问题。

运用专属风控，可追溯、可闭环。MoMA搭建了专属风控机制，保证Token计费全流程可追溯、可审计、可闭环，从根源上杜绝资源挤占、费用超支以及服务中断的风险，确保每一笔 Token消耗清晰透明。

提供链路观测，有支撑、有依据。平台提供全链路可观测能力，实时采集时延、吞吐量、Token消耗、GPU资源等关键指标，将监控、预警、诊断整合为一体化运营指标体系，覆盖客户、订购、使用、收入等多维度数据。AI投入与产出一目了然，为用户经营决策提供了具体依据。

下一步，中国移动将不断提升移动模型服务平台MoMA服务质效，携手产业伙伴，共同释放算力新动能、拓展智能新空间，推动人工智能更加广泛、高效、安全地服务经济社会发展。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动