国内主要大模型厂商在计费模式上的现状及趋势

责任编辑:朱文凤 2026.04.22 09:01 来源:天翼智库

通信世界网消息(CWW)从2023年至2026年年初,国内的AI大模型计费模式及价格经历了过山车式的演进过程,从初期的试探摸索,到‘拼低价’甚至‘免费’的蛮荒阶段到比拼缓存技术降本、生态抵扣灵活性、垂直领域专业度及服务稳定性的深水区。中国AI计费已从比较单纯的计费模式“低价+按量”演变为“成本效率与生态绑定”的综合博弈。

国内主要大模型厂商的计费模式现状

1.阿里

阿里云的计费体系分为两层,底层模型层(按 Token 计费,适合开发者)和上层应用层(智能体,按任务或组件计费,适合业务场景)。

对于基础模型计费,无论是直接调用 API,还是使用智能体,底层都在消耗这些资源。从计费角度看,千问系列通过分级定价实现了成本与能力的精准匹配,避免在简单生成中浪费预算。

对于智能体计费,包括隐形成本与显性收费。智能体不仅仅是“调用模型”,它还包含规划、记忆、工具使用。阿里对此采用组件叠加的计费方式,模型推理费、工具调用费、记忆存储费等。虽然阿里的大模型计费已进入“普惠时代”,基础模型极其便宜(万字几分钱);但在构建智能体时,需警惕“思考过程”带来的隐性 Token 消耗,并善用缓存和批量处理来锁定最低成本。

2.腾讯

腾讯最基础的计费模式是通用 API 按量付费,腾讯混元通过构建从“极速-轻量”到“旗舰推理”及“长文本专用”的多元化模型矩阵,确保不同复杂度的任务都能匹配到具备相应核心优势的专属模型。其计费特点鲜明地体现了“按需付费、分级定价”的逻辑。同时针对有稳定调用量的企业用户,腾讯推出预付费资源包模式,相比按量付费有显著折扣。

在微信生态与智能体深度融合方面,腾讯最新推出的WorkBuddy采用基于Credits(积分)的计费体系,新用户注册即享5,000免费积分体验,后续提供58元/月的专业版及7.9元/月与CodeBuddy共享的Code Plan方案。该模式将费用与所调用的大模型、任务复杂度及Token消耗动态挂钩,实现了从免费体验到按需付费的灵活过渡。腾讯在多模态(特别是视频和图像)方面能力也很突出,其计费模式为独立于文本模型多模态专项计费。

腾讯智能体的计费采用“平台订阅 + 模型按量”的双层结构,用户需先购买按月或按年的平台订阅套餐,以获取智能体构建、管理及基础运行环境的使用权,智能体实际运行时调用的大模型(如混元系列或第三方模型)单独按 Token 用量后付费日结,且自 2026 年 3 月 13 日起,多款主流模型已结束免费公测转为正式商用计费,订阅套餐内的额度可用于抵扣部分模型调用成本。

一句话,腾讯AI的计费模式“重生态、强多模态、支持灵活分包”。

3.字节跳动

字节下面有豆包、扣子及各种插件。豆包的 C 端用户以免费为主。扣子是字节跳动旗下的一站式 AI 应用开发平台,其计费体系非常灵活,核心遵循 “按需付费、模块化组合” 的原则。总费用主要由四大板块构成,分别为模型推理费、插件/工具调用费、知识库存储与检索费以及高级功能费。

模型推理费是智能体运行中最主要的成本,按 Token 数量计费,支持多种模型,价格差异大,可以根据场景选择。当智能体需要联网搜索、画图或调用第三方API时会产生插件与工具调用费。

字节支持图片生成及视频的多媒体生成。图片生成按张计费,视频生成按Token或时长计费。除了上述计费方式,扣子还支持知识库计费 ,如果用户建立知识库,会产生“存储”和“检索”两部分费用,不过这两部分费用非常便宜。

针对开发者和企业用户,扣子推出了订阅制套餐包含不同额度和专属模型权益。企业级用户可购买“吞吐量保障包”,通过预付费获得更低的单价和更高的并发稳定性。

扣子的计费设计非常丰富友好,既保证了高性能模型的可用性,又通过多种类的模型,让低成本大规模应用成为可能。

4.MiniMax

MiniMax 的计费体系在2026年经历了重要调整,形成了 “按量付费” 与 “订阅制” 并行的双轨模式。其核心策略为通用对话按量,高频编程订阅,多模态单独计费。

文本大模型 API(按量付费)是最基础的计费方式,适用于大多数通用场景。MiniMax 在2026年初进行了一轮价格上调(约30%-50%),以反映算力成本,但依然保持极高的性价比。支持超长上下文且在长文本处理上的单位成本极具竞争力。

开发者专属订阅 (Coding Plan) 是针对高频使用AI编程助手的开发者推出的固定月费套餐,彻底摆脱Token焦虑。值得一提的是MiniMax独特的“时间片”重置机制,即额度不是按月累计,而是每5小时重置一次,这意味着即使某个小时用完了,休息一会后额度立即恢复,非常适合间歇性高强度工作。

MiniMax 在语音/视频/音乐生成领域处于国内领先地位,通常独立计费。语音合成按字符数计费,也可购买年包或月包语音资源包,单价更低。视频按生成次数/时长计费。音乐生成按首或按时长计费,具体视活动而定。

MiniMax支持在一个平台上解决“文本逻辑 + 语音交互 + 视频生成”的全链路需求,且账号余额通用(部分资源包除外),减少了多平台充值的麻烦,实现了多模态一体化计费。但是目前官方没有针对“智能体”这一概念单独设立额外的计费项目。

5.Kimi

Kimi 计费模式核心逻辑采用分层定价,双轨制计费。免费层保流量(基础对话),付费层保利润,并实行海内外差异化定价策略。会员付费购买的是产品功能使用权(Agent 次数、高速响应特权),API 付费购买的是底层算力资源(Token 消耗)。两者账户体系独立、计费逻辑独立、使用场景独立,不存在包含或抵扣关系。Kimi 的计费设计体现了"Agent 即付费点"的核心理念——将传统大模型的闲聊场景免费开放,仅在涉及多步骤任务执行(Agent)、深度研究和内容生成时收费,既保证了用户基数,又为高价值功能建立了付费通道。

6.DeepSeek

DeepSeek 目前主要采用纯按量付费模式,没有复杂的订阅制或资源包。其旗舰模型 V3.5/V4 的价格仅为阿里通义、腾讯混元的 1/10 甚至更低。这使得以前因成本过高而无法落地的 AI 应用(超长文档分析、全量代码重构)变得经济可行。大多数厂商的缓存优化是黑盒的,而 DeepSeek 将 Cache Hit 直接体现在账单上,给予极大的折扣。这鼓励开发者优化 Prompt 结构,从而实现用户省钱,DeepSeek 节省算力双赢模式。

DeepSeek 的计费模式是“极致透明、技术驱动、价格地板”。它通过超低单价和缓存命中折扣,让高性能大模型从“奢侈品”变成了“水电煤”般的基础设施,是2026年追求高性价比和大规模落地的首选方案。

7.智谱

智谱目前主要也是采用 “双轨制”计费模式,通用场景沿用灵活的按量付费,而针对开发者/编程场景则主推极具竞争力的订阅制。其核心创新在于摒弃了传统的“Token 焦虑”,转而采用 “Prompt 次数” 作为计量单位,以每5小时限额进行更新,这使得以前因内部推理过程复杂(如 Agent 多步思考)而导致成本不可控的 AI 应用,变得经济且可预测。大多数厂商的计费黑盒让用户担心“跑飞了”,而智谱将一次完整的交互流程(包含后台十几次思考、写代码、修复报错)打包算作 1 次 Prompt,极大简化了计费复杂度。智谱还在订阅套餐中实现了后端智能路由,系统会根据任务复杂度、响应时间要求和成本预算,自动将请求路由到最合适的模型。用户只需支付一笔统一的“任务费”或订阅费,无需关心底层调用了哪个模型,既享受了旗舰能力,又被保护在低成本区间。

智谱的计费模式能够鼓励开发者大胆使用 Agent 和复杂工作流,从而实现用户成本可控、智谱提升用户粘性的双赢模式。

上述七家AI厂商的计费模式各有特点,同时也存在显著的共性,可归纳为以下四类:

1. 极致透明与低成本型(以 DeepSeek 为代表)

采用纯按量付费模式,单价极低,并将缓存命中(Cache Hit)的折扣直接显性化。该模式特别适用于超长文档分析、全量代码重构以及对成本极度敏感的大规模落地应用。

2. 双轨制与去焦虑型(以智谱、MiniMax 为代表)

均采用“按量 + 订阅”的双轨制,重点解决用户的Token 焦虑。通过引入“订阅制”或“次数/时间片”计费,将复杂的推理过程打包定价,消除了对隐性消耗的担忧。该模式非常适合高频编程助手、复杂 Agent 工作流以及间歇性的高强度任务场景。

3. 分层架构与生态融合型(以阿里、腾讯、字节为代表)

计费体系成熟详尽,采用“底层模型按量 + 上层应用/组件叠加”的分层架构,并绑定自家生态(如微信、扣子平台)。该模式特别适合企业级智能体构建、多模态复杂任务以及需要平台工具链强力支持的场景。

4. 场景隔离与功能变现型(以 Kimi 为代表)

Kimi通过“C 端免费保流量,B 端及高阶功能(Agent)独立收费”的方式,会员权益与 API 资源隔离,独自收费,达成场景隔离与功能变现。该模式特别适合个人用户的日常使用,以及需要深度研究或多步任务执行的高价值商业场景。

计费模式趋势

纵观2023至2026年初的演进历程,中国大模型计费模式已彻底告别了单纯依靠“参数规模”或“低价倾销”的粗放阶段,正逐步实现成本效率提升、计量单位场景化、生态服务多样化的理性新阶段。未来的竞争不再是谁的单价更低,而是谁能通过技术创新让算力变得像水电一样“无感且可控”,谁能通过灵活的计费策略精准匹配企业多样化的业务场景。基于当前各大厂商的实践,2026年及以后将呈现出三大具有鲜明特色的新计费范式:

1.“缓存”成为降本核心引擎

随着应用场景从单次问答向长期陪伴、企业知识库及多轮对话转变,重复上下文的比例显著增加。“缓存命中 ”已从技术优化手段演变为核心计费项。以DeepSeek为代表的厂商已将Cache Hit直接体现在账单上,给予极低折扣,鼓励开发者优化Prompt结构提升命中率。

2.“计量单位”不断创新

针对Agent多步思考、代码生成等复杂场景,传统Token计费导致的“成本不可控”痛点正被新的计量方式解决。智谱等厂商率先在编程场景摒弃Token,转而采用“Prompt次数”作为计量单位。将一次完整的交互流程(包含后台十几次思考、写代码、修复报错)打包算作1次Prompt。这种“黑盒过程透明化”极大简化了计费复杂度,消除了开发者对“Token爆炸”的恐惧,使复杂的Agent工作流成本变得可预测。

MiniMax和智谱推出的“5小时额度自动回满”机制,是对开发者“间歇性高强度工作”节奏的深刻理解。它避免了月度总额度“月初闲置、月底不够用”的资源错配,一定程度上也能够降低峰值提升复用,保证开发者在任何冲刺窗口期都有充足的算力可用,让订阅制真正契合人类生物钟。

3.生态绑定与智能路由的无感体验

厂商开始通过生态绑定和智能调度来提升用户粘性与实际体验,计费模式从“用户自选”转向“平台托管”。

跨模型智能路由:智谱等厂商在订阅套餐中实现了后端智能路由。用户只需支付一笔统一的“任务费”或订阅费,无需关心底层调用了哪个模型,既享受了旗舰能力,又被保护在低成本区间。

场景化捆绑与分层:计费不再单独列支,而是深度融入“开发资源包”、“办公套件”或“会员权益”。如腾讯将AI费用包含在微信生态的云开发额度中。

未来,大模型的主流计费模式正逐步趋向 “缓存复用、推理分级、生态无感”。这一系列计费模式的变化能够促进高性能大模型真正从“奢侈品”变成人机协作的实用助手以及企业智慧转型的“基础设施”。 但是对于混合模态的统一付费单元问题、特殊客户群的弹性计费方式以及对于那些有高安全要求的企业选择“禁用缓存”时,计费方式是否足够灵活等问题值得期待解决。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容