国内主要大模型厂商在计费模式上的现状及趋势

责任编辑：朱文凤 2026.04.22 09:01 来源：天翼智库

通信世界网消息（CWW）从2023年至2026年年初，国内的AI大模型计费模式及价格经历了过山车式的演进过程，从初期的试探摸索，到‘拼低价’甚至‘免费’的蛮荒阶段到比拼缓存技术降本、生态抵扣灵活性、垂直领域专业度及服务稳定性的深水区。中国AI计费已从比较单纯的计费模式“低价+按量”演变为“成本效率与生态绑定”的综合博弈。

国内主要大模型厂商的计费模式现状

1.阿里

阿里云的计费体系分为两层，底层模型层（按 Token 计费，适合开发者）和上层应用层（智能体，按任务或组件计费，适合业务场景）。

对于基础模型计费，无论是直接调用 API，还是使用智能体，底层都在消耗这些资源。从计费角度看，千问系列通过分级定价实现了成本与能力的精准匹配，避免在简单生成中浪费预算。

对于智能体计费，包括隐形成本与显性收费。智能体不仅仅是“调用模型”，它还包含规划、记忆、工具使用。阿里对此采用组件叠加的计费方式，模型推理费、工具调用费、记忆存储费等。虽然阿里的大模型计费已进入“普惠时代”，基础模型极其便宜（万字几分钱）；但在构建智能体时，需警惕“思考过程”带来的隐性 Token 消耗，并善用缓存和批量处理来锁定最低成本。

2.腾讯

腾讯最基础的计费模式是通用 API 按量付费，腾讯混元通过构建从“极速-轻量”到“旗舰推理”及“长文本专用”的多元化模型矩阵，确保不同复杂度的任务都能匹配到具备相应核心优势的专属模型。其计费特点鲜明地体现了“按需付费、分级定价”的逻辑。同时针对有稳定调用量的企业用户，腾讯推出预付费资源包模式，相比按量付费有显著折扣。

在微信生态与智能体深度融合方面，腾讯最新推出的WorkBuddy采用基于Credits（积分）的计费体系，新用户注册即享5,000免费积分体验，后续提供58元/月的专业版及7.9元/月与CodeBuddy共享的Code Plan方案。该模式将费用与所调用的大模型、任务复杂度及Token消耗动态挂钩，实现了从免费体验到按需付费的灵活过渡。腾讯在多模态（特别是视频和图像）方面能力也很突出，其计费模式为独立于文本模型多模态专项计费。

腾讯智能体的计费采用“平台订阅 + 模型按量”的双层结构，用户需先购买按月或按年的平台订阅套餐，以获取智能体构建、管理及基础运行环境的使用权，智能体实际运行时调用的大模型（如混元系列或第三方模型）单独按 Token 用量后付费日结，且自 2026 年 3 月 13 日起，多款主流模型已结束免费公测转为正式商用计费，订阅套餐内的额度可用于抵扣部分模型调用成本。

一句话，腾讯AI的计费模式“重生态、强多模态、支持灵活分包”。

3.字节跳动

字节下面有豆包、扣子及各种插件。豆包的 C 端用户以免费为主。扣子是字节跳动旗下的一站式 AI 应用开发平台，其计费体系非常灵活，核心遵循 “按需付费、模块化组合” 的原则。总费用主要由四大板块构成，分别为模型推理费、插件/工具调用费、知识库存储与检索费以及高级功能费。

模型推理费是智能体运行中最主要的成本，按 Token 数量计费，支持多种模型，价格差异大，可以根据场景选择。当智能体需要联网搜索、画图或调用第三方API时会产生插件与工具调用费。

字节支持图片生成及视频的多媒体生成。图片生成按张计费，视频生成按Token或时长计费。除了上述计费方式，扣子还支持知识库计费，如果用户建立知识库，会产生“存储”和“检索”两部分费用，不过这两部分费用非常便宜。

针对开发者和企业用户，扣子推出了订阅制套餐包含不同额度和专属模型权益。企业级用户可购买“吞吐量保障包”，通过预付费获得更低的单价和更高的并发稳定性。

扣子的计费设计非常丰富友好，既保证了高性能模型的可用性，又通过多种类的模型，让低成本大规模应用成为可能。

4.MiniMax

MiniMax 的计费体系在2026年经历了重要调整，形成了 “按量付费” 与 “订阅制” 并行的双轨模式。其核心策略为通用对话按量，高频编程订阅，多模态单独计费。

文本大模型 API（按量付费）是最基础的计费方式，适用于大多数通用场景。MiniMax 在2026年初进行了一轮价格上调（约30%-50%），以反映算力成本，但依然保持极高的性价比。支持超长上下文且在长文本处理上的单位成本极具竞争力。

开发者专属订阅 (Coding Plan) 是针对高频使用AI编程助手的开发者推出的固定月费套餐，彻底摆脱Token焦虑。值得一提的是MiniMax独特的“时间片”重置机制，即额度不是按月累计，而是每5小时重置一次，这意味着即使某个小时用完了，休息一会后额度立即恢复，非常适合间歇性高强度工作。

MiniMax 在语音/视频/音乐生成领域处于国内领先地位，通常独立计费。语音合成按字符数计费，也可购买年包或月包语音资源包，单价更低。视频按生成次数/时长计费。音乐生成按首或按时长计费，具体视活动而定。

MiniMax支持在一个平台上解决“文本逻辑 + 语音交互 + 视频生成”的全链路需求，且账号余额通用（部分资源包除外），减少了多平台充值的麻烦，实现了多模态一体化计费。但是目前官方没有针对“智能体”这一概念单独设立额外的计费项目。

5.Kimi

Kimi 计费模式核心逻辑采用分层定价，双轨制计费。免费层保流量（基础对话），付费层保利润，并实行海内外差异化定价策略。会员付费购买的是产品功能使用权（Agent 次数、高速响应特权），API 付费购买的是底层算力资源（Token 消耗）。两者账户体系独立、计费逻辑独立、使用场景独立，不存在包含或抵扣关系。Kimi 的计费设计体现了"Agent 即付费点"的核心理念——将传统大模型的闲聊场景免费开放，仅在涉及多步骤任务执行（Agent）、深度研究和内容生成时收费，既保证了用户基数，又为高价值功能建立了付费通道。

6.DeepSeek

DeepSeek 目前主要采用纯按量付费模式，没有复杂的订阅制或资源包。其旗舰模型 V3.5/V4 的价格仅为阿里通义、腾讯混元的 1/10 甚至更低。这使得以前因成本过高而无法落地的 AI 应用（超长文档分析、全量代码重构）变得经济可行。大多数厂商的缓存优化是黑盒的，而 DeepSeek 将 Cache Hit 直接体现在账单上，给予极大的折扣。这鼓励开发者优化 Prompt 结构，从而实现用户省钱，DeepSeek 节省算力双赢模式。

DeepSeek 的计费模式是“极致透明、技术驱动、价格地板”。它通过超低单价和缓存命中折扣，让高性能大模型从“奢侈品”变成了“水电煤”般的基础设施，是2026年追求高性价比和大规模落地的首选方案。

7.智谱

智谱目前主要也是采用 “双轨制”计费模式，通用场景沿用灵活的按量付费，而针对开发者/编程场景则主推极具竞争力的订阅制。其核心创新在于摒弃了传统的“Token 焦虑”，转而采用 “Prompt 次数” 作为计量单位，以每5小时限额进行更新，这使得以前因内部推理过程复杂（如 Agent 多步思考）而导致成本不可控的 AI 应用，变得经济且可预测。大多数厂商的计费黑盒让用户担心“跑飞了”，而智谱将一次完整的交互流程（包含后台十几次思考、写代码、修复报错）打包算作 1 次 Prompt，极大简化了计费复杂度。智谱还在订阅套餐中实现了后端智能路由，系统会根据任务复杂度、响应时间要求和成本预算，自动将请求路由到最合适的模型。用户只需支付一笔统一的“任务费”或订阅费，无需关心底层调用了哪个模型，既享受了旗舰能力，又被保护在低成本区间。

智谱的计费模式能够鼓励开发者大胆使用 Agent 和复杂工作流，从而实现用户成本可控、智谱提升用户粘性的双赢模式。

上述七家AI厂商的计费模式各有特点，同时也存在显著的共性，可归纳为以下四类：

1. 极致透明与低成本型（以 DeepSeek 为代表）

采用纯按量付费模式，单价极低，并将缓存命中（Cache Hit）的折扣直接显性化。该模式特别适用于超长文档分析、全量代码重构以及对成本极度敏感的大规模落地应用。

2. 双轨制与去焦虑型（以智谱、MiniMax 为代表）

均采用“按量 + 订阅”的双轨制，重点解决用户的Token 焦虑。通过引入“订阅制”或“次数/时间片”计费，将复杂的推理过程打包定价，消除了对隐性消耗的担忧。该模式非常适合高频编程助手、复杂 Agent 工作流以及间歇性的高强度任务场景。

3. 分层架构与生态融合型（以阿里、腾讯、字节为代表）

计费体系成熟详尽，采用“底层模型按量 + 上层应用/组件叠加”的分层架构，并绑定自家生态（如微信、扣子平台）。该模式特别适合企业级智能体构建、多模态复杂任务以及需要平台工具链强力支持的场景。

4. 场景隔离与功能变现型（以 Kimi 为代表）

Kimi通过“C 端免费保流量，B 端及高阶功能（Agent）独立收费”的方式，会员权益与 API 资源隔离，独自收费，达成场景隔离与功能变现。该模式特别适合个人用户的日常使用，以及需要深度研究或多步任务执行的高价值商业场景。

计费模式趋势

纵观2023至2026年初的演进历程，中国大模型计费模式已彻底告别了单纯依靠“参数规模”或“低价倾销”的粗放阶段，正逐步实现成本效率提升、计量单位场景化、生态服务多样化的理性新阶段。未来的竞争不再是谁的单价更低，而是谁能通过技术创新让算力变得像水电一样“无感且可控”，谁能通过灵活的计费策略精准匹配企业多样化的业务场景。基于当前各大厂商的实践，2026年及以后将呈现出三大具有鲜明特色的新计费范式：

1.“缓存”成为降本核心引擎

随着应用场景从单次问答向长期陪伴、企业知识库及多轮对话转变，重复上下文的比例显著增加。“缓存命中 ”已从技术优化手段演变为核心计费项。以DeepSeek为代表的厂商已将Cache Hit直接体现在账单上，给予极低折扣，鼓励开发者优化Prompt结构提升命中率。

2.“计量单位”不断创新

针对Agent多步思考、代码生成等复杂场景，传统Token计费导致的“成本不可控”痛点正被新的计量方式解决。智谱等厂商率先在编程场景摒弃Token，转而采用“Prompt次数”作为计量单位。将一次完整的交互流程（包含后台十几次思考、写代码、修复报错）打包算作1次Prompt。这种“黑盒过程透明化”极大简化了计费复杂度，消除了开发者对“Token爆炸”的恐惧，使复杂的Agent工作流成本变得可预测。

MiniMax和智谱推出的“5小时额度自动回满”机制，是对开发者“间歇性高强度工作”节奏的深刻理解。它避免了月度总额度“月初闲置、月底不够用”的资源错配，一定程度上也能够降低峰值提升复用，保证开发者在任何冲刺窗口期都有充足的算力可用，让订阅制真正契合人类生物钟。

3.生态绑定与智能路由的无感体验

厂商开始通过生态绑定和智能调度来提升用户粘性与实际体验，计费模式从“用户自选”转向“平台托管”。

跨模型智能路由：智谱等厂商在订阅套餐中实现了后端智能路由。用户只需支付一笔统一的“任务费”或订阅费，无需关心底层调用了哪个模型，既享受了旗舰能力，又被保护在低成本区间。

场景化捆绑与分层：计费不再单独列支，而是深度融入“开发资源包”、“办公套件”或“会员权益”。如腾讯将AI费用包含在微信生态的云开发额度中。

未来，大模型的主流计费模式正逐步趋向 “缓存复用、推理分级、生态无感”。这一系列计费模式的变化能够促进高性能大模型真正从“奢侈品”变成人机协作的实用助手以及企业智慧转型的“基础设施”。但是对于混合模态的统一付费单元问题、特殊客户群的弹性计费方式以及对于那些有高安全要求的企业选择“禁用缓存”时，计费方式是否足够灵活等问题值得期待解决。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动