大模型 AI Coding Plan & Token Plan 定价全网对比

选购建议

AI 套餐选购实用指南，帮助你做出更明智的选择。

1. Token Plan 现状 Update 2026.5.27: 今天小米 MiMo API 降价了，Token Plan 也加上缓存的计费规则，如果觉得 MiMo 的模型能力满足需求，可以冲。
在 DeepSeek V4 Pro 目前优惠力度下，所有的 Token Plan 都不值得购买（MiniMax 除外，因为它是按次计费的）。使用量不多的话，直接用 DeepSeek API 按量计费更划算。

2. Coding 开发推荐

从模型能力维度，最建议的组合是：

一个官方 Claude/Codex 订阅
一个智谱（GLM）套餐

日常用 Claude/Codex 开发，按 Token 计量；GLM 用来做 Spec 执行，按 Prompt 计次，很划算。 GLM 的模型能力在国产模型里是遥遥领先的存在，不接受反驳。之前本来是搭配 Github Copilot 更佳，但是 Copilot 在 6 月 1 号就要改计费方式了，所以不推荐了。

缺点：

Claude/Codex 在国内使用有一定门槛
智谱的套餐不太好抢

3. 日常用途推荐

龙虾、聊天、文档撰写等日常用途，建议直接上 MiniMax：

不用抢购
MiniMax 3 推出后，新的 Token Plan 改成按量计费，我个人觉得量给得还是可以，49 元的档位中度使用完全没有问题
模型能力, MiniMax 3 的模型能力较 2.7 有明显提升，能满足绝大多数日常需求，也能满足一些日常代码需求
包含图像/语音/视频生成

计费方式说明：

1. API 按量计费

最简单直接的方式。每个模型都有公开的按量计费价格，用多少算多少，无需预付。

适合：用量不确定、偶尔使用、测试阶段。

2. Token Plan（流量包）

以优惠价格预购一定量的 Token，类似手机流量包。用完后需要再购买或转为按量计费。

变种形式：

Credit（积分）：厂商内部计量单位，换算比例各不相同
AFP 等：本质相同，只是命名不同

适合：用量稳定、追求性价比、有明确预算。

3. 按 Prompt 计费

一次提问算一次，不管这次提问消耗了多少 Token。即使输出很长，也只算一次。

适合：输出长度不确定、多轮对话场景。

4. 按次计费

在一次 Prompt 中，Agent 需要和模型进行多次请求才能完成任务，按这些请求次数计费。

例如：

用户发起一个 Prompt
Agent 进行规划、搜索、工具调用、执行、总结等多个步骤
单次 Prompt 可能产生 5-30 次请求（甚至更多）

适合：Agent 开发、自动化任务、复杂工作流。

其他概念：

上下文缓存（Context Cache）：模型对重复使用的系统提示、文档等内容进行缓存，后续请求时这部分以极低的价格计费。能显著降低长上下文场景的成本，但各厂商缓存策略不同（缓存时长、命中率计算等）
上下文窗口（Context Window）：模型能"记住"的对话历史长度，影响多轮对话体验。长上下文适合代码分析、长文档处理

原则上，像上面说的，按量的 Token Plan 都不建议购买了, Coding Plan 必须选有 GLM 5 以上模型的，尽量选算力充沛的大厂商。

厂商 - 套餐类型	评价
讯飞星火 - Coding Plan	可以买，高峰期会限流，最高档位有 GLM-5.1
联通云 - Coding Plan	不建议，限流严重
联通云 - Token Plan	不要买
京东云 - Coding Plan	可以买，限流较少, 有 GLM-5
腾讯云 - Token Plan	不要买
百度千帆 - Coding Plan	不建议，限流较严重
国家超算中心 - Coding Plan	不要买，不如直接买 MiniMax 的
阿里云百炼 - Token Plan	不要买
小米 MiMo - Token Plan	推荐，降价后的 Toke Plan 可以冲
火山方舟 - Coding Plan	不要买，倍率消耗太快
火山方舟 - Agent Plan	不要买
智谱 GLM - Coding Plan	★推荐，但是难抢
Kimi - Membership	可以买
MiniMax - Token Plan	★推荐，如果模型能力满足需求
移动云 - Coding Plan	不要买, 不如直接买 MiniMax 的
OpenCode Go - Coding Plan	★推荐，可以使用站长的 Freemodel Auto Router 开源桌面应用来实现在 Claude Code 上使用
无问芯穹 - Coding Plan	这个不懂了，买不到
天翼云 - Coding Plan	不太懂，好像也买不到
阶跃星辰 - Coding Plan	不要买，模型能力不太行
ZenMux - Coding Plan	太贵
摩尔线程 - Coding Plan	不要买，没模型
优云智算 - Coding Plan	次数少，抵扣率高，价格贵，不值
商汤科技 - Token Plan	反正不要钱，玩玩 DeepSeek V4 Flash 可以
GitCode - Coding Plan	没抢到免费的现在也买不到了。站长运气好拿了个Pro，试了半个下午的GLM5.1，几乎一半时间都不可用
九章智算云 - Coding Plan	看额度和模型，Lite 和 Pro 都没有买的价值，但是 Max 售价高达 699，还是去买 199 的讯飞吧

KV 缓存（KV Cache） 是大模型推理的底层机制。Transformer 处理 Token 时会产生 Key/Value 矩阵，KV 缓存把这些中间结果存下来，避免重复计算。它分两层：

单次请求内：推理引擎自动复用，用户无感知，不影响计费
跨请求持久化：将 KV 缓存保存到存储，供后续请求复用

两种主流跨请求缓存模式：

1. 自动缓存（Implicit Cache）

厂商自动识别重复的输入前缀并缓存，命中时折扣自动生效，用户不需要改任何代码。

代表厂商：OpenAI、DeepSeek、腾讯混元
最小触发：≥256 Token
TTL 由厂商控制，不可干预
适合：不想改代码、追求零成本接入

2. 显式缓存（Explicit Cache）

在 API 请求中主动标记哪些内容需要缓存，厂商按标记持久化，命中时单独低价计费，写入时收额外费用。

代表厂商：Claude（cache_control 参数）、Gemini（cachedContent API）、Qwen Plus（同样用 cache_control）
最小触发：≥1024 Token
TTL 可指定（Claude / Qwen Plus 均支持 5 分钟窗口）
适合：系统提示超长、多用户共享同一份文档的 RAG / Agent 场景

注意：两种模式互斥，同一个请求只能使用其中一种。

谁来做这个标记？ 作为最终用户，你通常感知不到这层操作——Claude Code、Cursor 等工具会在调用 API 时自动加上缓存标记，对你完全透明。"需要改代码"针对的是自建应用的开发者：如果你用 Anthropic SDK 自己写应用，才需要在代码里手动添加 cache_control；如果你只是使用现成工具，什么都不用做。

跨会话（Cross-session）的意义

默认缓存只在单次会话内有效，会话结束即释放。跨会话缓存将内容持久化，使多个独立请求甚至不同用户都能命中——同一份长文档写入一次，后续无数次请求都以极低价格读取，并发用户越多收益越大。

选哪种？

场景	建议
系统提示较短（<256 Token）	两种都不会触发，缓存无效
系统提示中等（256–1024 Token）	只有自动缓存能触发
系统提示很长（>1k Token）	显式缓存，命中率确定、收益更高
多用户共享同一文档	显式缓存，写入一次多次命中
不想改代码	选支持自动缓存的厂商（DeepSeek）

价格参考：DeepSeek 缓存命中约为原价 10%；Claude 显式缓存读取约为原价 10%，写入为 125%。

Coding Plan 一站通

选购建议

核心选购建议

计费规则详解

站长简评

大模型缓存是什么？两种主流模式有何区别？