选购建议
AI 套餐选购实用指南,帮助你做出更明智的选择。
1. Token Plan 现状
Update 2026.5.27: 今天小米 MiMo API 降价了,Token Plan 也加上缓存的计费规则,如果觉得 MiMo 的模型能力满足需求,可以冲。
在 DeepSeek V4 Pro 目前优惠力度下,所有的 Token Plan 都不值得购买(MiniMax 除外,因为它是按次计费的)。使用量不多的话,直接用 DeepSeek API 按量计费更划算。
2. Coding 开发推荐
从模型能力维度,最建议的组合是:
- 一个官方 Claude/Codex 订阅
- 一个智谱(GLM)套餐
日常用 Claude/Codex 开发,按 Token 计量;GLM 用来做 Spec 执行,按 Prompt 计次,很划算。 GLM 的模型能力在国产模型里是遥遥领先的存在,不接受反驳。 之前本来是搭配 Github Copilot 更佳,但是 Copilot 在 6 月 1 号就要改计费方式了,所以不推荐了。
缺点:
- Claude/Codex 在国内使用有一定门槛
- 智谱的套餐不太好抢
3. 日常用途推荐
龙虾、聊天、文档撰写等日常用途,建议直接上 MiniMax:
- 不用抢购
- 按次计费
- 模型能力尚可(Coding 不行)
- 包含图像/语音/视频生成
计费方式说明:
1. API 按量计费
最简单直接的方式。每个模型都有公开的按量计费价格,用多少算多少,无需预付。
适合:用量不确定、偶尔使用、测试阶段。
2. Token Plan(流量包)
以优惠价格预购一定量的 Token,类似手机流量包。用完后需要再购买或转为按量计费。
变种形式:
- Credit(积分):厂商内部计量单位,换算比例各不相同
- AFP 等:本质相同,只是命名不同
适合:用量稳定、追求性价比、有明确预算。
3. 按 Prompt 计费
一次提问算一次,不管这次提问消耗了多少 Token。即使输出很长,也只算一次。
适合:输出长度不确定、多轮对话场景。
4. 按次计费
在一次 Prompt 中,Agent 需要和模型进行多次请求才能完成任务,按这些请求次数计费。
例如:
- 用户发起一个 Prompt
- Agent 进行规划、搜索、工具调用、执行、总结等多个步骤
- 单次 Prompt 可能产生 5-30 次请求(甚至更多)
适合:Agent 开发、自动化任务、复杂工作流。
其他概念:
- 上下文缓存(Context Cache):模型对重复使用的系统提示、文档等内容进行缓存,后续请求时这部分以极低的价格计费。能显著降低长上下文场景的成本,但各厂商缓存策略不同(缓存时长、命中率计算等)
- 上下文窗口(Context Window):模型能"记住"的对话历史长度,影响多轮对话体验。长上下文适合代码分析、长文档处理
原则上,像上面说的,按量的 Token Plan 都不建议购买了, Coding Plan 必须选有 GLM 5 以上模型的,尽量选算力充沛的大厂商。
| 厂商 - 套餐类型 | 评价 |
|---|---|
| 讯飞星火 - Coding Plan | 可以买,高峰期会限流,最高档位有 GLM-5.1 |
| 联通云 - Coding Plan | 不建议,限流严重 |
| 联通云 - Token Plan | 不要买 |
| 京东云 - Coding Plan | 可以买,限流较少, 有 GLM-5 |
| 腾讯云 - Token Plan | 不要买 |
| 百度千帆 - Coding Plan | 不建议,限流较严重 |
| 国家超算中心 - Coding Plan | 不要买,不如直接买 MiniMax 的 |
| 阿里云百炼 - Token Plan | 不要买 |
| 小米 MiMo - Token Plan | 推荐,降价后的 Toke Plan 可以冲 |
| 火山方舟 - Coding Plan | 不要买,倍率消耗太快 |
| 火山方舟 - Agent Plan | 不要买 |
| 智谱 GLM - Coding Plan | ★推荐,但是难抢 |
| Kimi - Membership | 可以买 |
| MiniMax - Token Plan | ★推荐,如果模型能力满足需求 |
| 移动云 - Coding Plan | 不要买, 不如直接买 MiniMax 的 |
| OpenCode Go - Coding Plan | ★推荐,可以使用站长的 Freemodel Auto Router 开源桌面应用 来实现在 Claude Code 上使用 |
| 无问芯穹 - Coding Plan | 这个不懂了,买不到 |
| 天翼云 - Coding Plan | 不太懂,好像也买不到 |
| 阶跃星辰 - Coding Plan | 不要买,模型能力不太行 |
| ZenMux - Coding Plan | 太贵 |
| 摩尔线程 - Coding Plan | 不要买,没模型 |
| 优云智算 - Coding Plan | 次数少,抵扣率高,价格贵,不值 |
| 商汤科技 - Token Plan | 反正不要钱,玩玩 DeepSeek V4 Flash 可以 |
| GitCode - Coding Plan | 没抢到免费的现在也买不到了。站长运气好拿了个Pro,试了半个下午的GLM5.1,几乎一半时间都不可用 |
| 九章智算云 - Coding Plan | 看额度和模型,Lite 和 Pro 都没有买的价值,但是 Max 售价高达 699,还是去买 199 的讯飞吧 |
KV 缓存(KV Cache) 是大模型推理的底层机制。Transformer 处理 Token 时会产生 Key/Value 矩阵,KV 缓存把这些中间结果存下来,避免重复计算。它分两层:
- 单次请求内:推理引擎自动复用,用户无感知,不影响计费
- 跨请求持久化:将 KV 缓存保存到存储,供后续请求复用
两种主流跨请求缓存模式:
1. 自动缓存(Implicit Cache)
厂商自动识别重复的输入前缀并缓存,命中时折扣自动生效,用户不需要改任何代码。
- 代表厂商:OpenAI、DeepSeek、腾讯混元
- 最小触发:≥256 Token
- TTL 由厂商控制,不可干预
- 适合:不想改代码、追求零成本接入
2. 显式缓存(Explicit Cache)
在 API 请求中主动标记哪些内容需要缓存,厂商按标记持久化,命中时单独低价计费,写入时收额外费用。
- 代表厂商:Claude(
cache_control参数)、Gemini(cachedContentAPI)、Qwen Plus(同样用cache_control) - 最小触发:≥1024 Token
- TTL 可指定(Claude / Qwen Plus 均支持 5 分钟窗口)
- 适合:系统提示超长、多用户共享同一份文档的 RAG / Agent 场景
注意:两种模式互斥,同一个请求只能使用其中一种。
谁来做这个标记? 作为最终用户,你通常感知不到这层操作——Claude Code、Cursor 等工具会在调用 API 时自动加上缓存标记,对你完全透明。"需要改代码"针对的是自建应用的开发者:如果你用 Anthropic SDK 自己写应用,才需要在代码里手动添加 cache_control;如果你只是使用现成工具,什么都不用做。
跨会话(Cross-session)的意义
默认缓存只在单次会话内有效,会话结束即释放。跨会话缓存将内容持久化,使多个独立请求甚至不同用户都能命中——同一份长文档写入一次,后续无数次请求都以极低价格读取,并发用户越多收益越大。
选哪种?
| 场景 | 建议 |
|---|---|
| 系统提示较短(<256 Token) | 两种都不会触发,缓存无效 |
| 系统提示中等(256–1024 Token) | 只有自动缓存能触发 |
| 系统提示很长(>1k Token) | 显式缓存,命中率确定、收益更高 |
| 多用户共享同一文档 | 显式缓存,写入一次多次命中 |
| 不想改代码 | 选支持自动缓存的厂商(DeepSeek) |
价格参考:DeepSeek 缓存命中约为原价 10%;Claude 显式缓存读取约为原价 10%,写入为 125%。