选购建议

AI 套餐选购实用指南,帮助你做出更明智的选择。

1. Token Plan 现状 Update 2026.5.27: 今天小米 MiMo API 降价了,Token Plan 也加上缓存的计费规则,如果觉得 MiMo 的模型能力满足需求,可以冲。
在 DeepSeek V4 Pro 目前优惠力度下,所有的 Token Plan 都不值得购买(MiniMax 除外,因为它是按次计费的)。使用量不多的话,直接用 DeepSeek API 按量计费更划算。

2. Coding 开发推荐

从模型能力维度,最建议的组合是:

  • 一个官方 Claude/Codex 订阅
  • 一个智谱(GLM)套餐

日常用 Claude/Codex 开发,按 Token 计量;GLM 用来做 Spec 执行,按 Prompt 计次,很划算。 GLM 的模型能力在国产模型里是遥遥领先的存在,不接受反驳。 之前本来是搭配 Github Copilot 更佳,但是 Copilot 在 6 月 1 号就要改计费方式了,所以不推荐了。

缺点:

  • Claude/Codex 在国内使用有一定门槛
  • 智谱的套餐不太好抢

3. 日常用途推荐

龙虾、聊天、文档撰写等日常用途,建议直接上 MiniMax:

  • 不用抢购
  • 按次计费
  • 模型能力尚可(Coding 不行)
  • 包含图像/语音/视频生成

计费方式说明:

1. API 按量计费

最简单直接的方式。每个模型都有公开的按量计费价格,用多少算多少,无需预付。

适合:用量不确定、偶尔使用、测试阶段。

2. Token Plan(流量包)

以优惠价格预购一定量的 Token,类似手机流量包。用完后需要再购买或转为按量计费。

变种形式:

  • Credit(积分):厂商内部计量单位,换算比例各不相同
  • AFP 等:本质相同,只是命名不同

适合:用量稳定、追求性价比、有明确预算。

3. 按 Prompt 计费

一次提问算一次,不管这次提问消耗了多少 Token。即使输出很长,也只算一次。

适合:输出长度不确定、多轮对话场景。

4. 按次计费

在一次 Prompt 中,Agent 需要和模型进行多次请求才能完成任务,按这些请求次数计费。

例如:

  • 用户发起一个 Prompt
  • Agent 进行规划、搜索、工具调用、执行、总结等多个步骤
  • 单次 Prompt 可能产生 5-30 次请求(甚至更多)

适合:Agent 开发、自动化任务、复杂工作流。


其他概念:

  • 上下文缓存(Context Cache):模型对重复使用的系统提示、文档等内容进行缓存,后续请求时这部分以极低的价格计费。能显著降低长上下文场景的成本,但各厂商缓存策略不同(缓存时长、命中率计算等)
  • 上下文窗口(Context Window):模型能"记住"的对话历史长度,影响多轮对话体验。长上下文适合代码分析、长文档处理

原则上,像上面说的,按量的 Token Plan 都不建议购买了, Coding Plan 必须选有 GLM 5 以上模型的,尽量选算力充沛的大厂商。

厂商 - 套餐类型评价
讯飞星火 - Coding Plan可以买,高峰期会限流,最高档位有 GLM-5.1
联通云 - Coding Plan不建议,限流严重
联通云 - Token Plan不要买
京东云 - Coding Plan可以买,限流较少, 有 GLM-5
腾讯云 - Token Plan不要买
百度千帆 - Coding Plan不建议,限流较严重
国家超算中心 - Coding Plan不要买,不如直接买 MiniMax 的
阿里云百炼 - Token Plan不要买
小米 MiMo - Token Plan推荐,降价后的 Toke Plan 可以冲
火山方舟 - Coding Plan不要买,倍率消耗太快
火山方舟 - Agent Plan不要买
智谱 GLM - Coding Plan★推荐,但是难抢
Kimi - Membership可以买
MiniMax - Token Plan★推荐,如果模型能力满足需求
移动云 - Coding Plan不要买, 不如直接买 MiniMax 的
OpenCode Go - Coding Plan★推荐,可以使用站长的 Freemodel Auto Router 开源桌面应用 来实现在 Claude Code 上使用
无问芯穹 - Coding Plan这个不懂了,买不到
天翼云 - Coding Plan不太懂,好像也买不到
阶跃星辰 - Coding Plan不要买,模型能力不太行
ZenMux - Coding Plan太贵
摩尔线程 - Coding Plan不要买,没模型
优云智算 - Coding Plan次数少,抵扣率高,价格贵,不值
商汤科技 - Token Plan反正不要钱,玩玩 DeepSeek V4 Flash 可以
GitCode - Coding Plan没抢到免费的现在也买不到了。站长运气好拿了个Pro,试了半个下午的GLM5.1,几乎一半时间都不可用
九章智算云 - Coding Plan看额度和模型,Lite 和 Pro 都没有买的价值,但是 Max 售价高达 699,还是去买 199 的讯飞吧

KV 缓存(KV Cache) 是大模型推理的底层机制。Transformer 处理 Token 时会产生 Key/Value 矩阵,KV 缓存把这些中间结果存下来,避免重复计算。它分两层:

  • 单次请求内:推理引擎自动复用,用户无感知,不影响计费
  • 跨请求持久化:将 KV 缓存保存到存储,供后续请求复用

两种主流跨请求缓存模式:

1. 自动缓存(Implicit Cache)

厂商自动识别重复的输入前缀并缓存,命中时折扣自动生效,用户不需要改任何代码。

  • 代表厂商:OpenAI、DeepSeek、腾讯混元
  • 最小触发:≥256 Token
  • TTL 由厂商控制,不可干预
  • 适合:不想改代码、追求零成本接入

2. 显式缓存(Explicit Cache)

在 API 请求中主动标记哪些内容需要缓存,厂商按标记持久化,命中时单独低价计费,写入时收额外费用。

  • 代表厂商:Claude(cache_control 参数)、Gemini(cachedContent API)、Qwen Plus(同样用 cache_control
  • 最小触发:≥1024 Token
  • TTL 可指定(Claude / Qwen Plus 均支持 5 分钟窗口)
  • 适合:系统提示超长、多用户共享同一份文档的 RAG / Agent 场景

注意:两种模式互斥,同一个请求只能使用其中一种。

谁来做这个标记? 作为最终用户,你通常感知不到这层操作——Claude Code、Cursor 等工具会在调用 API 时自动加上缓存标记,对你完全透明。"需要改代码"针对的是自建应用的开发者:如果你用 Anthropic SDK 自己写应用,才需要在代码里手动添加 cache_control;如果你只是使用现成工具,什么都不用做。


跨会话(Cross-session)的意义

默认缓存只在单次会话内有效,会话结束即释放。跨会话缓存将内容持久化,使多个独立请求甚至不同用户都能命中——同一份长文档写入一次,后续无数次请求都以极低价格读取,并发用户越多收益越大。


选哪种?

场景建议
系统提示较短(<256 Token)两种都不会触发,缓存无效
系统提示中等(256–1024 Token)只有自动缓存能触发
系统提示很长(>1k Token)显式缓存,命中率确定、收益更高
多用户共享同一文档显式缓存,写入一次多次命中
不想改代码选支持自动缓存的厂商(DeepSeek)

价格参考:DeepSeek 缓存命中约为原价 10%;Claude 显式缓存读取约为原价 10%,写入为 125%