2026-04-27 11:42:08

我注意到最近几个月，AI 市场发生了一些有趣的事情。狂欢结束了。那些大公司全额买单、我们可以把 tokens 当成自来水一样随便用的日子，已经过去了。

两年来，我们活在一个舒适的幻觉里。OpenAI、Anthropic 以及其他巨头都在烧投资者的钱来补贴我们的使用。于是我们做了什么？发出巨大的提示——一篇文本上千个词——还要求 GPT-4 去完成一些荒谬到离谱的任务，而这些任务用一条简单规则就能解决。因为便宜。因为我们不需要想成本。

但现在现实敲门了。tokens 变成了真正的货币。每个词、每个空格、每个标点——都要收费。而当你开始扩规模、当你的日调用量上升到数百万或数十亿次时，那“1K tokens”原本微不足道的小钱，就会变成一场止不住的出血。

问题在于：大多数公司根本不知道钱到底被浪费在哪里。人们看着月账单越涨越高，却不知道该怎么办。

举个例子：你在和 AI 说话时会有礼貌吗？“Hello, could you help me out? Thank you so much...” 没错。每一个“please”与“thank you”都是在计费的 token。模型没有情绪，也不需要礼貌。更让人不安的是，开发者为了保证稳定性会做很长的系统提示。每次对话都要重新计算一千个指令 tokens。纯粹的浪费。

接下来还有失控的 RAG（检索增强生成）。从理论上说它完美无缺：找回最相关的三个文档就结束了。可在现实里呢？向量数据库会拉出十个最随机的 PDF——每个都有一万字——然后把所有内容一起塞给模型。“你自己想办法吧”，开发者会这么想。结果就是：模型读了半个图书馆，而你却要按每一页付费。

我甚至都不想从那些陷入无限循环的代理（agents）说起。那是 tokens 的黑洞。如果 API 崩溃，或者逻辑钻进死胡同，代理就会疯狂打转，不停消耗输出 tokens——而输出 tokens 的成本往往是输入的多倍。你在睡觉时信用卡就被掏空了。

但有意思的是：行业正在为解决方案醒过来。语义缓存（Semantic cache）是最直接的。用户的问题天生就很重复。“怎么重置我的密码？”这种问题会被问成千上万次。为什么每次都要去调用 GPT-4？语义缓存把问题转成向量，与之前的问题做匹配；如果找到了相似答案，就直接从缓存返回。零 tokens 消耗。延迟从几秒降到几毫秒。这不只是节省成本，而是对体验维度的改变。

接下来是提示压缩（prompt compression）。这不是你手动删掉文字那么简单。基于信息熵的算法能够识别哪些内容是关键，哪些只是噪音。它们可以把一段一千 tokens 的文本压缩到三百 tokens，同时保留核心含义。让机器之间用某种“火星文本”交流——我们看不懂，但模型完全理解。你能把费用省下 70%。

但真正的转折点是模型路由（model routing）。不要把所有任务都丢给最贵的模型。简单的实体提取、翻译、格式转换？发给本地运行的 Llama 3 8B，或者发给 Claude 3 Haiku。成本几乎可以忽略。深度推理、复杂编程？那就才轮到调用 GPT-4o 或 Claude 3.5 Sonnet。就像一家高效的公司：前台处理简单咨询，CEO 只负责策略。谁能把这套做对，总代币成本就能压到竞争对手的十分之一。

最让我震撼的是，看到像 OpenClaw 和 Hermes 这样的框架已经在这种现实里开始运转了。OpenClaw 对效率近乎偏执。它不走“粗暴地把整个上下文全塞进去”的路线。它强迫模型产出结构化输出——严格的 JSON、二进制格式。在生成过程中去掉冗余字符。AI 不“对话”，它“交付表格”。看起来简单，但这是一种巧妙的数据节省手段。

Hermes 则走另一条路：动态记忆。只在 working memory 里保留最近 3-5 轮对话。当超过限制时，一个轻量模型用几句关键短语把全部内容总结出来，并存入向量数据库。知识被保留，历史被丢弃。这更像是做记忆手术，而不是把“垃圾”随意扔掉。

但你知道最重要的思维变化是什么吗？别再把 tokens 当作消耗品，而要开始把它们当作 ROI（投资回报）。每个花掉的 token 都是一笔投资。回报是什么？工单的关闭率提高了吗？修复 bug 的时间变短了吗？还是只是一句毫无意义的话？

如果某个功能按传统规则算出来要 0.1 yuan，但把它集成进大模型后只需要 1 yuan，却带来转化率提升只有 2%，那就毫不犹豫地砍掉旧方案。别再追逐“又大又全”的 AI 噱头，转向“精巧而优雅”的 AI。学会对业务部门说“不”。

我知道这听起来有点反高潮，像是很老套。但这正是 AI 行业成熟的方式。它不是赛博朋克，更像管理一家传统超市。像店主一样计算每个 token，就像计算每一件商品。

最后，当潮水退去，你会发现谁在裸奔。而这次退潮退去的，是补贴的浪潮。只有懂得把每一滴 token 锻造成黄金的人，才能穿得好应对接下来的事情。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
WCTC交易王PK
31.81万热度
#
加密市场小幅下跌
21.78万热度
#
Polymarket每日热点
65.07万热度
#
Solana发布量子路线图
1274.56万热度
#
GateCard一拍即付
1.23万热度

我注意到最近几个月，AI 市场发生了一些有趣的事情。狂欢结束了。那些大公司全额买单、我们可以把 tokens 当成自来水一样随便用的日子，已经过去了。

热门话题

WCTC交易王PK

加密市场小幅下跌

Polymarket每日热点

Solana发布量子路线图

GateCard一拍即付

置顶