我注意到最近几个月,AI 市场发生了一些有趣的事情。狂欢结束了。那些大公司全额买单、我们可以把 tokens 当成自来水一样随便用的日子,已经过去了。



两年来,我们活在一个舒适的幻觉里。OpenAI、Anthropic 以及其他巨头都在烧投资者的钱来补贴我们的使用。于是我们做了什么?发出巨大的提示——一篇文本上千个词——还要求 GPT-4 去完成一些荒谬到离谱的任务,而这些任务用一条简单规则就能解决。因为便宜。因为我们不需要想成本。

但现在现实敲门了。tokens 变成了真正的货币。每个词、每个空格、每个标点——都要收费。而当你开始扩规模、当你的日调用量上升到数百万或数十亿次时,那“1K tokens”原本微不足道的小钱,就会变成一场止不住的出血。

问题在于:大多数公司根本不知道钱到底被浪费在哪里。人们看着月账单越涨越高,却不知道该怎么办。

举个例子:你在和 AI 说话时会有礼貌吗?“Hello, could you help me out? Thank you so much...” 没错。每一个“please”与“thank you”都是在计费的 token。模型没有情绪,也不需要礼貌。更让人不安的是,开发者为了保证稳定性会做很长的系统提示。每次对话都要重新计算一千个指令 tokens。纯粹的浪费。

接下来还有失控的 RAG(检索增强生成)。从理论上说它完美无缺:找回最相关的三个文档就结束了。可在现实里呢?向量数据库会拉出十个最随机的 PDF——每个都有一万字——然后把所有内容一起塞给模型。“你自己想办法吧”,开发者会这么想。结果就是:模型读了半个图书馆,而你却要按每一页付费。

我甚至都不想从那些陷入无限循环的代理(agents)说起。那是 tokens 的黑洞。如果 API 崩溃,或者逻辑钻进死胡同,代理就会疯狂打转,不停消耗输出 tokens——而输出 tokens 的成本往往是输入的多倍。你在睡觉时信用卡就被掏空了。

但有意思的是:行业正在为解决方案醒过来。语义缓存(Semantic cache)是最直接的。用户的问题天生就很重复。“怎么重置我的密码?”这种问题会被问成千上万次。为什么每次都要去调用 GPT-4?语义缓存把问题转成向量,与之前的问题做匹配;如果找到了相似答案,就直接从缓存返回。零 tokens 消耗。延迟从几秒降到几毫秒。这不只是节省成本,而是对体验维度的改变。

接下来是提示压缩(prompt compression)。这不是你手动删掉文字那么简单。基于信息熵的算法能够识别哪些内容是关键,哪些只是噪音。它们可以把一段一千 tokens 的文本压缩到三百 tokens,同时保留核心含义。让机器之间用某种“火星文本”交流——我们看不懂,但模型完全理解。你能把费用省下 70%。

但真正的转折点是模型路由(model routing)。不要把所有任务都丢给最贵的模型。简单的实体提取、翻译、格式转换?发给本地运行的 Llama 3 8B,或者发给 Claude 3 Haiku。成本几乎可以忽略。深度推理、复杂编程?那就才轮到调用 GPT-4o 或 Claude 3.5 Sonnet。就像一家高效的公司:前台处理简单咨询,CEO 只负责策略。谁能把这套做对,总代币成本就能压到竞争对手的十分之一。

最让我震撼的是,看到像 OpenClaw 和 Hermes 这样的框架已经在这种现实里开始运转了。OpenClaw 对效率近乎偏执。它不走“粗暴地把整个上下文全塞进去”的路线。它强迫模型产出结构化输出——严格的 JSON、二进制格式。在生成过程中去掉冗余字符。AI 不“对话”,它“交付表格”。看起来简单,但这是一种巧妙的数据节省手段。

Hermes 则走另一条路:动态记忆。只在 working memory 里保留最近 3-5 轮对话。当超过限制时,一个轻量模型用几句关键短语把全部内容总结出来,并存入向量数据库。知识被保留,历史被丢弃。这更像是做记忆手术,而不是把“垃圾”随意扔掉。

但你知道最重要的思维变化是什么吗?别再把 tokens 当作消耗品,而要开始把它们当作 ROI(投资回报)。每个花掉的 token 都是一笔投资。回报是什么?工单的关闭率提高了吗?修复 bug 的时间变短了吗?还是只是一句毫无意义的话?

如果某个功能按传统规则算出来要 0.1 yuan,但把它集成进大模型后只需要 1 yuan,却带来转化率提升只有 2%,那就毫不犹豫地砍掉旧方案。别再追逐“又大又全”的 AI 噱头,转向“精巧而优雅”的 AI。学会对业务部门说“不”。

我知道这听起来有点反高潮,像是很老套。但这正是 AI 行业成熟的方式。它不是赛博朋克,更像管理一家传统超市。像店主一样计算每个 token,就像计算每一件商品。

最后,当潮水退去,你会发现谁在裸奔。而这次退潮退去的,是补贴的浪潮。只有懂得把每一滴 token 锻造成黄金的人,才能穿得好应对接下来的事情。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论