近日,AI 编程工具 Claude Code 因一次关键版本更新后性能严重退化,在开发者社群引发轩然大波。超微(AMD)负责开源 AI 软件开发的团队主管 Stella Laurenzo 发布了一份基于真实会话数据的分析报告,系统性地揭示了此次性能下降的幅度与影响范围。
数据分析:17871 个思考模块的量化结果
Laurenzo 基于 2026 年 1 月 30 日至 4 月 1 日期间的 6852 份 Claude Code 会话文件进行了系统性分析,涵盖 17871 个思考模块与 234760 次工具调用。分析本身借助 Claude Opus 4.6 完成。报告的核心发现是:思考深度在 2 月上中旬出现了约 67% 的显著下降,且该下降与 2 月 12 日上线的 redact-thinking-2026-02-12 更新在时间上精准吻合。
进一步的数据揭示了更细微的变化:每次编辑对应的代码查阅次数从 6.6 次降至 2.0 次,调研行为整体减少约 70%。Claude Code 的行为模式从"优先研究"转向"优先编辑",整文件写入使用量翻倍,倾向于重写整个文件而非进行精准的局部修改。这一转变直接影响了代码质量——拦截脚本(error-catching script)在 3 月 8 日后的 17 天内触发 173 次,而此前为零。
算力悖论:省了思考却浪费了更多算力
一个反直觉的发现是,虽然表面上减少思考次数可以节省 token 消耗,但整体算力消耗反而增加了"几个数量级"。原因在于输出质量下降导致频繁重试和修正,多次重复工作累积的成本远超节省的部分。Laurenzo 指出,受影响的工作流包括 50+ 并发智能体会话的系统编程、30 分钟以上自主运行的复杂多文件修改,以及依赖 5000+ 词 CLAUDE.md 规范的大型项目。
官方回应与社区反弹
Claude Code 负责人 Boris Cherny 在 Hacker News 和 GitHub Issue 中回应称,redact-thinking 仅为界面层改动,不影响实际思考行为;2 月份还引入了自适应思考机制(adaptive thinking)并调整了默认思考强度至中等。他建议用户使用高强度思考模式或 ULTRATHINK 关键字来恢复深度分析能力。
然而开发者社区普遍不认同这一解释。多位用户在 Hacker News 上表示,Claude Code 已退化为"AI 玩具",无法信任其执行复杂的工程任务。一条获高度赞同的评论写道:“如果思考深度是界面上看不到的,那它对实际产出就没有影响——这个逻辑本身就是矛盾的。”
为何值得关注
此次事件折射出一个深层矛盾:AI 编程工具在追求响应速度与 token 效率的过程中,是否正在牺牲深度推理能力?对于依赖 Claude Code 进行大规模代码库维护和复杂系统开发的团队而言,这不仅是一次产品体验问题,更是对 AI 辅助开发可靠性的一次公开检验。Anthropic 后续是否会通过产品调整恢复用户信任,值得持续关注。