Claude Code 更新引思考深度骤降 67%，开发者社区激烈争议

近日，AI 编程工具 Claude Code 因一次关键版本更新后性能严重退化，在开发者社群引发轩然大波。超微（AMD）负责开源 AI 软件开发的团队主管 Stella Laurenzo 发布了一份基于真实会话数据的分析报告，系统性地揭示了此次性能下降的幅度与影响范围。

数据分析：17871 个思考模块的量化结果

Laurenzo 基于 2026 年 1 月 30 日至 4 月 1 日期间的 6852 份 Claude Code 会话文件进行了系统性分析，涵盖 17871 个思考模块与 234760 次工具调用。分析本身借助 Claude Opus 4.6 完成。报告的核心发现是：思考深度在 2 月上中旬出现了约 67% 的显著下降，且该下降与 2 月 12 日上线的 redact-thinking-2026-02-12 更新在时间上精准吻合。

进一步的数据揭示了更细微的变化：每次编辑对应的代码查阅次数从 6.6 次降至 2.0 次，调研行为整体减少约 70%。Claude Code 的行为模式从"优先研究"转向"优先编辑"，整文件写入使用量翻倍，倾向于重写整个文件而非进行精准的局部修改。这一转变直接影响了代码质量——拦截脚本（error-catching script）在 3 月 8 日后的 17 天内触发 173 次，而此前为零。

算力悖论：省了思考却浪费了更多算力

一个反直觉的发现是，虽然表面上减少思考次数可以节省 token 消耗，但整体算力消耗反而增加了"几个数量级"。原因在于输出质量下降导致频繁重试和修正，多次重复工作累积的成本远超节省的部分。Laurenzo 指出，受影响的工作流包括 50+ 并发智能体会话的系统编程、30 分钟以上自主运行的复杂多文件修改，以及依赖 5000+ 词 CLAUDE.md 规范的大型项目。

官方回应与社区反弹

Claude Code 负责人 Boris Cherny 在 Hacker News 和 GitHub Issue 中回应称，redact-thinking 仅为界面层改动，不影响实际思考行为；2 月份还引入了自适应思考机制（adaptive thinking）并调整了默认思考强度至中等。他建议用户使用高强度思考模式或 ULTRATHINK 关键字来恢复深度分析能力。

然而开发者社区普遍不认同这一解释。多位用户在 Hacker News 上表示，Claude Code 已退化为"AI 玩具"，无法信任其执行复杂的工程任务。一条获高度赞同的评论写道：“如果思考深度是界面上看不到的，那它对实际产出就没有影响——这个逻辑本身就是矛盾的。”

为何值得关注

此次事件折射出一个深层矛盾：AI 编程工具在追求响应速度与 token 效率的过程中，是否正在牺牲深度推理能力？对于依赖 Claude Code 进行大规模代码库维护和复杂系统开发的团队而言，这不仅是一次产品体验问题，更是对 AI 辅助开发可靠性的一次公开检验。Anthropic 后续是否会通过产品调整恢复用户信任，值得持续关注。