Claude Computer Use:让 AI 直接操控你的电脑界面

Claude Code 推出 Computer Use 功能,允许 Claude 通过 CLI 直接控制 macOS 图形界面,完成 UI 测试、原生应用验证、布局调试等需要 GUI 的任务,本文详细介绍其工作原理、使用方式与安全机制。

什么是 Claude Computer Use?

Claude Code 最新推出了 Computer Use 功能——一项研究预览特性,允许 Claude 通过命令行直接接管你的 macOS 图形界面,执行那些原本只能靠人工点击才能完成的操作。

这意味着你可以用自然语言指令让 Claude:

  • 编译并启动原生应用、点击 UI 控件、截图验证结果
  • 完整走一遍 Electron 应用的注册流程,测试端到端交互
  • 拖拽窗口到特定尺寸,重现只有在特定分辨率下才会出现的布局 bug
  • 操控 iOS 模拟器或其他只有图形界面的工具

Claude 在决策上遵循"最小侵入"原则:优先使用 MCP 服务器、Bash 命令或 Chrome 扩展等更精准的工具,仅在这些手段都行不通时才启用 Computer Use


使用前提

在开始之前,确认以下条件都满足:

条件 要求
操作系统 macOS(当前仅限 macOS)
Claude Code 版本 v2.1.85 或更高
订阅计划 Pro 或 Max

如何启用

第一步:在 MCP 面板中开启

在 Claude Code 的交互式会话中运行:

1
/mcp

在弹出的服务器列表里找到 computer-use,选择 Enable。该设置是按项目保存的,不同项目可以独立管理。

第二步:授予系统权限

首次使用时,macOS 会弹出两个系统级权限请求:

  • 辅助功能权限:允许 Claude 模拟鼠标点击和键盘输入
  • 屏幕录制权限:允许 Claude 读取当前屏幕内容

授权完成后,可能需要完全退出并重启 Claude Code 权限才能生效。

第三步:按会话授权应用

进入正式使用阶段后,每次 Claude 首次访问某个具体应用(如 Finder、Simulator、某个桌面工具),都会在当次会话中单独请求授权。对于终端、系统设置这类高风险应用,Claude 会额外弹出警告提示,需要用户明确确认后才会继续。


实际使用场景

场景一:验证原生应用构建

想象你用 Swift 写了一个 macOS 菜单栏应用,需要确认编译产物的 UI 行为是否符合预期:

1
2
Build the MenuBarStats target, launch it, open the preferences window, 
and verify the interval slider updates the label. Screenshot the preferences window when you're done.

Claude 会自动完成:编译 Swift 工程 → 启动应用 → 定位并点击偏好设置入口 → 拖动滑块观察标签变化 → 截图存档。整个流程无需你动一下鼠标。

场景二:调试视觉布局问题

产品反馈说某个设置弹窗在窄屏下底部被裁切,但你本地复现不了:

1
2
3
The settings modal clips its footer on narrow windows. Resize the app window down 
until you can reproduce it, screenshot the clipped state, then check the CSS 
for the modal container.

Claude 会逐步缩小窗口宽度,直到触发 bug,然后截图并定位对应的 CSS 容器问题——把人工排查的繁琐步骤压缩到一条指令。

场景三:iOS 模拟器端到端测试

新版 onboarding 流程上线前,需要走完整个引导步骤并测试性能:

1
2
Open the iOS Simulator, launch the app, tap through the onboarding screens, 
and tell me if any screen takes more than a second to load.

Claude 会打开模拟器、逐屏点击引导流程,并报告哪些页面出现了明显的加载延迟。


安全机制

Computer Use 拿到的权限涉及屏幕和输入控制,Anthropic 为此设计了多层安全保障:

会话级应用授权:Claude 每次会话不会默认拥有所有应用的访问权,必须逐个应用手动授权,避免权限扩散。

终端窗口隔离:Claude 进行屏幕截图时,终端窗口会被自动排除在外,防止通过截图读取 CLI 输出中的敏感内容或植入提示注入攻击。

全局 Esc 中止:操作进行中随时按下 EscCtrl+C 即可立即中断所有 GUI 操作,控制权立刻回到用户手中。

机器级互斥锁:同一台机器同一时刻只允许一个 Claude 会话控制 GUI,多个并行会话不会相互干扰或争抢控制权。


常见问题排查

操作锁被占用:提示另一个会话正在控制计算机,需要先结束那个会话再重试。

权限提示反复弹出:完全退出 Claude Code(不只是关闭窗口),重新启动后再授权。

功能菜单中找不到 Computer Use:逐一排查——是否运行在 macOS 上、Claude Code 版本是否达到 v2.1.85、当前订阅是否为 Pro/Max、是否使用的是第三方 Claude 服务(第三方不支持此功能)。


总结

Claude Computer Use 把 AI 的能力从"代码生成"延伸到了"实际操作",填补了 CLI 与 GUI 之间的鸿沟。对于需要频繁做 UI 验证、跨工具调试或端到端测试的开发者来说,这是一个值得关注的效率工具。

目前该功能仍处于研究预览阶段,仅限 macOS + Pro/Max 用户使用。如果你满足条件,不妨在下一个需要手工点击测试的场景里试试它——可能会有意外的惊喜。


参考资料