Claude Code 长出了"眼睛"。用 Computer Use 把屏幕操作完全交给它的完整流程

Claude Code 我每天都在用。让它写代码、改文件、跑测试。只要是能在终端里搞定的活儿，它已经比我自己快了。

不过有一件事一直让我别扭。面对”只能用 GUI 操作的应用”，Claude 完全束手无策。打开浏览器点按钮、操作桌面应用的菜单、在模拟器里验证运行情况——这些只能靠自己动手。

2026 年 3 月 23 日，Anthropic 给 Claude Code 追加了 “Computer Use” 功能。虽然定位是研究预览版，但只要是 Pro/Max 套餐，今天就能尝试。

听到”可以从 CLI 操作原生应用”时，说实话我半信半疑。实际配置好跑起来之后，比想象中还要惊艳。这篇文章里，我会公开从零开始配置到实际运行的完整流程，以及踩过的所有坑。

我在这上面烧了 3 个小时，希望你能 15 分钟通关。

本文的流程是”①理解原理 → ②准备与配置 → ③实演 → ④踩坑要点”。从哪儿开始读都行，但第一次按顺序读会更顺畅。

AI 长出”眼睛”是什么概念。先理解原理

听到”AI 操作屏幕”，可能会觉得像变魔术。原理其实很简单。

Computer Use 的工作机制是一个 3 步循环。

截屏 —— Claude 获取屏幕的截图
解析图像 —— 在像素级别识别 UI 元素，判断下一步操作
执行操作 —— 执行点击、输入、滚动等动作

这个循环会”一直执行到达成目标为止”。人类用鼠标键盘做的事，被它用基于截图的方式重现出来。

Computer Use 工作循环示意图。截屏获取→图像解析→执行操作→再次截屏的循环流程

关键在于它是”基于画面外观的理解”来工作的。即便是没有 API 或 CLI、纯 GUI 的应用，也能从图像中读取按钮位置和文本进行操作。

具体能做的事，举几个例子。

原生应用的启动与操作：打开 Xcode 进行构建，并在模拟器中验证运行的全流程自动化
浏览器操作：Web 应用的表单输入和按钮点击
文件拖放：Q1 更新已支持
多显示器识别：支持跨多块屏幕的操作
剪贴板操作：复制粘贴的自动化

“以前只能用 GUI 完成的工作”那道墙，现在可以从 CLI 突破了。把这套原理装进脑子里，咱们就进入准备阶段。

开始前的准备。从条件确认到环境搭建

先确认 3 个条件

要试用 Computer Use，有 3 个条件。少一个都启动不了。

条件 1：Pro/Max 套餐

免费套餐和 Team 套餐用不了。需要 Pro 套餐（月费 20 美元）或 Max 套餐（月费 100 美元）。已经在用 Pro 的人，不会有额外费用。

条件 2：macOS（截至 2026 年 4 月）

目前仅支持 macOS。Windows 和 Linux 暂不支持，Windows 版根据官方文档记载将在未来支持。在 macOS 上需要授予辅助功能和屏幕录制的权限。

条件 3：Claude Code v2.1.85 或更高版本

版本太旧的话，这个功能不会显示。在终端里确认一下。

# 确认版本
claude --version
# 输出示例：claude-code v2.1.92

低于 v2.1.85 的话需要更新。

# 用 npm 更新
npm update -g @anthropic-ai/claude-code

完整配置流程。从启动到”AI 接管屏幕”只要 15 分钟

3 个条件凑齐后，就可以进行配置。下面以 macOS 为前提进行说明。

步骤 1：启用 Computer Use

启动 Claude Code，打开设置界面。

# 启动 Claude Code
claude

# 打开设置（在会话内执行）
/config

设置菜单里有一个名为 “Computer Use” 的开关，把它设为 Enable。配置会按项目保存，一旦打开，下次也会保持启用状态。

在 Claude Code 设置界面中将 Computer Use 开关打开的截图

步骤 2：授予 macOS 权限

Computer Use 第一次尝试操作屏幕时，macOS 会要求 2 个权限。

辅助功能：Claude 进行点击、输入、滚动时所必需。 屏幕录制：Claude 看屏幕所必需。

两者都从”系统设置 → 隐私与安全性”中授予。

System Settings → Privacy & Security → Accessibility
→ 开启终端应用（Terminal / iTerm2 / Warp 等）

System Settings → Privacy & Security → Screen Recording
→ 开启终端应用

这里有个注意点。授予屏幕录制权限后，有时需要重启终端。如果授权了还是出现 “Permission denied”，请关闭终端再打开。我在这里卡了 20 分钟。

步骤 3：第一次执行 Computer Use

授予权限后，只需在会话内用自然语言下指令即可。

> 打开 Safari，在 Google 上搜索"Claude Code Computer Use"

首次运行时会出现”操作哪个应用”的确认对话框。

Claude wants to control: Safari
[Allow for this session] [Deny]

选择 “Allow for this session” 后，该会话期间就能操作 Safari。关闭会话后授权会被重置。

必须知道的 3 个安全机制

“把屏幕交给 AI”这件事让人害怕，这种心情我完全理解。我一开始也是怕得不行。但有了以下 3 个安全机制，操作就被限定在”在你眼皮底下，只操作你允许的应用”这个范围内。

应用隔离：操作过程中，未授权的应用会被自动隐藏。不必担心被碰到无关的应用
终端排除：你的终端窗口会被排除在截图之外。操作指令的内容和 API 密钥不会出现在画面里
自动还原：Claude 的操作回合结束后，被隐藏的应用会自动恢复

Computer Use 的 3 个安全机制。应用隔离、终端排除、自动还原的三栏图解

实际跑一下。“写代码、构建、在画面里确认”一条命令搞定

配置完成了，下面展示一下实际运行效果。

案例 1：Web 应用的运行确认

我让 Claude Code 用 React 写一个简单的计数器应用，并在浏览器中完成运行验证。

> 用 React 写一个计数器应用，用 npm start 启动，
> 然后在浏览器里点 3 次按钮，确认它能正常工作

Claude 的动作是这样的。

执行 npx create-react-app counter-app（CLI 完成）
在 src/App.js 里写计数器代码（CLI 完成）
用 npm start 启动 dev server（CLI 完成）
从这里开始是 Computer Use：浏览器打开，显示计数器
点击”+“按钮 3 次。用截图确认数字增加
报告”计数器从 0 正确增加到 3”

“写代码 → 构建 → 在画面里确认”的循环用一条命令就搞定了。

以前需要”让它写代码 → 自己打开浏览器 → 自己验证 → 把结果告诉 Claude”这样的来回。现在这种来回归零了。

案例 2：桌面应用的操作

另一个尝试是 Finder（macOS 的文件管理器）的操作。

> 打开 Finder，在 Documents 文件夹里
> 创建一个名为 "claude-test" 的新文件夹

Claude 的执行步骤如下。

启动 Finder（Computer Use）
点击侧边栏的 “Documents”（Computer Use）
右键点击 → 新建文件夹（Computer Use）
输入文件夹名 “claude-test” 并回车（Computer Use）
通过截图确认文件夹已创建

如果只是 CLI，一行 mkdir ~/Documents/claude-test 就完事了。但这个例子的重点在于证明”AI 能理解并执行 GUI 操作步骤”。也就是说，连无法 CLI 化的、纯 GUI 的应用，也能做同样的事。

Claude Code 操作 Finder 创建新文件夹的一系列截图（三张并排）

用 /powerup 打基本功。18 节课的内容

和 Computer Use 一起值得了解的是 /powerup 命令。

它是 2026 年 4 月 1 日 Claude Code v2.1.90 中新增的交互式教程功能（参见 Claude Code 发布说明）。在终端里就能配合动画学习 Claude Code 的主要功能。

# 启动 /powerup
> /powerup
# 用方向键选择课程 → 回车开始

截至 2026 年 4 月共收录了 18 节课。

上下文管理：CLAUDE.md 的用法、项目信息的传递方式
Hooks：在工具执行前后自动运行 shell 命令的机制
MCP：与外部工具的连接配置
子代理：拆分任务并行执行的方法
/loop 命令：定期执行与监视的配置方法

对于”懒得读文档”的人来说再合适不过了。不必离开终端，就能一边看实际演示一边掌握功能。Pro/Max/免费套餐用户都能使用，这点也很赞。

我个人觉得 Hooks 那节课特别有用。一边看课一边配置”文件保存时自动执行 lint”的设定，只花了 5 分钟。如果光读文档，估计得花 30 分钟。

踩坑全公开。我撞过的 5 堵墙及解决方案

这里可能才是正题。配置也好操作也好，“按步骤来就行”——但总会有不按步骤走的瞬间。我先把自己撞过的 5 堵墙分享出来。

第 1 堵墙：屏幕录制权限不生效

症状：明明开启了权限，却还是出现 “Screen recording permission not granted”。

原因：macOS 的权限变更有时需要重启应用。

解决方案：完全退出终端应用并重启。不是”关闭窗口”，而是用 Cmd+Q 退出。

第 2 堵墙：没注意到版本太旧

症状：在设置界面找不到 Computer Use 的开关。

原因：Claude Code 版本低于 v2.1.85。

解决方案：

# 查看当前版本
claude --version

# 用 npm 更新
npm update -g @anthropic-ai/claude-code

# 再次确认版本
claude --version

如果 npm 的全局安装路径没有正确指向，可能会残留旧版本。可以用 which claude 确认路径。

第 3 堵墙：找不到要操作的应用

症状：明明指示 “Open Safari”，却返回 “Cannot find application”。

原因：应用名不准确。在 macOS 上是 “Safari”，但第三方应用有时需要完整的全名。

解决方案：确认 /Applications/ 文件夹内的应用名，用准确的名字下指令。

# 查看应用列表
ls /Applications/

第 4 堵墙：操作中途中断

症状：Claude 在操作屏幕的过程中，弹出窗口或通知导致操作中断。

原因：macOS 的通知和系统对话框会干扰 Computer Use 的画面识别。

解决方案：操作前先打开”勿扰模式（Do Not Disturb）“。可以在通知中心设置。我直到第 3 次重做操作才意识到这点。

第 5 堵墙：中文输入不稳定

症状：输入中文文本时，输入法的候选词框干扰，无法正确输入。

原因：Computer Use 有时无法准确识别 IME（输入法）的候选窗口。

解决方案：需要中文输入的场景，事先切换到英数输入状态再下指令。中文文本通过剪贴板粘贴会更稳定。

> 打开文本编辑器，从剪贴板
> 粘贴中文文本

事先知道这 5 点，体感的压力会小很多。

小结：拿到”眼睛”的 CLI 代理，以及下一步要做什么

用过 Computer Use 后，我感受到的是——它是过去”Vibe Coding”延长线上的产物。

Vibe Coding 是”用自然语言指示并让它写代码”的风格。加入 Computer Use 后，指令范围从”写代码”扩展到”操作画面”。写代码、构建、运行、确认——这一整套循环可以用自然语言来转动。

我擅自把这叫做”Vibe Operating”。

我曾经远离过编码。因为觉得自己拼不过专业工程师。遇到 Claude Code 后，感觉一位顶级工程师附身在了自己身上。而现在，Computer Use 的加入，让那位顶级工程师又开口说：“屏幕操作我也帮你搞定吧”——就是这种感觉。

不过，它还处在研究预览阶段这点不能忘。操作精度并非 100%，复杂的 GUI 操作也会失误。在中文环境下的不稳定也仍然存在。

把它当作”万能自动化工具”不合适，更恰当的态度是把它看作”CLI 延长线上的新实验”。别期待完美，抱着”动起来算赚到”的心情上手就行。

根据 Pragmatic Engineer 的 2026 年 2 月调查，Claude Code 被 46% 的开发者选为”最喜爱的工具”。Computer Use 应该会让这个评价进一步提升。

整理一下要点。

能做什么：可以从 CLI 操作原生应用的 GUI。运行机制是”截图→解析→操作”的循环
需要什么：Pro/Max 套餐、macOS、Claude Code v2.1.85 以上
配置流程：启用 Computer Use → 授予 macOS 权限 → 用自然语言下指令。15 分钟搞定
踩坑要点：权限生效需要重启。关闭通知。中文输入用剪贴板更稳定
现状定位：研究预览版。不完美，但作为 CLI 的延伸值得一试

还没试过的人，请从今天的 /powerup 开始。先用 18 节课掌握 Claude Code 的整体功能，再进入 Computer Use，这是最短路径。

只会”写代码”的 AI，已经走到能”操作画面”的位置。下一步还能做什么？这种变化我想在第一排见证，体验到的东西我会全部写在这里。

那个曾经远离编码的我，距离能和 AI 一起做产品的未来，又近了一步。