開発/設計

Claude Code 长出了"眼睛"。用 Computer Use 把屏幕操作完全交给它的完整流程

使用 Claude Code 的 Computer Use 功能,从 CLI 操作原生应用的完整流程公开。从环境搭建、权限授予到踩坑要点,首次系统性整理的实战报告。

Claude Code 长出了"眼睛"。用 Computer Use 把屏幕操作完全交给它的完整流程
目次

Claude Code 我每天都在用。让它写代码、改文件、跑测试。只要是能在终端里搞定的活儿,它已经比我自己快了。

不过有一件事一直让我别扭。面对”只能用 GUI 操作的应用”,Claude 完全束手无策。打开浏览器点按钮、操作桌面应用的菜单、在模拟器里验证运行情况——这些只能靠自己动手。

2026 年 3 月 23 日,Anthropic 给 Claude Code 追加了 “Computer Use” 功能。虽然定位是研究预览版,但只要是 Pro/Max 套餐,今天就能尝试。

听到”可以从 CLI 操作原生应用”时,说实话我半信半疑。实际配置好跑起来之后,比想象中还要惊艳。这篇文章里,我会公开从零开始配置到实际运行的完整流程,以及踩过的所有坑。

我在这上面烧了 3 个小时,希望你能 15 分钟通关。

本文的流程是”①理解原理 → ②准备与配置 → ③实演 → ④踩坑要点”。从哪儿开始读都行,但第一次按顺序读会更顺畅。

AI 长出”眼睛”是什么概念。先理解原理

听到”AI 操作屏幕”,可能会觉得像变魔术。原理其实很简单。

Computer Use 的工作机制是一个 3 步循环。

  1. 截屏 —— Claude 获取屏幕的截图
  2. 解析图像 —— 在像素级别识别 UI 元素,判断下一步操作
  3. 执行操作 —— 执行点击、输入、滚动等动作

这个循环会”一直执行到达成目标为止”。人类用鼠标键盘做的事,被它用基于截图的方式重现出来。

Computer Use 工作循环示意图。截屏获取→图像解析→执行操作→再次截屏的循环流程

关键在于它是”基于画面外观的理解”来工作的。即便是没有 API 或 CLI、纯 GUI 的应用,也能从图像中读取按钮位置和文本进行操作。

具体能做的事,举几个例子。

  • 原生应用的启动与操作:打开 Xcode 进行构建,并在模拟器中验证运行的全流程自动化
  • 浏览器操作:Web 应用的表单输入和按钮点击
  • 文件拖放:Q1 更新已支持
  • 多显示器识别:支持跨多块屏幕的操作
  • 剪贴板操作:复制粘贴的自动化

“以前只能用 GUI 完成的工作”那道墙,现在可以从 CLI 突破了。把这套原理装进脑子里,咱们就进入准备阶段。

开始前的准备。从条件确认到环境搭建

先确认 3 个条件

要试用 Computer Use,有 3 个条件。少一个都启动不了。

条件 1:Pro/Max 套餐

免费套餐和 Team 套餐用不了。需要 Pro 套餐(月费 20 美元)或 Max 套餐(月费 100 美元)。已经在用 Pro 的人,不会有额外费用。

条件 2:macOS(截至 2026 年 4 月)

目前仅支持 macOS。Windows 和 Linux 暂不支持,Windows 版根据官方文档记载将在未来支持。在 macOS 上需要授予辅助功能和屏幕录制的权限。

条件 3:Claude Code v2.1.85 或更高版本

版本太旧的话,这个功能不会显示。在终端里确认一下。

# 确认版本
claude --version
# 输出示例:claude-code v2.1.92

低于 v2.1.85 的话需要更新。

# 用 npm 更新
npm update -g @anthropic-ai/claude-code

完整配置流程。从启动到”AI 接管屏幕”只要 15 分钟

3 个条件凑齐后,就可以进行配置。下面以 macOS 为前提进行说明。

步骤 1:启用 Computer Use

启动 Claude Code,打开设置界面。

# 启动 Claude Code
claude

# 打开设置(在会话内执行)
/config

设置菜单里有一个名为 “Computer Use” 的开关,把它设为 Enable。配置会按项目保存,一旦打开,下次也会保持启用状态。

在 Claude Code 设置界面中将 Computer Use 开关打开的截图

步骤 2:授予 macOS 权限

Computer Use 第一次尝试操作屏幕时,macOS 会要求 2 个权限。

辅助功能:Claude 进行点击、输入、滚动时所必需。 屏幕录制:Claude 看屏幕所必需。

两者都从”系统设置 → 隐私与安全性”中授予。

System Settings → Privacy & Security → Accessibility
→ 开启终端应用(Terminal / iTerm2 / Warp 等)

System Settings → Privacy & Security → Screen Recording
→ 开启终端应用

这里有个注意点。授予屏幕录制权限后,有时需要重启终端。如果授权了还是出现 “Permission denied”,请关闭终端再打开。我在这里卡了 20 分钟。

步骤 3:第一次执行 Computer Use

授予权限后,只需在会话内用自然语言下指令即可。

> 打开 Safari,在 Google 上搜索"Claude Code Computer Use"

首次运行时会出现”操作哪个应用”的确认对话框。

Claude wants to control: Safari
[Allow for this session] [Deny]

选择 “Allow for this session” 后,该会话期间就能操作 Safari。关闭会话后授权会被重置。

必须知道的 3 个安全机制

“把屏幕交给 AI”这件事让人害怕,这种心情我完全理解。我一开始也是怕得不行。但有了以下 3 个安全机制,操作就被限定在”在你眼皮底下,只操作你允许的应用”这个范围内。

  1. 应用隔离:操作过程中,未授权的应用会被自动隐藏。不必担心被碰到无关的应用
  2. 终端排除:你的终端窗口会被排除在截图之外。操作指令的内容和 API 密钥不会出现在画面里
  3. 自动还原:Claude 的操作回合结束后,被隐藏的应用会自动恢复

Computer Use 的 3 个安全机制。应用隔离、终端排除、自动还原的三栏图解

实际跑一下。“写代码、构建、在画面里确认”一条命令搞定

配置完成了,下面展示一下实际运行效果。

案例 1:Web 应用的运行确认

我让 Claude Code 用 React 写一个简单的计数器应用,并在浏览器中完成运行验证。

> 用 React 写一个计数器应用,用 npm start 启动,
> 然后在浏览器里点 3 次按钮,确认它能正常工作

Claude 的动作是这样的。

  1. 执行 npx create-react-app counter-app(CLI 完成)
  2. src/App.js 里写计数器代码(CLI 完成)
  3. npm start 启动 dev server(CLI 完成)
  4. 从这里开始是 Computer Use:浏览器打开,显示计数器
  5. 点击”+“按钮 3 次。用截图确认数字增加
  6. 报告”计数器从 0 正确增加到 3”

“写代码 → 构建 → 在画面里确认”的循环用一条命令就搞定了。

以前需要”让它写代码 → 自己打开浏览器 → 自己验证 → 把结果告诉 Claude”这样的来回。现在这种来回归零了。

案例 2:桌面应用的操作

另一个尝试是 Finder(macOS 的文件管理器)的操作。

> 打开 Finder,在 Documents 文件夹里
> 创建一个名为 "claude-test" 的新文件夹

Claude 的执行步骤如下。

  1. 启动 Finder(Computer Use)
  2. 点击侧边栏的 “Documents”(Computer Use)
  3. 右键点击 → 新建文件夹(Computer Use)
  4. 输入文件夹名 “claude-test” 并回车(Computer Use)
  5. 通过截图确认文件夹已创建

如果只是 CLI,一行 mkdir ~/Documents/claude-test 就完事了。但这个例子的重点在于证明”AI 能理解并执行 GUI 操作步骤”。也就是说,连无法 CLI 化的、纯 GUI 的应用,也能做同样的事。

Claude Code 操作 Finder 创建新文件夹的一系列截图(三张并排)

用 /powerup 打基本功。18 节课的内容

和 Computer Use 一起值得了解的是 /powerup 命令。

它是 2026 年 4 月 1 日 Claude Code v2.1.90 中新增的交互式教程功能(参见 Claude Code 发布说明)。在终端里就能配合动画学习 Claude Code 的主要功能。

# 启动 /powerup
> /powerup
# 用方向键选择课程 → 回车开始

截至 2026 年 4 月共收录了 18 节课。

  • 上下文管理:CLAUDE.md 的用法、项目信息的传递方式
  • Hooks:在工具执行前后自动运行 shell 命令的机制
  • MCP:与外部工具的连接配置
  • 子代理:拆分任务并行执行的方法
  • /loop 命令:定期执行与监视的配置方法

对于”懒得读文档”的人来说再合适不过了。不必离开终端,就能一边看实际演示一边掌握功能。Pro/Max/免费套餐用户都能使用,这点也很赞。

我个人觉得 Hooks 那节课特别有用。一边看课一边配置”文件保存时自动执行 lint”的设定,只花了 5 分钟。如果光读文档,估计得花 30 分钟。

踩坑全公开。我撞过的 5 堵墙及解决方案

这里可能才是正题。配置也好操作也好,“按步骤来就行”——但总会有不按步骤走的瞬间。我先把自己撞过的 5 堵墙分享出来。

第 1 堵墙:屏幕录制权限不生效

症状:明明开启了权限,却还是出现 “Screen recording permission not granted”。

原因:macOS 的权限变更有时需要重启应用。

解决方案:完全退出终端应用并重启。不是”关闭窗口”,而是用 Cmd+Q 退出。

第 2 堵墙:没注意到版本太旧

症状:在设置界面找不到 Computer Use 的开关。

原因:Claude Code 版本低于 v2.1.85。

解决方案

# 查看当前版本
claude --version

# 用 npm 更新
npm update -g @anthropic-ai/claude-code

# 再次确认版本
claude --version

如果 npm 的全局安装路径没有正确指向,可能会残留旧版本。可以用 which claude 确认路径。

第 3 堵墙:找不到要操作的应用

症状:明明指示 “Open Safari”,却返回 “Cannot find application”。

原因:应用名不准确。在 macOS 上是 “Safari”,但第三方应用有时需要完整的全名。

解决方案:确认 /Applications/ 文件夹内的应用名,用准确的名字下指令。

# 查看应用列表
ls /Applications/

第 4 堵墙:操作中途中断

症状:Claude 在操作屏幕的过程中,弹出窗口或通知导致操作中断。

原因:macOS 的通知和系统对话框会干扰 Computer Use 的画面识别。

解决方案:操作前先打开”勿扰模式(Do Not Disturb)“。可以在通知中心设置。我直到第 3 次重做操作才意识到这点。

第 5 堵墙:中文输入不稳定

症状:输入中文文本时,输入法的候选词框干扰,无法正确输入。

原因:Computer Use 有时无法准确识别 IME(输入法)的候选窗口。

解决方案:需要中文输入的场景,事先切换到英数输入状态再下指令。中文文本通过剪贴板粘贴会更稳定。

> 打开文本编辑器,从剪贴板
> 粘贴中文文本

事先知道这 5 点,体感的压力会小很多。

小结:拿到”眼睛”的 CLI 代理,以及下一步要做什么

用过 Computer Use 后,我感受到的是——它是过去”Vibe Coding”延长线上的产物。

Vibe Coding 是”用自然语言指示并让它写代码”的风格。加入 Computer Use 后,指令范围从”写代码”扩展到”操作画面”。写代码、构建、运行、确认——这一整套循环可以用自然语言来转动。

我擅自把这叫做”Vibe Operating”。

我曾经远离过编码。因为觉得自己拼不过专业工程师。遇到 Claude Code 后,感觉一位顶级工程师附身在了自己身上。而现在,Computer Use 的加入,让那位顶级工程师又开口说:“屏幕操作我也帮你搞定吧”——就是这种感觉。

不过,它还处在研究预览阶段这点不能忘。操作精度并非 100%,复杂的 GUI 操作也会失误。在中文环境下的不稳定也仍然存在。

把它当作”万能自动化工具”不合适,更恰当的态度是把它看作”CLI 延长线上的新实验”。别期待完美,抱着”动起来算赚到”的心情上手就行。

根据 Pragmatic Engineer 的 2026 年 2 月调查,Claude Code 被 46% 的开发者选为”最喜爱的工具”。Computer Use 应该会让这个评价进一步提升。

整理一下要点。

  • 能做什么:可以从 CLI 操作原生应用的 GUI。运行机制是”截图→解析→操作”的循环
  • 需要什么:Pro/Max 套餐、macOS、Claude Code v2.1.85 以上
  • 配置流程:启用 Computer Use → 授予 macOS 权限 → 用自然语言下指令。15 分钟搞定
  • 踩坑要点:权限生效需要重启。关闭通知。中文输入用剪贴板更稳定
  • 现状定位:研究预览版。不完美,但作为 CLI 的延伸值得一试

还没试过的人,请从今天的 /powerup 开始。先用 18 节课掌握 Claude Code 的整体功能,再进入 Computer Use,这是最短路径。

只会”写代码”的 AI,已经走到能”操作画面”的位置。下一步还能做什么?这种变化我想在第一排见证,体验到的东西我会全部写在这里。

那个曾经远离编码的我,距离能和 AI 一起做产品的未来,又近了一步。

ゲン
Written byゲンCS × Vibe Coder

正直、一度エンジニアは諦めました。新卒で入った開発会社でバケモノみたいに優秀な人たちに囲まれて、「あ、私はこっち側じゃないな」って悟ったんです。その後はカスタマーサクセスに転向して10年。でもCursorとClaude Codeに出会って、全部変わりました。完璧なコードじゃなくていい。自分の仕事を自分で楽にするコードが書ければ、それでいいんですよ。週末はサウナで整いながら次に作るツールのこと考えてます。