開発/設計

Claude Codeに「目」が付いた。Computer Useで画面操作を丸ごと任せるまでの全手順

Claude CodeのComputer Use機能を使い、CLIからネイティブアプリを操作するまでの全手順を公開。セットアップ、権限付与、ハマりポイントまで日本語で初めて体系的にまとめた実践レポート。

Claude Codeに「目」が付いた。Computer Useで画面操作を丸ごと任せるまでの全手順
目次

Claude Code(クロードコード)を毎日使っている。コードを書いてもらい、ファイルを編集してもらい、テストを回してもらう。ターミナルの中で完結する作業なら、もう自分より速い。

ただ、ずっと引っかかっていたことがある。「GUIでしか動かないアプリ」の前で、Claudeは手も足も出なかった。ブラウザを開いてボタンを押す、デスクトップアプリのメニューを操作する、シミュレーターで動作確認する。ここだけは自分の手でやるしかなかった。

2026年3月23日、Anthropic(アンソロピック)がClaude Codeに”Computer Use”機能を追加した。研究プレビューという位置づけだが、Pro/Maxプランなら今日から試せる。

「CLIからネイティブアプリを操作できる」と聞いたとき、正直半信半疑だった。実際にセットアップして動かしたら、想像以上だった。この記事では、私がゼロから設定して動かすまでの全手順と、ハマったポイントをすべて公開する。

3時間溶かしたので、あなたは15分で通過してほしい。

この記事の流れは「①仕組み理解 → ②準備とセットアップ → ③実演 → ④ハマりポイント」の順だ。どこから読んでも使えるが、初回は順番通りに読むとスムーズに動かせる。

AIに「目」が付くとはどういうことか。仕組みを先に理解する

「AIが画面を操作する」と聞くと、魔法みたいに思えるかもしれない。仕組みはシンプルだ。

Computer Useの動作は、3ステップのループで回っている。

  1. スクリーンショットを撮る ── Claudeが画面のキャプチャを取得する
  2. 画像を解析する ── UIの要素をピクセルレベルで認識し、次のアクションを判断する
  3. 操作を実行する ── クリック、タイプ、スクロールなどを実行する

これを「結果が目的に達するまで」繰り返す。人間がマウスとキーボードでやっていることを、スクリーンショットベースで再現している。

Computer Useの動作ループ図。スクリーンショット取得→画像解析→操作実行→再スクリーンショットの循環フロー

大事なのは「画面の見た目」を理解して動いている点だ。APIやCLIが存在しないGUIオンリーのアプリでも、ボタンの位置とテキストを画像から読み取って操作できる。

具体的にできることを挙げてみる。

  • ネイティブアプリの起動と操作: Xcodeを開いてビルドし、シミュレーターで動作確認まで自動実行
  • ブラウザ操作: Webアプリのフォーム入力やボタンクリック
  • ファイルのドラッグ&ドロップ: Q1アップデートで対応済み
  • マルチモニター認識: 複数画面をまたいだ操作にも対応
  • クリップボード操作: コピー&ペーストの自動化

「GUIでしかできなかった作業」の壁が、CLIから突破できるようになった。この仕組みを頭に入れてから、準備に進もう。

始める前の準備。条件確認からセットアップまで

条件を3つ確認する

Computer Useを試すには、3つの条件がある。1つでも欠けると起動しない。

条件1: Pro/Maxプラン

無料プランやTeamプランでは使えない。Proプラン(月額$20)またはMaxプラン(月額$100)が必要だ。すでにProで使っている人なら、追加費用はゼロになる。

条件2: macOS(2026年4月時点)

現時点で対応しているのはmacOSのみだ。WindowsとLinuxは未対応で、Windows版は今後対応予定と公式ドキュメントに記載がある。macOSの場合、アクセシビリティとスクリーンレコーディングの権限が必要になる。

条件3: Claude Code v2.1.85以上

バージョンが古いと機能が表示されない。ターミナルで確認しよう。

# バージョン確認
claude --version
# 出力例: claude-code v2.1.92

v2.1.85未満の場合はアップデートする。

# npmでアップデート
npm update -g @anthropic-ai/claude-code

セットアップ全手順。起動から「AIが画面を掴む」まで15分

3つの条件が揃ったら、セットアップに進む。macOSを前提に説明する。

ステップ1: Computer Useを有効にする

Claude Codeを起動して、設定画面を開く。

# Claude Codeを起動
claude

# 設定を開く(セッション内で実行)
/config

設定メニューの中に”Computer Use”というトグルがある。これをEnableにする。プロジェクトごとに設定が保存されるので、一度オンにすれば次回以降も有効のまま残る。

Claude Codeの設定画面でComputer Useトグルをオンにしている画面キャプチャ

ステップ2: macOSの権限を付与する

Computer Useが初めて画面を操作しようとすると、macOSが2つの権限を要求してくる。

アクセシビリティ: Claudeがクリック、タイプ、スクロールするために必要。 スクリーンレコーディング: Claudeが画面を見るために必要。

どちらも「システム設定 → プライバシーとセキュリティ」から付与する。

System Settings → Privacy & Security → Accessibility
→ ターミナルアプリ(Terminal / iTerm2 / Warp 等)をオン

System Settings → Privacy & Security → Screen Recording
→ ターミナルアプリをオン

ここで注意点がある。スクリーンレコーディングの権限を付与した後、ターミナルを再起動する必要がある場合がある。権限を付与したのに「Permission denied」が出たら、ターミナルを閉じて開き直そう。私はここで20分ハマった。

ステップ3: 最初のComputer Use実行

権限を付与したら、セッション内で自然言語で指示を出すだけでいい。

> Safariを開いて、Googleで「Claude Code Computer Use」と検索して

初回は「どのアプリを操作するか」の確認ダイアログが出る。

Claude wants to control: Safari
[Allow for this session] [Deny]

“Allow for this session”を選ぶと、そのセッション中はSafariを操作できる。セッションを閉じれば許可はリセットされる。

知っておくべき安全装置3つ

「AIに画面を渡す」のは怖い、という気持ちはよくわかる。私も最初はびびった。以下の3つの安全装置のおかげで「自分が見ている前で、許可したアプリだけを操作する」という範囲に収まっている。

  1. アプリの隔離: 操作中、許可していないアプリは自動的に非表示になる。意図しないアプリを触られる心配がない
  2. ターミナル除外: あなたのターミナルウィンドウはスクリーンショットから除外される。操作指示の内容やAPIキーが画面に映り込まない
  3. 自動復元: Claudeの操作ターンが終わると、非表示にされたアプリは自動で復元される

Computer Useの3つの安全装置。アプリ隔離・ターミナル除外・自動復元を3カラムで図解

実際に動かしてみた。「コードを書いて、ビルドして、画面で確認する」までが1コマンド

セットアップが終わったので、実際にどう動くかを見せたい。

ケース1: Webアプリの動作確認

React(リアクト)で簡単なカウンターアプリを作って、ブラウザで動作確認するまでをClaude Codeに任せてみた。

> Reactでカウンターアプリを作って、npm startで起動して、
> ブラウザでボタンを3回クリックして動作確認してほしい

Claudeの動きはこうだった。

  1. npx create-react-app counter-app を実行(CLIで完結)
  2. src/App.js にカウンターのコードを書く(CLIで完結)
  3. npm start でdev serverを起動(CLIで完結)
  4. ここからComputer Use: ブラウザが開き、カウンターが表示される
  5. 「+」ボタンをクリック。3回。スクリーンショットで数字が増えたことを確認
  6. 「カウンターが0→3に正しく増加しました」と報告

「コードを書く → ビルドする → 画面で確認する」のサイクルが1つのコマンドで完結した。

これまでは「コードを書いてもらう→自分でブラウザを開く→自分で動作確認する→結果をClaudeに伝える」という往復が必要だった。その往復がゼロになる。

ケース2: デスクトップアプリの操作

もう1つ試したのが、Finder(macOSのファイルマネージャー)の操作だ。

> Finderを開いて、Documentsフォルダに
> "claude-test"という新しいフォルダを作って

Claudeは以下の手順で動いた。

  1. Finderを起動(Computer Use)
  2. サイドバーの”Documents”をクリック(Computer Use)
  3. 右クリック → 新規フォルダ(Computer Use)
  4. フォルダ名を”claude-test”と入力してEnter(Computer Use)
  5. フォルダが作成されたことをスクリーンショットで確認

CLIだけなら mkdir ~/Documents/claude-test で終わる話だ。ただ、この例で重要なのは「GUIの操作手順をAIが理解して実行できる」ことの証明にある。CLI化できないGUIオンリーのアプリでも同じことができるということだ。

Claude CodeがFinderを操作して新規フォルダを作成している一連のスクリーンショット(3枚並び)

/powerupで基礎体力をつける。18レッスンの中身

Computer Useとあわせて知っておきたい機能がある。/powerupコマンドだ。

2026年4月1日、Claude Code v2.1.90で追加されたインタラクティブチュートリアル機能だ(Claude Codeリリースノート参照)。ターミナルの中で、Claude Codeの主要機能をアニメーション付きで学べる。

# /powerupを起動
> /powerup
# 矢印キーでレッスンを選択 → Enterで開始

2026年4月時点で18レッスンが収録されている。

  • コンテキスト管理: CLAUDE.mdの使い方、プロジェクト情報の渡し方
  • Hooks(フックス): ツール実行前後にシェルコマンドを自動実行する仕組み
  • MCP(エムシーピー): 外部ツールとの接続設定
  • サブエージェント: タスクを分割して並列実行する方法
  • /loopコマンド: 定期実行や監視の設定方法

「ドキュメントを読むのが面倒」という人にぴったりだ。ターミナルから離れずに、実際のデモを見ながら機能を覚えられる。Pro/Max/無料プラン問わず全ユーザーが利用できる点もいい。

私は特にHooksのレッスンが役立った。「ファイル保存時に自動でlintを走らせる」設定を、レッスンを見ながら5分で組めた。ドキュメントを読んでいたら30分はかかっていたはずだ。

ハマりポイント全公開。私がつまずいた5つの壁と解決策

ここからが本題かもしれない。セットアップも操作も「手順通りにやれば動く」のだが、手順通りにいかない瞬間が必ずある。私がハマった5つの壁を先に共有しておく。

壁1: スクリーンレコーディング権限が反映されない

症状: 権限をオンにしたのに「Screen recording permission not granted」と出る。

原因: macOSの権限変更は、アプリの再起動が必要な場合がある。

解決策: ターミナルアプリを完全に終了して再起動する。「ウィンドウを閉じる」ではなく、Cmd+Qで終了すること。

壁2: バージョンが古いのに気づかない

症状: 設定画面にComputer Useのトグルが見当たらない。

原因: Claude Codeのバージョンがv2.1.85未満。

解決策:

# 現在のバージョンを確認
claude --version

# npmでアップデート
npm update -g @anthropic-ai/claude-code

# 再度バージョン確認
claude --version

npmのグローバルインストールでパスが通っていない場合、古いバージョンが残っていることがある。which claude でパスを確認しよう。

壁3: 操作対象のアプリが見つからない

症状: 「Open Safari」と指示したのに「Cannot find application」と返ってくる。

原因: アプリ名が正確でない場合がある。macOSでは「Safari」だが、サードパーティアプリはフルネームが必要なこともある。

解決策: /Applications/ フォルダ内のアプリ名を確認して、正確な名前で指示する。

# アプリ一覧を確認
ls /Applications/

壁4: 操作が途中で止まる

症状: Claudeが画面を操作中に、ポップアップや通知が出て操作が中断する。

原因: macOSの通知やシステムダイアログがComputer Useの画面認識を邪魔する。

解決策: 操作前に「おやすみモード(Do Not Disturb)」をオンにする。通知センターから設定できる。私はこれに気づくまで3回操作をやり直した。

壁5: 日本語入力が不安定

症状: 日本語テキストの入力時に、変換候補が邪魔をして正しく入力できない。

原因: IME(日本語入力システム)の変換ウィンドウをComputer Useが正確に認識できない場合がある。

解決策: 日本語入力が必要な場面では、あらかじめ英数入力に切り替えた状態で指示を出す。日本語テキストはクリップボード経由でペーストする方が安定する。

> テキストエディタを開いて、クリップボードから
> 日本語テキストをペーストして

この5つを事前に知っているだけで、体感のストレスはかなり減るはずだ。

まとめ: 「目」を手に入れたCLIエージェントと、次にやること

Computer Useを使って感じたのは、これまでの”バイブコーディング”の延長線上にあるものだということ。

バイブコーディングは「コードを自然言語で指示して書いてもらう」スタイルだった。Computer Useが加わると、指示の範囲が「コードを書く」から「画面を操作する」まで広がる。コードを書いて、ビルドして、動かして、確認する。その全サイクルを自然言語で回せるようになる。

私はこれを勝手に「バイブオペレーティング」と呼んでいる。

かつて自分はコードから離れた。プロのエンジニアに敵わないと思ったからだ。Claude Codeに出会って、凄腕エンジニアが自分に宿ったように感じた。そして今、Computer Useが加わったことで、その凄腕エンジニアが「画面操作もやっておきますね」と言い出した感覚がある。

とはいえ、研究プレビューの段階であることは忘れてはいけない。操作の精度は100%ではないし、複雑なGUI操作ではミスも起きる。日本語環境での不安定さもまだ残っている。

「万能な自動化ツール」ではなく、「CLIの延長線上にある新しい実験」として捉えるのがちょうどいい。完璧を期待せず、「動いたらラッキー」くらいの気持ちで触ってみてほしい。

Pragmatic Engineer(プラグマティックエンジニア)の2026年2月調査では、Claude Codeが開発者の46%に「最も好きなツール」と選ばれている。Computer Useはその評価をさらに押し上げる機能になるだろう。

ポイントを整理する。

  • 何ができるか: CLIからネイティブアプリのGUI操作が可能。スクリーンショット→解析→操作のループで動く
  • 必要なもの: Pro/Maxプラン、macOS、Claude Code v2.1.85以上
  • セットアップ: Computer Useをオン→macOS権限付与→自然言語で指示。15分で完了
  • ハマりポイント: 権限の反映には再起動が必要。通知はオフにする。日本語入力はクリップボード経由が安定
  • 現状の位置づけ: 研究プレビュー。完璧ではないが、CLIの延長として触る価値は十分にある

まだ試していない人は、今日/powerupから始めてみてほしい。18のレッスンでClaude Code全体の機能を把握してから、Computer Useに進むのが最短ルートだ。

「コードを書く」だけだったAIが、「画面を操作する」ところまで来た。次は何ができるようになるのか。私はその変化を最前列で見届けたいし、体験したことは全部ここに書き続ける。

かつてコードから離れた私が、AIと一緒にプロダクトを作れる未来が、また一歩近づいた気がしている。

ゲン
Written byゲンCS × Vibe Coder

正直、一度エンジニアは諦めました。新卒で入った開発会社でバケモノみたいに優秀な人たちに囲まれて、「あ、私はこっち側じゃないな」って悟ったんです。その後はカスタマーサクセスに転向して10年。でもCursorとClaude Codeに出会って、全部変わりました。完璧なコードじゃなくていい。自分の仕事を自分で楽にするコードが書ければ、それでいいんですよ。週末はサウナで整いながら次に作るツールのこと考えてます。