Claude Codeに「目」が付いた。Computer Useで画面操作を丸ごと任せるまでの全手順

Claude Code（クロードコード）を毎日使っている。コードを書いてもらい、ファイルを編集してもらい、テストを回してもらう。ターミナルの中で完結する作業なら、もう自分より速い。

ただ、ずっと引っかかっていたことがある。「GUIでしか動かないアプリ」の前で、Claudeは手も足も出なかった。ブラウザを開いてボタンを押す、デスクトップアプリのメニューを操作する、シミュレーターで動作確認する。ここだけは自分の手でやるしかなかった。

2026年3月23日、Anthropic（アンソロピック）がClaude Codeに”Computer Use”機能を追加した。研究プレビューという位置づけだが、Pro/Maxプランなら今日から試せる。

「CLIからネイティブアプリを操作できる」と聞いたとき、正直半信半疑だった。実際にセットアップして動かしたら、想像以上だった。この記事では、私がゼロから設定して動かすまでの全手順と、ハマったポイントをすべて公開する。

3時間溶かしたので、あなたは15分で通過してほしい。

この記事の流れは「①仕組み理解 → ②準備とセットアップ → ③実演 → ④ハマりポイント」の順だ。どこから読んでも使えるが、初回は順番通りに読むとスムーズに動かせる。

AIに「目」が付くとはどういうことか。仕組みを先に理解する

「AIが画面を操作する」と聞くと、魔法みたいに思えるかもしれない。仕組みはシンプルだ。

Computer Useの動作は、3ステップのループで回っている。

スクリーンショットを撮る ── Claudeが画面のキャプチャを取得する
画像を解析する ── UIの要素をピクセルレベルで認識し、次のアクションを判断する
操作を実行する ── クリック、タイプ、スクロールなどを実行する

これを「結果が目的に達するまで」繰り返す。人間がマウスとキーボードでやっていることを、スクリーンショットベースで再現している。

Computer Useの動作ループ図。スクリーンショット取得→画像解析→操作実行→再スクリーンショットの循環フロー

大事なのは「画面の見た目」を理解して動いている点だ。APIやCLIが存在しないGUIオンリーのアプリでも、ボタンの位置とテキストを画像から読み取って操作できる。

具体的にできることを挙げてみる。

ネイティブアプリの起動と操作: Xcodeを開いてビルドし、シミュレーターで動作確認まで自動実行
ブラウザ操作: Webアプリのフォーム入力やボタンクリック
ファイルのドラッグ&ドロップ: Q1アップデートで対応済み
マルチモニター認識: 複数画面をまたいだ操作にも対応
クリップボード操作: コピー&ペーストの自動化

「GUIでしかできなかった作業」の壁が、CLIから突破できるようになった。この仕組みを頭に入れてから、準備に進もう。

始める前の準備。条件確認からセットアップまで

条件を3つ確認する

Computer Useを試すには、3つの条件がある。1つでも欠けると起動しない。

条件1: Pro/Maxプラン

無料プランやTeamプランでは使えない。Proプラン（月額$20）またはMaxプラン（月額$100）が必要だ。すでにProで使っている人なら、追加費用はゼロになる。

条件2: macOS（2026年4月時点）

現時点で対応しているのはmacOSのみだ。WindowsとLinuxは未対応で、Windows版は今後対応予定と公式ドキュメントに記載がある。macOSの場合、アクセシビリティとスクリーンレコーディングの権限が必要になる。

条件3: Claude Code v2.1.85以上

バージョンが古いと機能が表示されない。ターミナルで確認しよう。

# バージョン確認
claude --version
# 出力例: claude-code v2.1.92

v2.1.85未満の場合はアップデートする。

# npmでアップデート
npm update -g @anthropic-ai/claude-code

セットアップ全手順。起動から「AIが画面を掴む」まで15分

3つの条件が揃ったら、セットアップに進む。macOSを前提に説明する。

ステップ1: Computer Useを有効にする

Claude Codeを起動して、設定画面を開く。

# Claude Codeを起動
claude

# 設定を開く（セッション内で実行）
/config

設定メニューの中に”Computer Use”というトグルがある。これをEnableにする。プロジェクトごとに設定が保存されるので、一度オンにすれば次回以降も有効のまま残る。

Claude Codeの設定画面でComputer Useトグルをオンにしている画面キャプチャ

ステップ2: macOSの権限を付与する

Computer Useが初めて画面を操作しようとすると、macOSが2つの権限を要求してくる。

アクセシビリティ: Claudeがクリック、タイプ、スクロールするために必要。 スクリーンレコーディング: Claudeが画面を見るために必要。

どちらも「システム設定 → プライバシーとセキュリティ」から付与する。

System Settings → Privacy & Security → Accessibility
→ ターミナルアプリ（Terminal / iTerm2 / Warp 等）をオン

System Settings → Privacy & Security → Screen Recording
→ ターミナルアプリをオン

ここで注意点がある。スクリーンレコーディングの権限を付与した後、ターミナルを再起動する必要がある場合がある。権限を付与したのに「Permission denied」が出たら、ターミナルを閉じて開き直そう。私はここで20分ハマった。

ステップ3: 最初のComputer Use実行

権限を付与したら、セッション内で自然言語で指示を出すだけでいい。

> Safariを開いて、Googleで「Claude Code Computer Use」と検索して

初回は「どのアプリを操作するか」の確認ダイアログが出る。

Claude wants to control: Safari
[Allow for this session] [Deny]

“Allow for this session”を選ぶと、そのセッション中はSafariを操作できる。セッションを閉じれば許可はリセットされる。

知っておくべき安全装置3つ

「AIに画面を渡す」のは怖い、という気持ちはよくわかる。私も最初はびびった。以下の3つの安全装置のおかげで「自分が見ている前で、許可したアプリだけを操作する」という範囲に収まっている。

アプリの隔離: 操作中、許可していないアプリは自動的に非表示になる。意図しないアプリを触られる心配がない
ターミナル除外: あなたのターミナルウィンドウはスクリーンショットから除外される。操作指示の内容やAPIキーが画面に映り込まない
自動復元: Claudeの操作ターンが終わると、非表示にされたアプリは自動で復元される

Computer Useの3つの安全装置。アプリ隔離・ターミナル除外・自動復元を3カラムで図解

実際に動かしてみた。「コードを書いて、ビルドして、画面で確認する」までが1コマンド

セットアップが終わったので、実際にどう動くかを見せたい。

ケース1: Webアプリの動作確認

React（リアクト）で簡単なカウンターアプリを作って、ブラウザで動作確認するまでをClaude Codeに任せてみた。

> Reactでカウンターアプリを作って、npm startで起動して、
> ブラウザでボタンを3回クリックして動作確認してほしい

Claudeの動きはこうだった。

npx create-react-app counter-app を実行（CLIで完結）
src/App.js にカウンターのコードを書く（CLIで完結）
npm start でdev serverを起動（CLIで完結）
ここからComputer Use: ブラウザが開き、カウンターが表示される
「+」ボタンをクリック。3回。スクリーンショットで数字が増えたことを確認
「カウンターが0→3に正しく増加しました」と報告

「コードを書く → ビルドする → 画面で確認する」のサイクルが1つのコマンドで完結した。

これまでは「コードを書いてもらう→自分でブラウザを開く→自分で動作確認する→結果をClaudeに伝える」という往復が必要だった。その往復がゼロになる。

ケース2: デスクトップアプリの操作

もう1つ試したのが、Finder（macOSのファイルマネージャー）の操作だ。

> Finderを開いて、Documentsフォルダに
> "claude-test"という新しいフォルダを作って

Claudeは以下の手順で動いた。

Finderを起動（Computer Use）
サイドバーの”Documents”をクリック（Computer Use）
右クリック → 新規フォルダ（Computer Use）
フォルダ名を”claude-test”と入力してEnter（Computer Use）
フォルダが作成されたことをスクリーンショットで確認

CLIだけなら mkdir ~/Documents/claude-test で終わる話だ。ただ、この例で重要なのは「GUIの操作手順をAIが理解して実行できる」ことの証明にある。CLI化できないGUIオンリーのアプリでも同じことができるということだ。

Claude CodeがFinderを操作して新規フォルダを作成している一連のスクリーンショット（3枚並び）

/powerupで基礎体力をつける。18レッスンの中身

Computer Useとあわせて知っておきたい機能がある。/powerupコマンドだ。

2026年4月1日、Claude Code v2.1.90で追加されたインタラクティブチュートリアル機能だ（Claude Codeリリースノート参照）。ターミナルの中で、Claude Codeの主要機能をアニメーション付きで学べる。

# /powerupを起動
> /powerup
# 矢印キーでレッスンを選択 → Enterで開始

2026年4月時点で18レッスンが収録されている。

コンテキスト管理: CLAUDE.mdの使い方、プロジェクト情報の渡し方
Hooks（フックス）: ツール実行前後にシェルコマンドを自動実行する仕組み
MCP（エムシーピー）: 外部ツールとの接続設定
サブエージェント: タスクを分割して並列実行する方法
/loopコマンド: 定期実行や監視の設定方法

「ドキュメントを読むのが面倒」という人にぴったりだ。ターミナルから離れずに、実際のデモを見ながら機能を覚えられる。Pro/Max/無料プラン問わず全ユーザーが利用できる点もいい。

私は特にHooksのレッスンが役立った。「ファイル保存時に自動でlintを走らせる」設定を、レッスンを見ながら5分で組めた。ドキュメントを読んでいたら30分はかかっていたはずだ。

ハマりポイント全公開。私がつまずいた5つの壁と解決策

ここからが本題かもしれない。セットアップも操作も「手順通りにやれば動く」のだが、手順通りにいかない瞬間が必ずある。私がハマった5つの壁を先に共有しておく。

壁1: スクリーンレコーディング権限が反映されない

症状: 権限をオンにしたのに「Screen recording permission not granted」と出る。

原因: macOSの権限変更は、アプリの再起動が必要な場合がある。

解決策: ターミナルアプリを完全に終了して再起動する。「ウィンドウを閉じる」ではなく、Cmd+Qで終了すること。

壁2: バージョンが古いのに気づかない

症状: 設定画面にComputer Useのトグルが見当たらない。

原因: Claude Codeのバージョンがv2.1.85未満。

解決策:

# 現在のバージョンを確認
claude --version

# npmでアップデート
npm update -g @anthropic-ai/claude-code

# 再度バージョン確認
claude --version

npmのグローバルインストールでパスが通っていない場合、古いバージョンが残っていることがある。which claude でパスを確認しよう。

壁3: 操作対象のアプリが見つからない

症状: 「Open Safari」と指示したのに「Cannot find application」と返ってくる。

原因: アプリ名が正確でない場合がある。macOSでは「Safari」だが、サードパーティアプリはフルネームが必要なこともある。

解決策: /Applications/ フォルダ内のアプリ名を確認して、正確な名前で指示する。

# アプリ一覧を確認
ls /Applications/

壁4: 操作が途中で止まる

症状: Claudeが画面を操作中に、ポップアップや通知が出て操作が中断する。

原因: macOSの通知やシステムダイアログがComputer Useの画面認識を邪魔する。

解決策: 操作前に「おやすみモード（Do Not Disturb）」をオンにする。通知センターから設定できる。私はこれに気づくまで3回操作をやり直した。

壁5: 日本語入力が不安定

症状: 日本語テキストの入力時に、変換候補が邪魔をして正しく入力できない。

原因: IME（日本語入力システム）の変換ウィンドウをComputer Useが正確に認識できない場合がある。

解決策: 日本語入力が必要な場面では、あらかじめ英数入力に切り替えた状態で指示を出す。日本語テキストはクリップボード経由でペーストする方が安定する。

> テキストエディタを開いて、クリップボードから
> 日本語テキストをペーストして

この5つを事前に知っているだけで、体感のストレスはかなり減るはずだ。

まとめ: 「目」を手に入れたCLIエージェントと、次にやること

Computer Useを使って感じたのは、これまでの”バイブコーディング”の延長線上にあるものだということ。

バイブコーディングは「コードを自然言語で指示して書いてもらう」スタイルだった。Computer Useが加わると、指示の範囲が「コードを書く」から「画面を操作する」まで広がる。コードを書いて、ビルドして、動かして、確認する。その全サイクルを自然言語で回せるようになる。

私はこれを勝手に「バイブオペレーティング」と呼んでいる。

かつて自分はコードから離れた。プロのエンジニアに敵わないと思ったからだ。Claude Codeに出会って、凄腕エンジニアが自分に宿ったように感じた。そして今、Computer Useが加わったことで、その凄腕エンジニアが「画面操作もやっておきますね」と言い出した感覚がある。

とはいえ、研究プレビューの段階であることは忘れてはいけない。操作の精度は100%ではないし、複雑なGUI操作ではミスも起きる。日本語環境での不安定さもまだ残っている。

「万能な自動化ツール」ではなく、「CLIの延長線上にある新しい実験」として捉えるのがちょうどいい。完璧を期待せず、「動いたらラッキー」くらいの気持ちで触ってみてほしい。

Pragmatic Engineer（プラグマティックエンジニア）の2026年2月調査では、Claude Codeが開発者の46%に「最も好きなツール」と選ばれている。Computer Useはその評価をさらに押し上げる機能になるだろう。

ポイントを整理する。

何ができるか: CLIからネイティブアプリのGUI操作が可能。スクリーンショット→解析→操作のループで動く
必要なもの: Pro/Maxプラン、macOS、Claude Code v2.1.85以上
セットアップ: Computer Useをオン→macOS権限付与→自然言語で指示。15分で完了
ハマりポイント: 権限の反映には再起動が必要。通知はオフにする。日本語入力はクリップボード経由が安定
現状の位置づけ: 研究プレビュー。完璧ではないが、CLIの延長として触る価値は十分にある

まだ試していない人は、今日/powerupから始めてみてほしい。18のレッスンでClaude Code全体の機能を把握してから、Computer Useに進むのが最短ルートだ。

「コードを書く」だけだったAIが、「画面を操作する」ところまで来た。次は何ができるようになるのか。私はその変化を最前列で見届けたいし、体験したことは全部ここに書き続ける。

かつてコードから離れた私が、AIと一緒にプロダクトを作れる未来が、また一歩近づいた気がしている。