
「AIに面倒なPC作業を任せられたら」と思ったことはないでしょうか。
2026年6月24日(米国時間)、Googleは汎用AIモデル「Gemini 3.5 Flash」にPC・スマホ操作機能「Computer Use(コンピューター使用)」をネイティブ統合したと発表しました。これにより、AIがWebブラウザやデスクトップアプリを「見て・考えて・操作する」エージェント機能が、専用の特殊モデルではなく、通常の汎用モデル1本で利用できるようになりました。
この記事では、Gemini Computer Use の概要、技術的な仕組み、Python APIを使った実装方法、利用料金、セキュリティ上の注意点、そして競合AIとの比較まで、開発者・技術者向けに網羅的に解説します。
この記事でわかること
Gemini Computer Use とは
Gemini Computer Use は、Gemini APIを通じて呼び出すことができる「ツール」のひとつで、AIモデルがスクリーンショットを受け取って画面の状態を把握し、次に実行すべきUI操作(クリック・キーボード入力・スクロールなど)を指示として出力する機能です。
ブラウザ、モバイルアプリ、デスクトップアプリの3種類の環境に対応しており、繰り返し業務の自動化、継続的なソフトウェアテスト、複雑な業務アプリのナビゲーション、長期間にわたるタスク(Long-horizon tasks)といったユースケースが想定されています。
2026年6月25日時点では、パブリックプレビュー段階で提供されており、Gemini API(Google AI Studio)と Gemini Enterprise Agent Platform(旧 Vertex AI)を通じて開発者・企業向けに利用できます。
「汎用モデル1本で使えるようになった」ことの意味
Gemini Computer Use は以前から存在していましたが、2026年6月24日以前は「Gemini 2.5 Computer Use」という別のスタンドアロン専用モデルとして提供されていました。今回の更新によって、Gemini 3.5 Flash という通常の汎用モデルにネイティブに統合されました。
これはどういう意味かというと、これまでは「コンピューター操作をさせたい場合は専用モデルを使う」「通常のテキスト処理は別モデルを使う」という使い分けが必要でしたが、今後は Gemini 3.5 Flash という1つのモデルで、会話・コーディング・画面操作を一括して扱えるようになったということです。
エージェント設計の複雑さが下がり、実装コストも低減されます。
Gemini 3.5 Flash モデルの概要
Computer Use が統合された Gemini 3.5 Flash 自体について整理しておきます。
| 項目 | 内容 |
|---|---|
| 発表日 | 2026年5月19日(Google I/O 2026) |
| 一般提供(GA)開始 | 2026年5月19日(発表と同時) |
| モデルID | gemini-3.5-flash |
| 特徴 | 高速・低コスト・エージェント特化 |
| 位置づけ | 高度なインテリジェンスと卓越したスピードを両立。主要フロンティアモデル比で約4倍の出力速度 |
Gemini 3.5 Flash は、「Gemini 3.1 Pro 相当以上の性能を Flash コストで実現する」というポジションで、エージェント系タスクやコーディングに最適化されています。
Project Mariner から Gemini 3.5 Flash ネイティブ統合までの進化
Gemini Computer Use の現在に至る経緯を時系列で整理します。
| 時期 | できごと |
|---|---|
| 2024年10月 | Google DeepMind が「Project Mariner」を開始。ブラウザエージェントの研究プロトタイプ |
| ~2025年 | 「Gemini 2.5 Computer Use」モデルとしてスタンドアロン展開 |
| 2026年5月4日 | Project Mariner が正式終了。機能をコア製品に統合 |
| 2026年6月24日 | Gemini 3.5 Flash に Computer Use をネイティブ統合として発表 |
研究段階の Project Mariner が製品化され、専用モデルを経て、ついに汎用フラッグシップモデルに統合されるという流れをたどっています。
Computer Use の技術的な仕組み(Agentic Loop)
Gemini Computer Use は、モデル自身がブラウザや OS を直接制御するわけではありません。実際の操作は、クライアント側のコード(Playwright などの自動化ライブラリ)が担います。モデルは「脳」として機能し、次に何をするかを判断して指示を出す役割を持ちます。
処理の流れ(Agentic Loop)は以下のとおりです。
1. クライアント側でスクリーンショットを取得する
2. スクリーンショットと目標指示を Gemini 3.5 Flash API に送信する
3. モデルが画面を「見て」次の UI 操作を生成する
(クリック・タイプ・スクロールなど。intent フィールドで各ステップの意図も説明される)
4. クライアント側でその操作を実行する(Playwright などを使用)
5. 新しいスクリーンショットを取得し、手順 2 に戻る
6. タスクが完了するまで繰り返す
Playwright のような操作実行環境をクライアント側で用意し、Gemini API との間で「スクリーンショット → 操作指示 → 実行 → スクリーンショット」のループを回す実装になります。
対応している環境
Computer Use が対応している操作環境は3種類です。
得意なユースケース
実装方法:PythonでGemini Computer Useを使う
ここでは、Gemini API を使って Computer Use を動かす基本的な実装方法を紹介します。
必要なSDKバージョン
google-genai SDK の v2.7.0 以上が必要です。
インストール
ターミナルで以下のコマンドを実行します。
pip install google-genai playwright
playwright install chromium
google-genai が Gemini API の公式 Python SDK、playwright がブラウザ操作の実行ライブラリです。
Gemini API キーの取得
Google AI Studio(https://aistudio.google.com/)にアクセスし、APIキーを取得してください。環境変数 GOOGLE_API_KEY に設定するか、コード内で直接渡します。
Pythonコード例(基本形)
以下は、Interactions API を使って Computer Use ツールを有効化し、ブラウザ操作を指示する最小構成のコード例です。
from google import genai
# 1. クライアントの初期化
client = genai.Client()
# 2. Interactions API で Computer Use ツールを有効化
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Googleで「Gemini API」を検索してください。",
tools=[{"type": "computer_use", "environment": "browser"}]
)
print(interaction)
実際の Agentic Loop(スクリーンショット取得 → 操作実行 → 次のスクリーンショット)を組み込む場合は、Playwright との連携コードが追加で必要になります。より詳細な実装サンプルは、公式ドキュメント(https://ai.google.dev/gemini-api/docs/computer-use)に掲載されています。
推奨インターフェース
マルチステップのエージェントワークフローには、GA標準APIとして提供されている「Interactions API」の使用が推奨されています。
料金体系
Gemini 3.5 Flash の API 料金は以下のとおりです(2026年6月25日時点、100万トークンあたり)。
| 項目 | 料金 |
|---|---|
| 入力トークン | $1.50 / 100万トークン |
| 出力トークン | $9.00 / 100万トークン |
| Computer Use 追加料金 | 現時点では基本モデル料金に内包(単体の追加課金なし) |
| 無料枠 | あり(Gemini API Free Tier、レート制限付き) |
Computer Use 機能そのものに対する追加課金は現時点では設定されておらず、Gemini 3.5 Flash の通常のトークン料金で利用できます。パブリックプレビュー期間中の料金ポリシーは変更される可能性があるため、利用前に公式料金ページ(https://ai.google.dev/pricing)で最新情報を確認することをおすすめします。
利用可能なプラットフォームは以下の2つです。
- Gemini API(Google AI Studio)
- Gemini Enterprise Agent Platform(旧 Vertex AI)
セキュリティリスクと安全機能
Computer Use はAIがUIを自動操作する性質上、セキュリティリスクへの考慮が重要です。Googleは複数の安全機能を提供しています。
主なリスク
- プロンプトインジェクション:操作対象のWebページに悪意あるテキストが含まれており、AIが意図しない操作をしてしまう攻撃
- 不可逆な操作:ファイル削除、フォーム送信、支払いなど、取り消せない操作をAIが誤って実行するリスク
Google が提供する安全機能
| 機能 | 説明 |
|---|---|
| User Confirmation(ユーザー確認) | センシティブ・不可逆な操作の前に、人間の承認を要求するオプション |
| Injection Detection(インジェクション検知) | プロンプトインジェクションを検知した場合に、タスクを自動停止するオプション |
| Adversarial Training(敵対的トレーニング) | 悪意ある指示への耐性をモデルに組み込む標準安全機能 |
安全に使うための推奨事項
競合AIとの比較(Claude・OpenAI CUA)
Computer Use カテゴリの主要な競合として、Anthropic の Claude と OpenAI の CUA(Operator)があります。
| 項目 | Gemini 3.5 Flash | Anthropic Claude | OpenAI CUA(Operator) |
|---|---|---|---|
| 主な強み | ブラウザ・Web自動化 | ポータビリティ(VM・コンテナ) | デスクトップネイティブ |
| 設計思想 | プラットフォーム深度+データアクセス | 安全性ファースト設計 | 垂直統合型エージェント |
| 対応環境 | ブラウザ・モバイル・デスクトップ | クロスプラットフォーム | デスクトップ・Web |
| 統合形態 | メインモデルにネイティブ統合 | 独立ツールとして提供 | 管理インターフェース経由 |
| コスト効率 | 高い(Flashモデルで高速・安価) | 中程度 | 中程度 |
どれを選べばいいか
- Webブラウザを中心としたエージェント処理が主なら → Gemini 3.5 Flash
- Docker・VM などの制限・隔離環境で実行したいなら → Claude
- デスクトップアプリを重視した複雑なタスクなら → OpenAI CUA
Gemini 3.5 Flash は「汎用モデルの高い性能」と「エージェント機能の統合」「低コスト」が揃っている点で、Webエージェントのユースケースにおいては有力な選択肢です。
日本語環境・日本からの利用
| 項目 | 内容 |
|---|---|
| 日本からの利用 | 可能(Gemini API・Gemini Enterprise Agent Platform 経由) |
| 日本語アプリの操作 | 対応(多言語環境での画面認識に対応) |
| 対象者 | 主に開発者・企業(一般ユーザー向けGeminiアプリの機能とは別) |
| 日本向け展開スケジュール | 特別なスケジュールなし(グローバル同時提供) |
日本語のWebページやアプリを操作させることも可能ですが、日本語特有のUIや文字コードの扱いについては実際に検証しながら調整が必要な場合があります。
なお、Gemini Consumer アプリ(一般ユーザー向けの Gemini チャット)の機能とは異なり、Computer Use は Gemini API を通じて開発者・企業が自分でシステムを構築する形で提供されています。
よくある質問
Computer Use は無料で使えますか?
Gemini API の無料枠(Free Tier)では、レート制限付きで利用できます。大量のリクエストや本番利用では有料の従量課金(Pay-as-you-go)プランが必要になります。
実際のブラウザ操作はモデルが直接やるのですか?
いいえ、モデル自身がブラウザを直接制御するわけではありません。Playwright などのライブラリを使ったクライアント側のコードが実際の操作を実行します。モデルは「何をするか」という指示を生成する役割を担います。
パブリックプレビュー中は本番環境で使えますか?
パブリックプレビュー段階であるため、本番環境での重要な処理への利用は推奨されていません。テストや検証目的での利用、または人間による確認を介在させた業務への利用から始めることをおすすめします。
Google AI Studio から試せますか?
Google AI Studio(https://aistudio.google.com/)を通じて Gemini API にアクセスできます。ただし、Computer Use のような Agentic Loop を試すには、ローカル環境での Python コードと Playwright の実行環境が必要になります。
セキュリティ的に安全ですか?
Google は Adversarial Training、User Confirmation、Injection Detection といった安全機能を提供しています。ただし、すべてのリスクを完全に排除できるわけではないため、サンドボックス環境での実行や、センシティブ操作への確認フローの組み込みが推奨されます。
まとめ
Gemini 3.5 Flash の Computer Use 機能は、AIが画面を「見て・操作する」という能力を、汎用モデル1本でAPIから呼び出せるようにした点が大きな進歩です。
Webエージェント・業務自動化を検討している開発者には、今後注目すべき機能のひとつです。最新の実装例や仕様については公式ドキュメント(https://ai.google.dev/gemini-api/docs/computer-use)を随時確認することをおすすめします。
