AnthropicのVercept買収が示す「Computer Use」の到達点

Anthropicが2026年2月、シアトル拠点のAIエージェントスタートアップVerceptを買収しました。Verceptはクラウド上のMacBookを遠隔操作する「Vy」を開発していた企業であり、その技術資産とチームはAnthropicに統合されます。

本件は単なる「有望なスタートアップの買収」ではありません。2025年12月のBun（高速JavaScriptランタイムおよび開発ツール）の買収と合わせて俯瞰すると、Anthropicが目指す「Computer Use（AIによるコンピュータ操作）」の技術的パズルが完成に近づいたことを意味します。一方で、共同創業者のMatt Deitke氏がMetaへ巨額の条件で引き抜かれるなど、人材獲得競争の激化も浮き彫りとなりました。

本稿では、技術責任者（CTO）や事業開発責任者を対象に、この買収が「AIエージェントの実用化」においてどのような技術的絶対条件（Prerequisites）をクリアしたのか、そして次に浮上するボトルネックは何かを深掘りします。

1. インパクト要約：APIからGUIへ、操作の「解像度」が変化した

これまでのAIエージェント開発において、モデルが外部世界へ干渉する手段は限定的でした。

Before（従来の限界）:
- 主にAPI（Tool Use）経由での操作に依存。APIが提供されていないSaaSやレガシーシステムは操作不能、もしくは座標指定型の脆弱なRPAスクリプトに頼らざるを得なかった。
- 「目（Vision）」と「手（Action）」のレイテンシが大きく、リアルタイムなOS操作は実験レベルに留まっていた。
After（Vercept買収による変化）:
- 「OSそのもの」がAPI化された状態と同義になる。 Verceptの「Vy」が実現していたクラウドベースの仮想デスクトップ環境と、Anthropicのモデルが統合されることで、人間が見ている画面（GUI）をそのまま認識し、マウスとキーボードを直接操作する能力が「インフラレベル」で提供される。
- これにより、専用APIを持たないアプリケーションや、複雑な開発環境（IDE）の操作が可能となり、AIの守備範囲が「テキスト生成」から「ワークフロー完遂」へと物理的に拡張された。

これまでは「テキストをチャットで返す」ことがゴールでしたが、これからは「クラウド上の仮想マシンでタスクを完了させる」ことが標準となります。

2. 技術的特異点：なぜ「Vercept」と「Bun」なのか

Anthropicの戦略は、AIモデル（脳）だけでなく、AIが活動するための身体（実行環境）を垂直統合することにあります。なぜVerceptの技術が重要だったのか、エンジニア視点で解説します。

2.1 クラウドネイティブな「身体」の獲得

Verceptのコア技術である「Vy」は、単なる自動操作ツールではなく、クラウド上でホストされたMacBookインスタンスを低遅延で操作する基盤でした。

既存のComputer Use（Claude 3.5 Sonnet発表時など）における最大の課題は、「実行環境のサンドボックス化」と「状態管理」でした。ユーザーのローカルマシンを直接触らせるのはセキュリティリスクが高すぎます。Verceptの技術は、「使い捨て可能な、しかし永続性も持てる安全な操作環境（Sandbox OS）」 を提供します。これにより、AIがシステムを破壊するリスクを隔離しつつ、複雑な操作を試行錯誤（ReAct）できる土壌が整いました。

2.2 Bunとの統合による「高速な自律ループ」

2025年12月に買収されたBun（JavaScriptランタイム）と今回のVercept買収はセットで考えるべきです。

Bun: 高速なコード実行、パッケージ管理、テストランナー。
Vercept: 高速なGUI操作、OS環境管理。

これらが統合されることで、例えば「Claude Code」のような開発エージェントは、以下のループを超高速に回すことが可能になります。

GUIで仕様書やFigmaを確認（Vercept技術）
コードを生成し、ローカル（仮想環境）で修正
Bunを使ってテストを瞬時に実行
エラーがあればGUIでブラウザを立ち上げデバッグ

これまでは「推論」と「実行」の間にネットワークやプロセスのオーバーヘッドがありましたが、これらが同一インフラ内で完結することで、実用的な速度（人間並み、あるいはそれ以上）でのタスク処理が可能になります。

技術スタックの比較

項目	従来のAIエージェント構成	Anthropic (Bun + Vercept) 統合後
操作対象	API中心（GUIは補助的・低速）	OS全体（GUI + Terminal + Filesystem）
実行環境	ユーザーのローカルまたは低速なDocker	最適化されたクラウド仮想OSインスタンス
フィードバック	テキスト/JSONのみ	スクリーンショット、DOM、コンソール出力の複合
レイテンシ	数秒〜数十秒/ステップ	数百ミリ秒/ステップ（目指す水準）

3. 次なる課題：解決された「操作」と、新たに生まれる「コスト」

「技術的に操作できる」ことと「ビジネスとして成立する」ことの間には、まだ乖離があります。Vercept買収により「操作の基盤」は整いましたが、次に以下の課題が浮上します。

3.1 推論コストとトークン効率の壁

OSを操作するためには、画面のスクリーンショットを連続的にモデルに入力する必要があります（Vision-Language Modelとしての利用）。
1時間の作業をAIに代行させる場合、数千回の画面キャプチャと推論が発生します。これに伴うトークン消費量は膨大であり、現状のコスト構造では「人間の時給より高い」可能性があります。
GUIのピクセル情報だけでなく、アクセシビリティツリー（UI構造データ）を効率的に圧縮してモデルに伝える技術（Verceptが得意としていた領域）の更なる最適化が不可欠です。

3.2 人材流出と開発力の維持

本買収の裏で、Vercept共同創業者Matt Deitke氏がMetaのSuperintelligence Labへ移籍しました。報道によれば報酬条件は2億5,000万ドル（約370億円相当）とも言われます。
これは、AIエージェント開発において「トップレベルの研究者」が極めて希少であることを示唆しています。Anthropicは技術資産（IP）と残りのチームを獲得しましたが、コアとなるビジョナリーを欠いた状態で、MetaやOpenAIの開発スピードに対抗できるかが問われます。

3.3 エージェントの「責任境界線」

AIがOSを直接操作できるようになった今、誤操作（ファイルの誤削除、誤送信）のリスクは飛躍的に高まります。
「Sandbox内で安全に実行」できたとしても、最終的に本番環境へ反映する際の承認プロセス（Human-in-the-loop）をどう設計するか。技術的なガードレールだけでなく、UXとしてのガードレールの標準化が急務です。

4. 今後の注目ポイント：事業責任者が追うべきKPI

今後12ヶ月以内に、AnthropicのComputer Use機能が実用段階にあるかを判断するための具体的な指標を挙げます。

① Action Success Rate (ASR) の向上

ベンチマーク（OSWorld等）でのスコアではなく、実環境でのタスク完遂率に注目してください。
– 現在: 単純なタスクで60〜70%程度。エラー復帰に弱い。
– 実用ライン: 複雑なマルチステップタスク（例：特定のSaaSからデータをDLしてExcelで加工しメール送信）において、95%以上の成功率、かつエラーからの自律復帰（Self-Correction）機能が実装されているか。

② 「ハイブリッド操作」の実装

GUI操作（Vercept技術）とコード実行（Bun技術）をどの程度シームレスに切り替えられるか。
– 全てをGUIでやるのは非効率です。可能な限り裏側のコマンドやAPIで処理し、必要な部分だけGUIを叩くといった「人間のような柔軟な判断」ができるモデル（Router機能）がリリースされるかが鍵となります。

③ インターフェースの消失

「チャット欄」に入力するのではなく、デスクトップアプリとして常駐し、ユーザーの操作をバックグラウンドで学習・代行する形態へ移行するか。Claudeのデスクトップアプリの大型アップデート（Vercept機能の統合）がその試金石となります。

5. 結論

AnthropicによるVerceptの買収は、LLMの主戦場が「チャットボット」から「OS操作エージェント」へ完全に移行したことを決定づける出来事です。BunとVerceptという「手」と「環境」を手に入れたAnthropicは、モデル単体の性能競争から、「仕事を実行するプラットフォーム」としての垂直統合競争へとフェーズを移しました。

企業の技術責任者は、既存のRPAや自動化スクリプトへの投資を見直す時期に来ています。画面座標や静的なセレクタに依存した自動化は、今後2年以内に、画面を見て判断する「Visionベースのエージェント」によって陳腐化する可能性が高いでしょう。

今すぐ行うべきは、自社の業務フローにおいて「人間が画面を見て判断しているプロセス」を棚卸しし、それをAIエージェントに委譲するためのセキュリティポリシーとデータ整備（操作ログの蓄積など）を進めることです。OSを操作するAIは、もはやSFではなく、実装段階に入った技術です。