AIブログ

1. GUIエージェントと実務ベンチマークの重要性
2. 検証タスクと評価方法
3. 検証結果
4. 今後PC操作エージェントを活用するため何をすべきか
5. 日本企業の現在地と今すぐ取り組むべき事

概要

GUIエージェントの実務性能を日本語タスク中心のベンチで比較
2025年12月時点の最新モデルは複雑な業務でも高い完走率を示した
GUIエージェントによりAIエージェント導入の障壁であった「システム改修コスト」が低減、「運用設計（権限・ログ・例外処理）」が重要になる

1. GUIエージェントと実務ベンチマークの重要性

最近発表されたChatGPT Agentのように、生成AIを活用したAIエージェントの一種として、GUIエージェント（コンピュータ操作エージェント）への注目が高まっている。GUIエージェントは、自然言語で与えた指示に従いPCを操作して業務を遂行する。例えば表計算ソフトやブラウザ、メール、各種業務システムを横断しながら一連の処理を実行できる。RPAと異なり人間の指示に柔軟に対応可能な点も特徴的である。

GUIエージェントを活用することで、システム的な対応をせずに複雑な業務を自動化する事が可能になる。

前回記事（AIブログ第8回）で述べた通り、「デモで動く」ことと「実務で使える」ことの間には距離がある。GUIエージェントが実務を行う場合、例外や繰り返しを伴う長い手順を正確に処理する必要がある。だからこそ、ビジネス利用を想定した日本語の指示を日本語のUIを用いながら処理することを前提としたベンチマーク（評価データ）が不可欠となる。
本稿では、MRIとTDSE協働で実施した検証のうち、実務タスク11本の結果を整理し、（1）ChatGPT Agentがどこまで来ているか、（2）OSS系エージェントの現在地、（3）今後PC操作エージェントを活用するため何をすべきか、をまとめる。

2. 検証タスクと評価方法

今回の検証では、実際のビジネス利用を想定したベンチマークとして、以下の通り難易度の異なる2カテゴリのタスクを作成した。

表1　検証タスク一覧（全11タスク）

タスク	難易度	目安ステップ数 ※Nは反復回数、検証時は3程度で設定	主な検証ポイント（難しい箇所）
情報収集システム：ログイン	低	2	認証後の画面遷移
情報収集システム：検索	低	4	条件入力→検索→結果確認と複数段階のフロー
情報収集システム：ファイル出力	低	5	条件設定→出力→ダウンロードとファイル処理を伴うフロー
情報収集システム：レポート作成	低	4	タイトルなど設定する内容を生成する判断が必要
情報収集システム：パスワード変更	低	2	説明書きの無いアイコンをクリックしての画面遷移
経費精算：交通費レポート作成・提出	高	31	長い手順・多画面遷移・入力の正確性
経費精算：エラー検出	高	6 + 7×N	反復処理・エラーメッセージの検知
経費精算：誤り警告	高	6 + 7×N	反復処理・警告検知と停止判断
経費精算：Excel転記・スクリーンショット	高	(6+7×N)+(6+7×N)	ファイルI/O・転記・証跡取得
経費精算：個人立替レポート作成・提出	高	6 + 8×N	別フォームの利用・反復処理・確認画面を経ての提出
経費精算：必須フィールド不足の検出	高	6 + 6×N	入力検証・例外検知

評価対象（比較したエージェント）はChatGPT Agent（2025年12月時点、ChatGPT Proで検証）、OSS系GUIエージェントとしてAgent S3を用いた。公平のためAgent S3は実行可能な最大ステップ数を増やしている。

採点方法は次の通りである。

タスクを完遂し、事前に設定した評価観点を満たす場合：100点
- 評価観点は入力の正確性、エラー検出、停止判断など、表１の「主な検証ポイント」に沿って1タスクあたり3～5個を設定。それぞれについて、達成できたか否かで評価を行い、達成率を得点としている。
完遂できない場合：①タスク完了率（実行ステップ数÷全ステップ数）と②評価観点の充足率（満たした項目数÷全項目数）の平均をスコアとする

難易度:高となっているタスクは実務に近く、90点以上を取れれば業務適用が検証可能な水準になるよう設計している。

3. 検証結果

総合評価では、ChatGPT Agentが96点（11タスク中10タスク完答）となった。OSS系のAgent S3は46点（11タスク中3タスク完答）であり、長い手順のタスクで差が顕在化した。

難易度：低のタスクに限定すると、ChatGPT Agentは96点（5タスク中4タスク完答）、Agent S3は83点（5タスク中3タスク完答）であり、OSS側も一定の性能を示した。

2025年7月時点の社内検証では「難易度：低」に近いタスクに対しChatGPT Operatorが70点程度（4タスク中1タスク完答）のスコアであり、OSS系のエージェントはほぼ回答ができない状況であった。タスクの違いやバージョンの差などがあり厳密な比較はできないがGUIエージェントの能力が急速に向上している事が分かる。

表2　総合スコアと完答数

対象	総合スコア	完答数	補足
ChatGPT Agent（2025年12月）	96	10/11	難易度:低は4/5完答
Agent S3（OSS、2025年12月）	46	3/11	難易度:低は3/5完答
参考：ChatGPT Operator（2025年7月）	70程度	1/4	今回とタスクは異なる
参考：OSS系エージェント（2025年7月）	ほぼ実行できず		今回のOSS系エージェントとは異なる

2025年7月時点では、日付範囲の設定ミス、入力漏れ、ダウンロード後にファイルを読めないなど、長い処理の途中で問題が起きる失敗が目立った。今回は長い手順のタスクを最後まで実行しきれるようになり総合で11タスク中10タスクの完答に到達した。「計画→実行→確認→修正」というフローが安定し、長いワークフローでも破綻しにくくなったことが分かる。これはOpenAIが公表しているモデル改善結果と同じ内容であり、日本語のユースケースにおいても効果があったことが伺える。OSS系エージェントも同様の改善を進めると予想され、商用ソフトウェア・OSSのエージェントとも急速に実用化が近づいている。

4. 今後PC操作エージェントを活用するため何をすべきか

4.1 OSSのエージェントが苦手な処理と対策
Agent S3は総合的にスコアが低く完答数も少なかったが、短い手順のタスクでは一定の性能を示した。実行結果を分析するとAgent S3は「交」と入力すると「交通費」が出てくるような、補間内容（サジェスト）が表示されるテキストボックスなど特定のUIを苦手としていたことが分かる。この問題に対してはUIの動作を説明する追加指示を入れることで対応可能であり、プロンプトをチューニングすることで一定の効果が見込まれる。閉域・ローカル実行のニーズが強いビジネス環境では、OSSのエージェントを工夫しながら適切に使うことで適用領域が広がることが予想される。
4.2 実務導入では運用設計がボトルネックになる
GUIエージェントの性能が上がり実務適用を目指す状況になると運用上の検討が必要となる。下記のように人間のユーザを前提とする運用設計と似た検討項目が多いものの、「停止設計」や「エージェント実行環境」などAI特有の検討が必要な項目もある。実務導入にあたっては業務とGUIエージェントの両方の知見に基づいた運用設計が必要である。
- 権限設計
  - 例：エージェント用アカウントを分離し最小の権限を付与
- 承認フロー
  - 例：送信・申請・購入など不可逆操作は人の承認を挟む
- ログ記録
  - 例：画面・操作ログ・入出力・成果物を一貫して保存、検証可能とする
- 品質担保
  - 例：転記や集計ミスに対するレビュー・ダブルチェック
- 停止設計
  - 例：異常時に止められる仕組み（回数上限、タイムアウト、ガードレール）を実装
- エージェント実行環境
  - 例：外部APIを活用して良いか、AI関連の処理を含め閉域で実行するか
GUIエージェントは社内システムを操作可能なことから通常のAIシステムよりもセキュリティ要件が高くなる。性能の高いAIを用いるため外部のAPIを活用するか、セキュリティを重視して閉域で実行可能なAIを用いるかは重要な選択となる。近年、閉域で実行可能なAIモデルの性能も大きく向上しており、エージェント側の性能向上をあわせて近い将来完全閉域で十分な性能を持つGUIエージェントの実行が可能になると思われる。
4.3 AIに業務を任せるため、鍵になるのは評価データである
GUIエージェントは強力なテクノロジーであり、少ない投資で多くの業務を自動化できる可能性を秘めている。実用に近づくGUIエージェントを活用するために重要なのは「AIモデルの名前」や「エージェントフレームワークの名前」ではなく、正しく評価データを整備し、改善サイクルを回せるか否かである。モデルやフレームワークは継続的に更新され、性能や挙動は数か月単位で変化する。評価データがなければ、「良くなった／悪くなった」の議論が主観に流れ、PoCが終わらない。

整備すべきものは、前回記事で整理した「①実行環境」「②タスク」「③評価」を「④リーク対策と再現性」を確保しつつ、実装レベルに落とした「業務用ベンチマーク」である。
- 実行環境：OS/ブラウザ/アプリ版、権限、初期データ、ネットワーク境界を設定
- タスク定義：開始条件、入力データ、期待する終了状態（成果物）を検証対象に合わせて作成
- 評価：成果物や実行過程を評価する仕組みを構築
- リーク対策と再現性：前提や環境変化による影響を低減し、正しく評価するための対策を実施
AIに業務を任せていくためには様々な企業や研究機関から発表されるAIテクノロジーを正しく評価する必要がある。良い業務用ベンチマークを整備し、その結果がビジネス活用可能か判断、運用面の検討を行い、段階的に実務適用を行っていく事が重要である。

なお、本稿で構築したベンチマークなどは今後公開予定である。

ChatGPT エージェント
https://chatgpt.com/ja-JP/features/agent/
GitHub - simular-ai/Agent-S: Agent S: an open agentic framework that uses computers like a human
https://github.com/simular-ai/Agent-S

筆者

高橋怜士
株式会社三菱総合研究所
BA・AI事業部門　AIコンサルティング本部

DX、AI活用をキーワードにプロジェクトや社内業務改革に取り組んでおります。業務分析等により解くべき課題が見つかったとしても課題解決のアプローチや技術を選ぶ事は簡単ではありません。
生成AIなど先端技術の動向を注視しつつ、正しいアプローチで正しい技術を選び、正しく評価・理解し、正しく運用する事を意識してプロジェクトを行っています。

※部署/役職は公開時点のものであり、現在と異なる場合があります。