
1.1 GUIエージェントとベンチマークの重要性
最近発表されたOpenAI Agentのように生成AIを活用したAIエージェントの一種、GUIエージェントは、自然言語で与えた指示に従いPCを操作して業務を遂行する。テキスト生成や情報検索にとどまらず、表計算ソフトやブラウザ、メールクライアント、開発環境を横断しながら一連の処理が実行可能である。

出所:三菱総合研究所
GUIエージェントに限らず、生成AIを活用したAIエージェント開発の手法には3つの方針がある。
1つ目は手で全てのコードを書く方針である。LangGraphやCrewAIといったライブラリを用いて開発を行う。自由度が高い反面、保守コストが嵩みやすいという弱点がある。
2つ目はローコードツールを使う方法である。例えばDifyを用いるとワークフロー設計やRAG、外部ツール統合をWEBブラウザから行うことが出る。便利な反面、複雑な操作や厳密な評価の設計まで踏み込むと、コードを書く必要がある。
3つ目はGUIエージェントを用いて指示のみを行う方針である。GUエージェント、汎用エージェントはブラウザやPCを自律的に操作し、未知の状況にも対応することが可能である。近年GUIエージェントの性能は上がっているが、企業内のシステムや日本語UI、個別の社内規程に適用可能かは十分に検証されていない。

出所:三菱総合研究所
GUIエージェントの能力を実務導入の基準で見極めるには、現実の業務フローに即し、再現性が担保された評価ベンチマークが必要である。以降、既存のベンチマークとその設計方針、今後必要とされるGUIエージェント用ベンチマークについて紹介する。
1.2 代表的ベンチマーク
ベンチマークとはGUIエージェントがどれだけ良いものかを評価するためのシステムである。多くの場合、指示と動作環境が与えられ、指示をどの程度実施できたかで評価される。現在、良く用いられるGUIエージェント向けベンチマークにはWebArenaとOSWorldがある。TheAgentCompanyはWebArenaの開発チームが新たに発表したベンチマークである。
1.2.1 WebArena
WebArenaは、ECサイトやフォーラム、CMS、Git系サービスなどを自前でホストし、外部変動の影響を避けながらWeb操作タスクを評価するフレームワークである。主にブラウザ操作を対象としたベンチマークとなっており、指示に従って経路を調べて整理するようなタスクがある。
1.2.2 OSWorld
OSWorldはLinux上で実アプリケーションを操作するベンチマークである。タスクごとに初期状態と実行結果ベースの検証スクリプトが用意され、現実のPC作業をそのまま持ち込む設計になっている。前述のWebArenaと比べブラウザだけでなく、LibreOfficeのような一般的なアプリケーションを複数利用して目的を達するベンチマークとなっている。

出所:Tianbao Xie, et al. "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments", 2024. (CC-BY、一部を日本語に翻訳) 2025-09-04閲覧
1.2.3 TheAgentCompany
TheAgentCompanyは、社内の小さなソフトウェア企業を模し、Web検索やコーディング、プログラム実行、同僚とのやり取りまでを一つの環境で評価するベンチマークである。WebArenaやOSWorldと比較すると誰かに聞かないと先に進めないタスクが含まれ、エージェントが誰かと「対話」を行う必要がある点が特徴的である。
1.3 日本企業の実態に即したベンチマークの必要性とその作り方
GUIエージェントのベンチマークは、複数の「業務を模した一連のワークフロー」で構成される。例えば、「請求書番号Xの請求データをダウンロードして整形し、社内システムBへ取り込み、Cさんにメールで完了した事を連絡する」という業務が1つのワークフローとなる。日本語でこのような指示がなされると、GUIエージェントはブラウザと表計算ソフト、ファイル操作、メールクライアントを使って業務を遂行する必要がある。
ベンチマークを作成するにあたっては「①実行環境」、「②タスク(ワークフロー)」、「③評価」、「④コンタミネーション・リーク(漏洩)への対応と再現性の確保」が重要である。エージェントを評価するベンチマークの多くは英語で作成されている。日本国内で実務適用を行うことを考えると、日本語のタスク指示、日本語のUI、日本語のデータを前提に設計することが重要である。

出所:三菱総合研究所
1.3.1 実行環境
GUIエージェントのベンチマークでは環境を提供する事、前提条件として実行環境をそろえることが重要になる。また、ベンチマークを実行するうえでは画面キャプチャとInput/Output、ファイル入出力、ネットワーク境界の制御を揃え、観測から行動、結果までの履歴を一貫して記録できる必要がある。Web検索等で再現性を担保するためには自前ホストにより外部のサイト変更を抑えつつ、現実的なデータ量と機能を持つサイト群を用意する必要がある。リアルな条件として社内システムやそのテスト環境を利用する場合は過負荷をかけないことや適切な権限管理も重要となる。
GUIエージェントに関連したものとして、生成AIのモデル名やバージョン、温度、最大トークン、使用ツール(ブラウザ/コード/ファイル)、ステップ上限などの実験条件を固定し、時間上限やAPIコスト、並列度、ネットワーク条件の扱いの考慮する場合もある。特にコストパフォーマンスを計測する場合には重要な要素となる。
1.3.2 タスク(ワークフロー)
各タスクには、初期ファイルやログイン状態、OS設定といった開始条件を与え、終了判定は実行結果ベースの検証スクリプトで自動化する必要がある。長いタスクではサブタスクに分解し、途中からの開始や部分成功も測れるようにしたほうが良い。タスクはベンチマークのコアとなる部分である。AIエージェント活用では業務補助ではなく業務代替を目指すことが多く、それら現実のユースケースをもとに、①業務実態に即し、②様々なアプリケーションを連携し、③インタラクションのあるものを選ぶ必要がある。
① 業務実態に即す
実際に行われている業務を選ぶことが重要である。マニュアルに書かれた理想的な入力の例があってもよいが、例えば入力にノイズが含まれる、一部情報が欠けているなど実態に即している方が望ましい。
② 様々なアプリケーションを連携
通常1つのアプリケーションで業務を行うことは少ない。複数のWEBシステムを利用する、Office製品を活用する、メールを送る、など一連の操作を含む形が望ましい。
③ インタラクション(対人・対エージェント)
AIエージェントは業務代替を目指すため、仕様の聞き取りや、社内チャットでの問い合わせなど対話を含む進行を設計すべきである。ただし、問い合わせ先はAIエージェントであってもよい。
当社の「Webリサーチ/レポートの自動化「ロボリサ」」を例にとると、具体的には下記のようなケースがタスクとなる。なお、ロボリサはWEB情報の収集を自動化し、収集した情報を元にしたレポートを作成可能なシステムである。
■タスクの具体例A: ロボリサへのユーザ登録
GUIエージェントへの指示:「添付したExcelのユーザをロボリサに登録してほしい」
期待する動作:
① Excelから社員番号を取得する。
② 社内システムを用い、社員番号で検索を行い当該社員の名前とメールアドレスを取得する。
③ 取得した情報を使ってロボリサにユーザ情報を登録する。
④ 登録した内容をユーザにメールで連絡する。
■タスクの具体例B: RFPに記載された内容からのロボリサレポート作成
GUIエージェントへの指示:「ロボリサを使って添付したRFPに関連する情報を資料にまとめてほしい」
期待する動作:
① RFPを読み解き、情報収集が必要な複数の分野を特定する。
② 読み取った分野それぞれについて、整理すべき対象を整理する。
③ ロボリサに対して上記の対象を入力しレポートを生成する。
④ 生成したレポートを営業チャネルに投稿する。
これらの動きを実装したければ「ロボリサ」の機能拡張を待つか、RPAを設定する、API経由で「ロボリサ」を使用するソフトウェアを構築するなど個別対応が必要となる。その場合もタスクの具体例Bのように判断を必要とする動きは難しい。GUIエージェントの性能が十分であればそのような対応は不要となり、日本語の指示をするだけで全ての処理を行ってくれるかもしれない。
1.3.3 評価
GUIエージェントは現実的な一連のワークフローで構築されるため評価が難しい。一部のみ成功のように中間点を考慮することは困難である。評価方法には主として①数値指標、②ルールベール、③LLM as a judgeの活用がある。
① 数値指標
例えば、達成率のような指標である。総ステップ数や実行時間、APIコストといった効率の指標も含まれる。明確に良し悪しが分かるため必ず入れるべき要素である。
② ルールベース評価
ある中間地点まで到達したら+1点、データの削除など不適切な操作をしたら-1点などあらかじめ決めたルールによって採点を行う方法である。事前検討が必要であるが中間点の考慮に有効な手法である。
③ LLM as a Judge
自由記述や多様な操作とその結果について、品質を自動で採点するには、LLMを審査員として使う方法が有効である。一方で評価のばらつきや指示・生成モデルとの関係による採点の偏りが入り得ることには注意が必要である。前述のルールなどの基準を与える、FewShot的なサンプルを与える、複数のモデルを用いて評価するなどLLM as a judgeの利用には注意が必要となる。
1.3.4 コンタミネーション・リーク(漏洩)への対応と再現性の確保
ベンチマークを公開すると、その内容や答えを生成AIが学習してしまう可能性がある。このようなことがあると評価結果が信頼できなくなる。contaminationやleakageというキーワードで知られている問題である。また、既にある英語のデータセットを日本語に翻訳した場合、英語データセットのleakageについても影響を受けることが知られている。新たに作成するデータセットであっても一部データのみを公開し、内部評価用のデータは非公開とするなど対応が必要となる。ベンチマークによっては常に新たなデータを作っていくものや、数万問など大量のデータを事前作成し一定期間ごとにその一部を使用していくものもある。
再現性の確保も重要な課題である。WEBの情報を使用する、社内システムを利用する場合は再現性の確保が難しくなる。前述のWebArenaではエージェントの操作範囲で実際のシステムを模倣するダミーシステムを作り対応している。
1.4 まとめ
日本語の実務でGUIエージェントを活用するには、日本語UIと日本語指示を前提に、タスク、インタラクション、マルチアプリ連携を一体として設計した評価が欠かせない。実行結果に基づく自動検証を中核に、効率や安全を同列に扱い、必要な範囲でLLMによる審査を補助的に組み込むことで、現実的な指標が得られる。
三菱総合研究所ではTDSE株式会社と共同でGUIエージェントの性能を測るベンチマークを構築、今後も発表が続くであろうGUIエージェントの評価を行っていく予定である。
- OSWorld-JP(日本語版コンピュータユースベンチマーク)など日本での取り組みもあるが十分な数とは言えない。特に日本の現実的なビジネスを対象としたベンチマークの必要性は高い。
- モデル内にベンチマークの情報が入っているとベンチマークの得点が著しく高くなる
- ライブベンチマークと呼ばれる