【ブログ】AgentforceのPoCはなぜ失敗する? テストの重要性とProvarの価値とは を公開
AgentforceのPoCはなぜ失敗する? テストの重要性とProvarの価値とは
Agentforceを使った高度な業務自動化に向けて、AIエージェント活用のPoC(概念実証)に取り組む企業や導入サービスが急速に増えています。一方で、PoCはある程度成功したはずなのに、
●本番で不具合が頻発する
●テストが回らずリリースが遅延する
●結局、人手の確認が増えている
といったリスクに直面することが少なくありません。その原因の多くは、Agentforce自体にあるのではなく、主にPoCにおける「テストの進め方」と「ツールの使い方」にあります。
このブログ記事では、「AgentforceのPoCをどう進めるべきか」、「どこまでをPoCで確認すべきか」、「Agentforce Testing Center(テストセンター)とProvarの役割」について、分かりやすく解説します。
なぜAgentforceのPoCは「うまくいったのに失敗する」のか
従来のSalesforce開発では、画面が動くか、フローが通るか、またApexが期待通りかなど、PoCの指針は比較的シンプルでした。しかしAgentforceが介在することで、状況は一変します。これはAIが「考えて、判断し、次の行動を選ぶ」からです。
ここで多くのPoCが、無意識のうちに、「AIがそれらしい答えを返した」「エージェントが動いた」「業務が一応つながった」などの評価を優先しがちになります。これ自体はPoCとして間違いではありません。
ただし、AIエージェントを実務に展開するテストの観点としては致命的に足りないのです。
Agentforce PoCにおいて共有すべき前提
AgentforceのPoCにおけるテストでは、まず次の前提を共有する必要があります。
●AIの揺らぎを伴う判断は、テストの“期待値”にならない
●AIは毎回同じ判断をするとは限らない
●同じ質問でも、表現が変わることもありえる
つまり、「この文言が返ること」、「この推論になること」をテストで固定してしまうと、テストはすぐに壊れてしまいます。Agentforce PoCで検証すべきなのは、AIの判断ではありません。PoCで検証すべきは“結果”です。では、何を結果として検証すべきなのでしょうか。答えはシンプルです。
●Salesforce上に正しいデータが作られたか
●業務フローは最後まで成立したか
●想定外の分岐でも破綻しないか
つまり一連の「破綻のない結果」です。Agentforceはあくまで起点であり、業務の真実はSalesforce上の状態にあります。この視点を持てるかどうかで、PoCの質は大きく変わります。
Agentforceテストセンターはどこまで使えるのか
Agentforce には純正のテストセンターが用意されており、これは基本的に単一(シングルターン)検証のための有用なツールです。ただし、役割を正しく理解する必要があります。
下記はPoCでAgentforceテストセンターが得意な役割です。このように、「このエージェントは、どういう入力にどう反応するか」を見るには最適です。
●エージェント単体の動作確認
●プロンプトや設定の検証
●初期設計段階でのPoCで利用
ただし、ここに限界があります。Agentforce テストセンターは、「Salesforce全体を横断する」「複数エージェントが絡む」「回帰テストとして繰り返す」といった用途には向いていません。理由は単純で、複雑なマルチターン発話の検証の実行や、業務全体をテストする設計ではないからです。
PoCで見落とされがちな「多層エージェント」の現実
一方、本番のAgentforceは、ほぼ確実に、「エージェントAがデータを作成 → エージェントBがそれを引き継ぐ → 別の自動処理が並行して動く」―このようになります。
PoCで単一エージェントしか見ていない場合、本番で初めて“壊れ方”を知ることになるかもしれません。PoCの段階で壊れ方を見ることが、ある意味、最大の価値といえます。
ここでProvarの役割が見えてきます。Provarは、実務レベルのマルチターン検証に対応していますが、AIの挙動だけをテストするツールではありません。Provarの本質はSalesforceを深く理解した独自のメタデータ駆動型のE2Eテスト基盤です。AgentforceのPoCにおいて、Provarが力を発揮するのは次の点です。
Provarが果たす役割①:「結果」を安定して検証できる
ProvarはSalesforceのオブジェクト(項目、関連性、Flow実行結果など)を直接理解します。そのため、AIの文言が変わっても、また実行順序が多少前後しても、業務結果が正しければテストは成功します。これは Agentforce時代の新しいテストにおいて、極めて重要です。
Provarが果たす役割②:E2E、マルチエージェントを前提にできる
Provarでは、以下をE2E(エンドツーエンド) で再現できます。
●複数のAgentforce起動を含むシナリオ
●Salesforceをまたいだ業務フロー
●データ競合や例外パターン
PoCの段階で、「本番で起きそうなややこしい状況」を小さく再現できることは、そのまま本番品質につながります。
Provarが果たす役割③:テストデータ運用を自動化できる
Agentforceテストでは、人が用意した静的なテストデータはすぐに破綻します。Provarによって、
●テスト開始時にデータを作成
●テスト中にAgentforceが更新
●テスト後に自動削除
という流れを自然に組み込めます。これはPoCで見落とされがちですが、実運用において回帰テストにスムーズ移行できるかどうかの分岐点です。
PoCがそのまま「最初の回帰テスト」になるか
ここが大切なポイントです。良いPoCとは、「一度動いたら終わりではなく、何度でも回せる」PoCが理想です。Provarで作られたPoCシナリオは、下記を実現できます。つまり、PoCへの投資を無駄にすることなく、貴重な資産になるのです。
●そのまま本番の回帰テストに引き継がれる
●シナリオを横展開することができる
●CI/CD環境に容易に接続できる
人とAI、そしてテストツールの役割
最後に、最も重要な視点は、すべてを自動化しようとしないことです。AgentforceのPoCでよくある失敗は、「AIもテストも全部自動化しよう」とすること。現状、正しい役割分担をこのように考えます。
●人が見るべきもの
―AIの判断の妥当性
―業務ルールの解釈
●自動化すべきもの
―業務が成立しているか
―データが壊れていないか
―回帰で壊れていないか
AIエージェントのPoCにおいて、Provarの役割は、人が考える余地を残すための自動化です。
まとめ:PoCの進め方が変わると、ツールの評価が変わる
AgentforceのPoCは、単なるAI会話の技術検証ではありません。
●本番で壊れることはないか
●変更やバージョンアップ時に回帰テストが回るか
●人が疲弊したり、リソースが不足しないか
を見極める工程です。その視点に立ったとき、Agentforceテストセンターは「設計・確認の場」であり、Provarは「業務の成立を守る基盤」という役割分担が、自然であることが分かります。もしPoCの段階で、このテストは将来も使えるだろうか、本番で同じことが起きても検証できるだろうかと感じたなら、それはProvarを検討するべきタイミングです。
Agentforce時代のテストは、「AIをどう動かすか」ではなく、「業務をどう守るか」という観点に変わっています。その変化を受け止める準備ができたとき、Provarの価値は、きっとはっきり見えてくるはずです。
なお、Provar製品を熟知するアドックインターナショナルは、Salesforce/AgentforceのPoCから運用を成功に導く技術サービスを提供しています。詳しくは「お問合せ(CONTACT)」 までご相談ください。
よくある質問(FAQ)
Q1:Agentforceのテストが従来のSalesforceテストと異なる点は何ですか?
A:最大の相違点は「非決定性(確率による挙動の揺らぎ)」です。従来のテストは「入力に対して常に同じ出力」を期待する決定論的なものでしたが、AIエージェントは状況により応答が揺らぎます。そのため、単発の応答確認ではなく、データ整合性を含む業務フロー全体を網羅した検証が必要になります。
Q2:Agentforce Test CenterとProvarはどう使い分けるべきですか?
A:テストセンターは「モデル品質」、Provarは「業務品質」の担保に使い分けます。テストセンターはプロンプトの妥当性やガードレール検証に適しています。一方、Provarは複数回の対話(マルチターン)を通じた一連のビジネスプロセスや、Salesforceのレコード更新、外部連携を含む「エンドツーエンドの業務完遂」の検証に最適です。
Q3:AIエージェントの「マルチターン(複数回の対話)」テストはなぜ重要ですか?
A:実際の業務は一問一答ではなく、対話の積み重ねで完結するからです。ユーザーによる追加条件の提示や修正に対し、AIが文脈を維持して最終目的(レコード作成等)まで到達できるかを検証しなければ、実運用での「文脈喪失による業務失敗」を防ぐことはできません。
Q4:AIが「更新した」と回答しても、裏側のデータの誤りのリスクをどう防ぎますか?
A:Provarを活用した「データベースレベルの直接検証(アサーション)」が有効です。ProvarはAIの応答テキストだけでなく、自動でSalesforceのデータベース(SOQL)を参照し、項目値やステータスが仕様通りに更新されているかを突き合わせます。これにより、画面上は正しく見えてもデータが壊れている「サイレントエラー」を検知できます。
Q5:AgentforceのPoCで、テスト担当者が優先すべき作業は何ですか?
A:AIの「限界線」を特定し、人間が介在すべき領域を定義することです。あえて複雑な業務をテスト対象とし、Provar等のツールで大量のパターンを試行して、AIがどの条件で失敗するかを洗い出します。この「失敗の境界線」を明確にすることが、安全な運用のためのエスカレーションフロー構築に繋がります。
Salesforce品質管理の統合基盤『Provar Quality Hub』を提供開始
Agentforce時代のAI・業務プロセス品質を可視化するプラットフォーム
Salesforce専用設計のテスト自動化ツール『Provar(プロバー)』の国内総代理店である株式会社アドックインターナショナル(本社:東京都立川市、代表取締役CEO:小林 常治/以下ADOC)は、Salesforceおよび
Agentforce環境向け品質管理プラットフォーム『Provar Quality Hub』の提供を開始したことをお知らせします。
Provar Quality Hubは、従来のテスト管理ツール「Provar Manager」を進化させ、テスト、自動化、DevOps、リリース判定などを統合的に管理する“品質の中枢基盤(Quality Hub)”として再設計されたダッシュボード・プラットフォームであり、自動テストエンジン「Provar Automation」や手動テストの結果、環境ごとのテスト実行管理を一元化します。

Provar Quality Hubの背景と特長
Salesforceにおける開発は、従来の画面単位・機能単位のテストから、AIエージェント「Agentforce」、外部システム連携、業務プロセス全体を対象としたエンドツーエンド(E2E)の品質管理へと急速に変化しています。このような環境では、「自動テストは成功しているが、業務シナリオの品質が見えない」、また「リリース可否を判断するための品質指標が分断されている」といった課題が顕在化しています。
Provar Quality Hubの主な特長
1. リリース判定の可視化(Release Readiness)
テスト結果、カバレッジ、欠陥傾向、環境別リスクを統合ダッシュボードで表示します。QA、開発、管理部門、ビジネス部門が共通の品質指標でリリース可否を判断可能です。
2. 自動化・手動テストの統合管理
Provar Automationによる自動テストと手動テスト結果を単一基盤で管理します。AIエージェントを含む複雑な業務フローの品質を一貫して追跡できます。
3. Salesforce DevOpsとの連携
Copado、Gearset、Jira、Azure DevOpsなどと連携し、デプロイからテスト、課題管理、再検証までを品質フローとして可視化します。
4. Agentic Enterprise時代のE2E品質管理
Provar Automationとの連携により、マルチエージェント環境、外部API連携、業務シナリオベースのE2Eテストに対応し、AIの応答性の検証だけでなく、“業務が正しく動くか”という観点での品質保証を実現します。
5. ガバナンス・監査対応
テスト証跡、実行履歴、承認フローをSalesforce上に保持し、金融・公共・大規模企業の監査要件にも対応します。
ProvarはSalesforceプラットフォームと自律型AIエージェント「Agentforce」の開発プロセスにおいて、AI機能とメタデータ駆動による高い復元力(レジリエンス)を備える、エンドツーエンド(E2E)のテスト自動化ツールです。今後、アドックインターナショナルはProvar Quality Hubを中核としたSalesforceおよびAgentforce向け品質基盤構築支援サービスの拡充なども検討し、企業のAI活用と業務変革を“品質”の観点から支援してまいります。