Nortiq Labs / 2026年5月
TL;DR
- 2024〜2026年の主要調査が示す結論は明確だ。生成AI PoCの約3分の2は本番運用に到達していない(Ridgelinez執行役員パートナー水谷広巳氏、2024年10月)。Gartnerは2025年末までに少なくとも30%の生成AIプロジェクトがPoC段階で打ち切られると2024年7月に予測し、2025年6月にはエージェント型AIプロジェクトの40%以上が2027年末までに中止されると追加発表した。日本企業はとくに「導入はしたが効果実感が他国の1/4〜1/2」(PwC Japan 2025春調査、日本n=945)という"PoC実施完了・成果なし"の状態に陥りやすい。
- 失敗するPoCには再現性のあるパターンがある — 目的の曖昧さ、ROIの非定量化、データ基盤の不在、現場の不参加、卒業基準(Go/No-Go)の事前合意なし、運用体制(MLOps/LLMOps)の欠落、ベンダー丸投げ。逆に本番運用へ進む案件は、PoC開始前に「経営直轄の推進体制」「Go/No-Go基準」「本番化のアーキテクチャ前提」を合意している点でほぼ例外なく共通する。PwC Japanの2025春調査では「期待を大きく上回る効果」を出している日本企業の61%が社長直轄、期待未満層は8%という7.6倍の差が出ている。
- 発注側が今すぐ実行すべきは3つ:(1) PoC企画書に事業KPIと撤退基準を1ページで明記する、(2) 本番運用を担う現場担当者をPoCチームに必ず1名以上入れる、(3) ベンダー選定では「動くデモ」ではなく「本番移行時の運用・データ・セキュリティ設計の具体案」を評価軸にする。これだけで成功確率は体感で2〜3倍変わる。
Key Findings — 数字で見る「PoCの壁」
グローバルの全体像
- Gartner(2024年7月、Distinguished VP Analyst Rita Sallam):「2025年末までに、少なくとも30%の生成AIプロジェクトがPoC後に打ち切られる」と予測。理由はデータ品質の不足、リスク統制の不十分さ、コスト膨張、ビジネス価値の不明瞭さの4点。
- Gartner(2025年6月25日、Senior Director Analyst Anushree Verma):「2027年末までに、エージェント型AIプロジェクトの40%以上が中止される」と予測。Vermaは「現在のエージェント型AIプロジェクトのほとんどは、ハイプに駆動された早期段階の実験やPoCであり、しばしば適用先を誤っている。これが組織を、本番投入における真のコストと複雑性に対して盲目にしている」と指摘。同社の試算では、エージェント型を謳う「数千ベンダー」のうち真にエージェント型と呼べるのは約130社のみで、Vermaは「現在エージェント型と位置付けられているユースケースの多くは、そもそもエージェント型実装を必要としていない」と"agent washing"を批判している。
- Gartner(2025年2月26日、Senior Director Analyst Roxane Edjlali):「2026年までに、AI-readyなデータに支えられていないAIプロジェクトの60%が打ち切られる」と予測。背景データとして、2024年第3四半期のGartner調査(データ管理リーダー248名)で「63%の組織がAI向けの適切なデータ管理体制を持っていないか、自社が持っているかすら把握していない」。
- MIT NANDA「The GenAI Divide: State of AI in Business 2025」(2025年7〜8月公表、リード著者Aditya Challapally):300件の公開AI導入、52件の経営層インタビュー、153件のリーダー調査を分析。エンタープライズ向け生成AIパイロットの95%が損益への測定可能な影響をゼロにとどめている。一方で、**外部ベンダーとの協業による導入は67%が成功、内製は33%**と、Buy(一部)優位の数字が出ている。
- McKinsey「The State of AI in 2025: Agents, innovation, and transformation」(2025年11月、1,993社):「企業の88%が少なくとも1業務でAIを定常的に使用」しているが、「EBITに5%以上の影響を出している"AI高パフォーマー"は約6%のみ」「全社展開段階に到達した企業は約3分の1にとどまる」。残り2/3は"pilot purgatory(パイロット煉獄)"に滞留。同調査で**「ワークフローを根本的に再設計した」と回答した割合は、高パフォーマーで55%、その他企業で約20%**(差は約2.8倍)。
- BCG「The Widening AI Value Gap: Build for the Future 2025」(2025年9月、1,250社):「future-built」企業は5%、「scalers」が35%、残り60%は"laggards"でAI投資から実質的な価値を得ていない。同報告書はまた、「AIから得られるポテンシャル価値の70%はR&D、イノベーション、デジタルマーケティングといったコア事業機能に集中している」と分析。
日本固有の状況
- PwC Japan「生成AIに関する実態調査 2025春 5カ国比較」(2025年6月23日公表、Japan n=945、PwCコンサルティング執行役員パートナー三善心平氏):日本企業の生成AI推進率は56%まで上昇したが、「期待を大きく上回る効果」と回答した日本企業は10%(米国は45%)。前年2024年春の日本9%→2025年春10%とほぼ横ばいで、米国の33%→45%との差が広がっている。
- 同調査で**「社長直轄で生成AI推進している」割合は、期待を大きく上回る効果を出している層で61%、期待未満の層で8%**と約7.6倍の差。CAIO(Chief AI Officer)配置についても、期待超え層で60%、期待未満層で11%。
- JUAS「企業IT動向調査2025」(2025年2月、981社):言語系生成AIの導入・準備中企業は41.2%(前年比+14.3pt)。一方、**効果測定について「効果測定を行っていない」が59.8%**と、KPI欠如の構造が浮き彫り。
- 総務省「令和7年版 情報通信白書」:日本企業で何らかの業務で生成AIを使用している割合は55.2%だが、効果実感や業務組み込み度では米中独英を下回る。
- Ridgelinez(富士通子会社、2024年10月2日):執行役員パートナーの水谷広巳氏が記者向け勉強会で「PoCから次のステップである本番稼働に移行しているプロジェクトは全体の3分の1ほど。残り3分の2はPoCで終わってしまっている」と発言。
- IPA「DX動向2025」(2025年6月26日):日本企業の85.1%がDX推進人材の不足を訴え、米独より顕著に高い。経営者のデジタル分野への見識を「十分に持っている/まあまあ持っている」と回答したのは日本40.2%、米国77.5%、ドイツ73.9%。
これらを統合すると、「PoCはやっている、しかし本番運用と財務インパクトに繋がっていない」という構造が、グローバルでも日本でもほぼ共通している。ただし日本は経営層の関与の薄さと効果測定の不在という"組織側のボトルネック"がより深いことが数値で示されている。
Details
1. PoCが本番に進まない7つの典型パターン
私たちNortiq Labsが日米クライアントのAI/Web開発案件を支援してきたなかで、PoCが頓挫する案件にはほぼ例外なく以下のどれか(しばしば複数)が当てはまる。各パターンに公開調査・他社事例も対応させる。
①「とりあえずAIで何かやろう」型 — 目的の曖昧さ 発注側が解くべき業務課題ではなく「AIを使うこと」を目的化している。日経xTECHが紹介したある製造業A社の例では「ここにデータがある。AIで何ができるか検証してほしい」という発注で、結果を見て担当者が「そんなことができるんだ」と感心したものの、その後の話が一切なく「単なる力試しに終わった」と紹介されている。これは"PoC貧乏"発祥の典型パターンだ。
② ROIが非定量 — 「便利そう」止まり McKinsey「The State of AI in 2025」の表現を借りれば、「全回答者の80%が効率化を目標として挙げているが、AI高パフォーマー企業は加えて収益成長とイノベーションを明示的なAI目標として設定している」。同調査で高パフォーマーが「AIを変革的変化のために使う意図がある」と回答した比率は他社の3.6倍。KPIを「技術指標(精度・処理時間)」と「ビジネス指標(金額換算)」の2層で設計しない限り、経営層の意思決定材料にならない。
③ データ基盤の不在 — PoCはクリーンデータ、本番はノイズだらけ Gartner(Edjlali, 2025年2月)が言うように「2026年までにAI-readyデータがないプロジェクトの60%が中止される」見通し。日本側でも、ブレインパッドが指摘してきた古典的問題(「ローデータに社員がアクセスできない」「履歴保持期間が業務ごとにバラバラ」「Excel紙帳票しか残っていない」)が依然続いている。
④ 現場の不参加 — 「精度は出たが現場で使えない」 NTTデータDATA INSIGHT(2026年4月)の指摘の通り、「ライセンスは配り、研修もやった。ガイドも作った。それでも、現場で使い倒しているのは一部の人だけ」。原因は"全員に同じ使い方を押しつけた一律設計"で、役割別のユースケース設計が抜けている。
⑤ 卒業基準(Go/No-Go)が事前合意されていない PoCが終わってから「この精度で十分かどうか」を議論しはじめると、判断が先送りになりPoCが延長されるか自然消滅する。秋霜堂などの実務ガイドが指摘するように、PoC開始前に「精度90%以上かつ処理時間3秒以内」のような定量基準を関係者間で合意することが本番化判断のショートカットになる。
⑥ 運用体制(MLOps/LLMOps)の欠落 PoCではJupyter NotebookやColabで動かしたモデルを、本番では毎秒数万アクセスで他システムと連携させる必要がある。アイデミー石川聡彦氏(連載記事)が表現した通り、「PoCフェーズから実運用フェーズの間には大きな断絶がある」。ヤマト運輸はエクサウィザーズと組み、約6,500の宅急便センターの数カ月先業務量を予測するAIをMLOps基盤上で本番運用化した事例として知られる。
⑦ ベンダー丸投げ — 内製化の意思の欠如 MIT NANDA調査の「外部ベンダー67%成功 / 内製33%」の数字を表面的に読むと「ベンダーに任せれば良い」と誤解されがちだが、報告の本意は逆だ。同調査が同時に指摘するのは**「成功した企業はBPO顧客のように振る舞い、ベンダーを抽象的モデル指標ではなく具体的なビジネスKPIで評価し、深いカスタマイズと自社データからの学習を要求している」**点。丸投げではなく、発注側が業務とKPIを握る前提でのBuyが正解だ。
2. 本番に進む案件に共通する成功要因
① 経営直轄の推進体制 PwC Japan 2025春の最も衝撃的な数字は、期待を大きく上回る効果を出している日本企業の61%が「社長直轄」で生成AIを推進していたこと(期待未満層は8%)。CAIO配置率も期待超え層60%、期待未満層11%。「IT部門が下から提案する」体制では成功確率が一桁低くなることを示している。
② スモールスタートと卒業基準の事前合意 セブン-イレブン・ジャパンが2024年春から商品企画に生成AIを導入し、企画期間を最大90%短縮した事例は、まず特定業務(商品企画)から始め、定量目標を持って2025年8月に全社員約8,000人への展開へとフェーズ拡大したパターン。13種類のLLMを使い分ける基盤を構築した。
③ 経営トップの「やってみよう」文化と継続的な利用拡大 パナソニックコネクトは2023年2月にChatGPTベースの「ConnectAI」を国内全社員約11,600〜12,400人に展開。1年目(2023年6月〜2024年5月)で全社員18.6万時間削減、2年目(2024年度)には**年間利用回数240万回(前年比1.7倍)、業務削減時間44.8万時間(同2.4倍)、月間ユニーク利用率49.1%**へ拡大。2025年7月には経理・法務・マーケティングなど領域別のAIエージェント運用にフェーズを進めた。同社CIOの河野昭彦氏は「『よくわからないからやめておこう』ではなく『わからないなら、まずやってみよう』というマインドセットが会社全体に浸透している」と語っている(経営層から一度もストップが入らなかった点が決定的)。
④ 失敗事例をオープンに共有し、用途を再選定する組織学習 日本たばこ産業(JT)は2023年7月、PwCコンサルティングと共同で「JT Group AI Concierge(JAC)」を3部署(不動産室、人事部、法務部)に試験導入。当初は検索用途で期待精度に届かず一度頓挫したが、社内イベントで「失敗」をオープンに共有し、検索ではなくチャット・分析用途に用途を再定義し、最終的に600名規模、その後30部門へ拡大した。同社IT部次長の加藤正人氏は「『安心かつ安全に、社内の機密事項も扱える環境』を作ろうと、JT独自の生成AIプラットフォームの作成に踏み切った」と語っている。「失敗を全社で言語化して次に進む」プロセスが本番運用への梯子になった事例。
⑤ 業務プロセスそのものの再設計("AIを乗せる"ではなく"再発明") McKinsey 2025の最重要発見の一つは、AI高パフォーマー企業のうち55%が「個別ワークフローを根本的に再設計した」と回答しており、その他企業(約20%)の約2.8倍に達していること。BCG「Build for the Future 2025」も同様の方向性を示しており、「Future-built企業は自動化や漸進的な生産性向上に留まらず、現行ワークフローの再構築や新規ワークフローの発明に踏み込んでいる。大きな価値はAIパイロットや孤立したユースケースからではなく、コア業務ワークフローのend-to-endの再構築・再発明から生まれる」と明示。同報告書は「AIから得られるポテンシャル価値の70%はコア事業機能に集中する」と量化している。
⑥ MLOps/LLMOpsを最初の設計から組み込む PoC時点から本番運用想定のデータパイプライン、モデル監視、再学習トリガー、プロンプト管理を組み込むこと。デロイト トーマツの分析(2023年)でも「PoCフェーズからMLOpsを導入することで、AIモデルの精度維持・改善、再現性確保、運用工数削減の3つの効果がある」と整理されている。
3. 生成AI・LLM時代におけるPoCの変化
2018〜2022年のAI PoCは「機械学習モデルが技術的に動くか」の検証が主目的だった。2024〜2026年は技術的にはほぼ何でも動くのが前提になった。Claude Opus、GPT-5系、Gemini 2.5などフロンティアモデルの性能向上、Cursor・Claude Codeなど開発ツールの進化により、「動くデモ」までの距離は劇的に短くなった。
その結果、2026年のPoCで検証すべきは技術ではなく:
- (a) 業務価値が実際に出るか(時間・コスト・品質の定量変化)
- (b) 組織が受け入れるか(現場の運用変更、ガバナンス、リテラシー)
- (c) 本番運用でコスト・品質・セキュリティ・コンプライアンスが成立するか
である。「技術が動く」ことを検証するフェーズではなくなったという認識ズレがあるPoCは、開始時点で失敗予備軍と言える。
2025〜2026年のもう一つの大きな変化はAIエージェントへの揺り戻しと"agent washing"問題。Gartnerの調査では数千ベンダーのうち真にエージェント型と呼べるのは約130社に過ぎず、Vermaの言葉を借りれば「現在エージェント型と位置付けられているユースケースの多くは、そもそもエージェント型実装を必要としていない」。同時に、UiPath「2026 AI and Agentic Automation Trends Report」は「経営層の78%が、エージェント型AIの価値を完全に引き出すには自社の運営モデルを再発明しなければならないと回答している」と指摘しており、2026年は「実証実験から実行(Execution)へ」「ROI重視への揺り戻し」の年になる。裏返せばROI証明の圧力が一気に高まる年であることを示す。
4. Nortiq Labsの実体験から
私たちが日本とアメリカのクライアント向けにAI開発・Web開発を支援してきた中で、「PoCで終わる案件」と「本番に進む案件」を見分ける、現場感覚に基づく早期サインがいくつかある。
「本番に進む案件」のキックオフで必ず観察できるサイン:
- 発注側に**業務オーナー(実際にその業務で工数を負担している現場マネージャー)**がいて、彼/彼女が予算決定権者と直接話せる関係にある。
- キックオフ初回までに「現状のベースライン(処理時間、エラー率、月次コストなど)」が数字で出てきている。
- 「PoCの結果がこうなったら本番化に進む/こうなったら撤退する」という条件が口頭ベースでも合意されている。
- データの所在と権限管理、セキュリティ要件、本番アーキテクチャの仮イメージがPoC開始前に2〜3ページのドキュメントになっている。
- 経営層からの「とりあえず触ってみて」ではなく、「年度内にこのKPIをこれだけ動かしたい」という明確な経営アジェンダがある。
「PoCで終わる案件」に頻出のシグナル:
- 発注側の窓口がIT部門のみで、業務部門の人間がキックオフに同席しない。
- 「他社がやっているからウチもAIを」という競合追随のロジックが主要動機。
- 検証対象の業務が3つ以上並んでおり、優先順位が決まっていない。
- データの整備状況を尋ねると「これからやる予定」「ベンダーさんで何とかしてもらえれば」という返答。
- 「まずは小さくやって、効果が見えたら本格化したい」という発言の裏に、本格化時の予算・体制計画が一切ない。
5番目は最も罠が深い。日米問わず、本番化フェーズの予算は経験的にPoCの数倍規模になることが多い(公開された調査値としては明確な比率は確立されておらず、業界・ユースケースによって大きく異なる)。PoC予算しか確保していない案件は、PoCが「成功」しても本番には進まないことが多い。これは技術問題ではなく、組織の予算プロセスの問題だ。
私たちが日本側のクライアントで頻繁に遭遇する独特の課題は、**「現場の合意形成プロセスがPoC期間より長い」**ことだ。米国クライアントなら2〜4週間で済む現場ヒアリングと運用設計の合意が、日本側では3〜4カ月かかることがある。これは悪いことではなく文化的特徴だが、この前提を織り込んだPoC設計(並行で現場合意形成を進める、卒業基準に"現場の運用受け入れ"を入れる)をしないと、技術PoCだけ完了して現場に着地できない、という典型パターンに陥る。
逆に、米国側クライアントで頻繁に遭遇するのは**「技術的にできるなら明日から全社展開」という性急さ**で、ガバナンスやリスク統制の議論が後追いになるパターン。これも別種のPoC失敗(後から法務・セキュリティで巻き戻し)を生む。
5. 発注側が取るべき具体的アクション
PoC企画段階(着手前):
- ✅ 解くべき業務課題を1文で書ける(×「AIを活用したい」、◯「請求書処理の月間工数を50%削減したい」)。
- ✅ ベースライン(現状の時間・コスト・エラー率)を数値で把握している。
- ✅ Go/No-Go基準を技術KPI(精度・速度)とビジネスKPI(金額換算)の2層で事前合意。
- ✅ PoC終了後の本番化予算の概算(PoC予算とは別枠で)を経営層が認識している。
- ✅ 業務オーナー(現場マネージャー)を推進チームに正式アサイン。
- ✅ データのアクセス権、利用範囲、セキュリティ要件をPoC開始前に決済済み。
ベンダー選定の評価軸:
- ❌「動くデモを見せられる」「精度が高い」だけで選ばない。
- ✅ 本番運用時のデータパイプライン、モデル監視、再学習、ガバナンス、コスト管理について具体案を出せるか。
- ✅ MLOps/LLMOpsの運用経験と、現場引き渡し(運用移管)の支援設計があるか。
- ✅ ベンダーのデータ利用ポリシー(学習に使われるか、保持されるか、ログ取得・監査が取れるか)を一次情報で確認。
- ✅ PoCコストだけでなく、本番化・スケール時の概算費用も提示できるか(「PoCが安いベンダー」は本番で詰むことがある)。
- ✅ 失敗事例を率直に語れるベンダーか(成功事例しか語らないベンダーは要警戒)。
社内体制:
- ✅ 経営層に直接報告できるAI推進責任者(CAIO相当)を置く。PwC調査で期待超え企業の60%がCAIO配置済み。
- ✅ IT部門・業務部門・データガバナンス・法務/セキュリティの横断チームを組成。
- ✅ 「失敗事例を共有しても評価が下がらない」という心理的安全性を経営層が公式に表明(JTのアプローチ)。
- ✅ AIリテラシー研修は役割別に設計(全員に同じ研修ではなく、営業/企画/開発/管理職それぞれの使い方を設計)。
Recommendations — 段階別の具体的アクション
【Stage 1:今週中にやること(コスト:ゼロ)】
- 現在進行中のAI/生成AI PoCすべてについて、「Go/No-Go基準」「業務オーナー」「ベースライン数値」「本番化予算概算」の4項目を1ページにまとめてみる。**4項目すべて埋まらないPoCは「失敗予備軍」**として一旦止め、これらが揃うまで再開しない。
- ベンダーに対し「本番運用時のアーキテクチャ、コスト、運用体制、データガバナンス」について2週間以内に書面で提出を求める。応じられないベンダーは選定から外す。
【Stage 2:1〜3カ月で整備すべきこと】 3. CAIO相当の役職を設置するか、最低でも経営直轄の生成AI推進プロジェクト体制を作る。週次で経営層に進捗報告する仕組みを入れる。これがPwC調査で7.6倍の効果差を生む単一最大要因。 4. PoC対象を1業務・1サービス・1ユーザー層に集中させる。3業務並行は検証品質を1/3にし、判断を不能化する。 5. データ基盤(データクレンジング、アクセス権、リネージ管理)にPoC予算の20〜30%を先行投資する。Gartnerが言う「AI-readyでないデータ」の罠を回避するため。
【Stage 3:本番化を視野に入れた半年〜1年計画】 6. MLOps/LLMOps基盤の整備をPoC開始と同時にスタート。本番化フェーズで作り直すと工数2〜3倍、期間6カ月以上の手戻りになる。 7. 役割別AIリテラシー研修を実施。ChatGPTのライセンスを全員に配るだけでは定着しない(NTTデータ指摘)。 8. **「失敗をオープンに共有する場」**を社内に作る(JTの社内イベント方式が参考になる)。失敗を可視化しない組織はPoCを延々繰り返す。
【ベンチマークと意思決定の閾値】
- PoCが3カ月を超えても本番化判断ができない場合、撤退または再設計の判断時期。
- 本番運用後6カ月以内にROI(業務時間削減・コスト削減・売上貢献)が定量化できないなら、ユースケース選定そのものを見直す。
- 全社の生成AI月間ユニーク利用率が**30%**を超えない場合、研修や使い方設計の問題。パナソニックコネクトの49.1%が一つのベンチマーク。
- 効果測定を「行っていない」状態が継続するなら、それ自体がPoC失敗のサイン(JUAS 2025で59.8%の企業が該当する"普通の失敗"パターン)。
Caveats — この記事を読む際の注意点
- 本記事で引用した「PoC本番移行3分の1」「95%失敗」「30%中止」などの数字は、調査主体・対象企業規模・PoCの定義によって基準が異なる。MITの「95%失敗」は損益への測定可能な影響をゼロとみなす厳しい定義で、Gartnerの「30%中止」はPoC打ち切りという行動を見ている。RidgelinezとMcKinseyが揃って提示する「約3分の1のみが全社/本番展開に到達」という数字とも整合的だが、単純比較はできないことには注意が必要。
- Gartnerの2026年・2027年予測は文字通り将来予測であり、確定した実績値ではない。Vermaの「40%以上が中止される」は2025年6月時点の予測で、ハイプサイクルの揺り戻しを念頭に置いた数字。
- PwC調査の「期待を大きく上回る効果」の定義は回答者の主観であり、財務的に測定された値ではない。ただし日本と米国の差(10% vs 45%)の大きさは複数年で一貫しており、構造的な傾向と読める。なお、PwC公式ウェブページでは「約6割」「1割未満」と丸めて表記されており、61%・8%という整数値はPwC報告書スライドおよびImpress Cloud Watch・ASCII.jpなどによる記者発表報告に基づく。
- 本番化フェーズの予算規模については、PoC比で大きく膨らむことは複数のコンサルティング会社や受託開発企業が一致して指摘しているが、具体的な倍率(5〜10倍など)については一次調査による確立された数値が乏しいため、本記事では具体倍率を明示せず「数倍規模」とした。実際の倍率はユースケース・ユーザー数・SLA要件で大きく振れる。
- 本記事のNortiq Labs実体験部分は、私たちが日米クライアント支援を通じて観察したパターンに基づく定性的観察であり、統計的に検証されたものではない。読者の業界・組織規模・案件規模により異なる可能性がある。
- AIエージェントや生成AI技術自体が急速に変化しているため、2024〜2025年の「失敗パターン」のうち一部は、技術側の進化で2026〜2027年には軽減される可能性がある(例:MCPの普及によるツール連携の標準化、フロンティアモデルの精度向上)。ただし、本記事の主張の核である**「組織側の準備不足が失敗の主因」**という構造は、しばらく変わらないと我々は見ている。Gartner・McKinsey・BCG・PwC・MITの2025年調査が揃って同じ結論に至っていることが、その確度を補強している。



