IT Management18. Mai 202613 min

Agentic AI: Warum 40 % der Projekte scheitern — und wie Sie nicht dazugehören

Gartner prognostiziert, dass über 40 Prozent der Agentic-AI-Projekte bis Ende 2027 abgebrochen werden — während McKinsey bei einer Minderheit einen 5,8-fachen ROI in 14 Monaten misst. Der Unterschied liegt nicht in der Technologie, sondern in Prozess-Redesign, Governance und klaren ROI-Metriken.

R&D

R&D Team

Alev-B Research & Development

Zwei Zahlen, die alles erklären

Es gibt im Moment kaum ein Technologiefeld, das so widersprüchlich kommuniziert wird wie Agentic AI. Auf der einen Seite steht eine Gartner-Prognose, nach der bis Ende 2026 rund 40 Prozent aller Enterprise-Anwendungen aufgabenspezifische KI-Agenten enthalten werden — gegenüber weniger als 5 Prozent im Jahr 2025. Das ist eine der steilsten Adoptionskurven, die ein Analystenhaus je für eine Unternehmenstechnologie vorhergesagt hat. Auf der anderen Seite steht eine zweite Gartner-Prognose, die in der öffentlichen Wahrnehmung deutlich leiser blieb: Mehr als 40 Prozent der Agentic-AI-Projekte werden bis Ende 2027 wieder eingestellt.

Diese beiden Zahlen widersprechen sich nicht. Sie beschreiben dasselbe Phänomen aus zwei Blickwinkeln. Die hohe Adoptionsrate misst, wie viele Organisationen Agenten einführen. Die hohe Abbruchrate misst, wie viele davon scheitern, bevor die Investition sich rechnet. Wer Agentic AID 2026 strategisch plant, sollte beide Zahlen nebeneinanderlegen — nicht nur die, die in die eigene Roadmap passt.

Die entscheidende Frage für jede IT-Führungskraft lautet deshalb nicht: „Sollen wir Agenten einsetzen?" Diese Frage ist durch die Marktdynamik bereits beantwortet. Die relevante Frage lautet: „Was unterscheidet die Projekte, die zu den 60 Prozent gehören, von denen, die zu den 40 Prozent gehören?" Genau diese Frage beantwortet dieser Beitrag — datengestützt und ohne den üblichen Hype.

Unsere Beratungserfahrung deckt sich mit der Datenlage: Agentic-AI-Projekte scheitern selten an der Modellqualität. Sie scheitern daran, dass Organisationen Agenten als Plug-in für bestehende, ungeeignete Prozesse behandeln — statt als Anlass, diese Prozesse neu zu denken.

Gartner erwartet bis Ende 2026 KI-Agenten in rund 40 % der Enterprise-Anwendungen — und gleichzeitig die Einstellung von über 40 % der Agentic-AI-Projekte bis Ende 2027. Beide Zahlen sind richtig. Sie messen Einführung versus Wertschöpfung.

Warum die Mehrheit der Agentic-Projekte scheitert

Die Gartner-Abbruchprognose nennt mehrere Treiber: eskalierende Kosten, unklarer Geschäftswert, unzureichende Risikokontrollen und ein erheblicher Anteil an Initiativen, die unter dem Label „Agentic AI" laufen, aber technisch nichts anderes sind als regelbasierte Automatisierung mit einem Marketing-Etikett. Dieses „Agent-Washing" verzerrt nicht nur die Marktwahrnehmung — es führt dazu, dass Budgets für Projekte freigegeben werden, deren Wertversprechen von Beginn an überzeichnet war.

In der Praxis lassen sich die Scheiterns-Muster auf drei strukturelle Ursachen verdichten. Die erste ist die Prozess-Lücke: Agenten werden auf einen bestehenden Prozess gesetzt, der nie für autonome Entscheidungen gestaltet wurde. Ein Agent, der einen kaputten Genehmigungsworkflow durchläuft, automatisiert lediglich die Dysfunktion — nur schneller. Der erwartete Effizienzgewinn bleibt aus, weil der Engpass nie der manuelle Arbeitsschritt war, sondern die Prozessarchitektur dahinter.

Die zweite Ursache ist die Governance-Lücke. Ein KI-Agent trifft Entscheidungen und löst Aktionen aus — er ruft APIs auf, schreibt in Systeme, kommuniziert mit Kunden. Ohne definierte Leitplanken, Eskalationspfade, Human-in-the-Loop-Punkte und Audit-Trails ist jeder Agent ein unkontrolliertes Risiko. Sobald der erste sichtbare Fehler passiert — eine falsche Kundenzusage, eine fehlerhafte Buchung — wird das Projekt aus Risikoerwägungen gestoppt, oft bevor es überhaupt produktiv skalieren konnte.

Die dritte Ursache ist die Metrik-Lücke. „Wir setzen KI-Agenten ein" ist kein Geschäftsziel. Ohne eine vorab definierte ROI-Hypothese — welche Kennzahl soll sich um wie viel verbessern, bis wann, gemessen woran — lässt sich nach zwölf Monaten nicht belegen, ob die Initiative erfolgreich war. Folge-Investitionen werden dann politisch unmöglich, selbst wenn der Agent technisch funktioniert. Projekte sterben nicht, weil sie scheitern — sie sterben, weil niemand ihren Erfolg nachweisen kann.

Die McKinsey-Zahl: 5,8× ROI — aber an Bedingungen geknüpft

Der häufigste Fehler in der Diskussion um Agentic AI ist die selektive Zitierung. Wer nur die Gartner-Abbruchprognose anführt, übersieht, dass eine Minderheit von Organisationen außergewöhnliche Ergebnisse erzielt. McKinsey beziffert den Return on Investment führender KI-Implementierungen auf das 5,8-Fache innerhalb von 14 Monaten. Das ist keine inkrementelle Verbesserung — das ist eine Größenordnung, die jede Portfolio-Priorisierung verändert.

Entscheidend ist jedoch die Bedingung, unter der diese Zahl entsteht. McKinseys State-of-AI-Befunde zeigen konsistent, dass dieser ROI nicht aus dem bloßen Einsatz von Agenten resultiert. Er entsteht dort, wo Organisationen die zugrunde liegenden Prozesse neu gestalten und ein belastbares Governance-Modell etabliert haben. Wer einen Agenten auf einen unveränderten Prozess setzt, erntet Pilot-Demos. Wer den Prozess um die Fähigkeiten des Agenten herum neu denkt, erntet den 5,8-fachen Return.

Diese Differenzierung ist die zentrale Botschaft dieses Beitrags. Die Spreizung zwischen der scheiternden Mehrheit und der erfolgreichen Minderheit ist nicht zufällig und auch nicht primär eine Frage von Budget oder Modellzugang. Sie ist die direkte Konsequenz aus drei Entscheidungen, die zu Projektbeginn getroffen werden — oder eben nicht: Wird der Prozess neu gestaltet? Ist Governance von Tag eins eingebaut? Sind ROI-Metriken vor dem ersten Sprint definiert?

Dieselbe Logik kennen erfahrene Delivery-Verantwortliche aus der Diskussion um KI-gestützte Softwareentwicklung: Auch dort erhöht KI den Durchsatz, verschlechtert aber die Lieferstabilität, wenn die zugrunde liegenden Engineering-Fundamentals fehlen. Agentic AI ist kein Sonderfall — es ist dasselbe Muster auf der Prozessebene. Der Verstärker-Effekt wirkt in beide Richtungen.

McKinsey misst 5,8× ROI in 14 Monaten — nicht für den Einsatz von Agenten an sich, sondern für Implementierungen mit Prozess-Redesign und belastbarem Governance-Modell. Die Bedingung ist die eigentliche Nachricht.

Erfolgsfaktoren versus Scheiterns-Muster

Aus der Datenlage und der Beratungspraxis lässt sich ein klares Gegenüber von Erfolgs- und Scheiterns-Mustern ableiten. Die folgende Tabelle ist kein Reifegradmodell, sondern ein Diagnose-Raster: Wer sich überwiegend in der rechten Spalte wiederfindet, gehört statistisch zu den 40 Prozent.

DimensionErfolgs-Muster (die 60 %)Scheiterns-Muster (die 40 %)
ProzessProzess wird vor dem Rollout um die Agenten-Fähigkeiten neu gestaltet; Engpässe sind identifiziert.Agent wird auf einen unveränderten, oft dysfunktionalen Prozess gesetzt; Automatisierung der Dysfunktion.
GovernanceLeitplanken, Eskalationspfade, Human-in-the-Loop und Audit-Trail von Tag eins definiert.Governance als nachgelagertes Thema; erster sichtbarer Fehler führt zum Projektstopp.
ROI-MetrikKonkrete Kennzahl, Zielwert und Messmethode vor dem ersten Sprint festgelegt.„KI-Agenten einführen" als Ziel; kein Business Case, kein Nachweis nach 12 Monaten.
ScopeEng begrenzter, gut strukturierter Use Case mit klarer Entscheidungsarchitektur.Breiter, vager Scope; Agent soll viele unstrukturierte Aufgaben gleichzeitig lösen.
SponsoringBusiness-Sponsor mit Budgetverantwortung; Agent löst ein priorisiertes Geschäftsproblem.IT-getriebenes Experiment ohne Business-Eigentümer; Technologie sucht Anwendungsfall.
DatenbasisRelevante Daten und Systemzugriffe sind verfügbar, dokumentiert und qualitätsgesichert.Datenqualität wird vorausgesetzt; Lücken zeigen sich erst im Pilotbetrieb.

„Gehöre ich zu den 40 %?" — Der Reifegrad-Check

Bevor Budget in ein Agentic-AI-Projekt fließt, sollte jede Organisation eine ehrliche Standortbestimmung vornehmen. Die folgenden Leitfragen sind aus den Erfolgs- und Scheiterns-Mustern abgeleitet. Sie ersetzen kein vollständiges Assessment, geben aber eine belastbare Indikation, auf welcher Seite der 40-zu-60-Grenze ein geplantes Projekt steht.

Beantworten Sie die Fragen pro geplantem Use Case, nicht pauschal für die Organisation. Ein Unternehmen kann für einen klar abgegrenzten Dokumenten-Use-Case bereit sein und für einen kundenkommunikationsnahen Use Case gleichzeitig nicht.

Wer eine der drei Dimensionen — Prozess, Governance, ROI-Metrik — zu Projektbeginn nicht belastbar beantworten kann, plant statistisch ein Projekt aus der 40-Prozent-Gruppe. Die gute Nachricht: Alle drei Lücken sind vor dem ersten Sprint schließbar.

Prozess-Dimension

Können Sie den Zielprozess End-to-End beschreiben, inklusive aller Entscheidungspunkte und Ausnahmen? Wenn der Prozess nur als implizites Wissen einzelner Personen existiert, ist er weder automatisierbar noch durch einen Agenten zuverlässig ausführbar. Ein dokumentierter, modellierter Prozess ist die Mindestvoraussetzung.

Haben Sie identifiziert, wo der eigentliche Engpass liegt — und ist es tatsächlich der manuelle Arbeitsschritt, den der Agent übernehmen soll? Wenn der Engpass in einer Genehmigungsschleife, einer Systemintegration oder einer unklaren Verantwortlichkeit liegt, wird der Agent das Problem nicht lösen, sondern lediglich verschieben.

Governance-Dimension

Ist definiert, welche Aktionen der Agent autonom ausführen darf und welche zwingend einen menschlichen Freigabepunkt erfordern? Eine fehlende Antwort auf diese Frage ist der häufigste Grund für den abrupten Projektstopp nach dem ersten sichtbaren Fehler.

Existiert ein Audit-Trail, der jede Agenten-Entscheidung nachvollziehbar protokolliert? Ohne Nachvollziehbarkeit ist weder eine Fehleranalyse noch ein Compliance-Nachweis möglich — und in regulierten Branchen ist das ein hartes Ausschlusskriterium, kein Nice-to-have.

ROI-Dimension

Können Sie in einem Satz formulieren, welche Kennzahl sich um welchen Betrag bis zu welchem Zeitpunkt verbessern soll? Wenn diese Aussage nicht möglich ist, fehlt der Business Case — und damit die Grundlage für jede Folge-Investitionsentscheidung.

Ist die Messmethode unabhängig vom Projektteam definiert? Selbstgemessener Erfolg überzeugt kein Steering Committee. Eine vorab vereinbarte, neutrale Messlogik schützt das Projekt im Moment der Budgetverteidigung.

Der Gegenplan: In sieben Schritten in die 60 %

Die folgende Sequenz ist kein generischer Projektplan, sondern eine Reihenfolge, die genau die drei strukturellen Ursachen adressiert, an denen die Mehrheit scheitert. Die Reihenfolge ist nicht beliebig: Jeder Schritt entblockt den nächsten. Wer Schritte überspringt, baut die Scheiterns-Muster systematisch ein.

  1. 1Use Case scharf schneiden, nicht breit. Wählen Sie einen eng begrenzten Prozess mit klarer Entscheidungsarchitektur und vorhandenen, qualitätsgesicherten Daten. Ein scharf geschnittener Use Case mit nachweisbarem Wert schlägt jedes breite Vorhaben, das alles ein bisschen verbessern soll.
  2. 2Prozess vor Agent neu gestalten. Modellieren Sie den Zielprozess so, wie er mit einem fähigen Agenten aussehen würde — nicht wie er heute manuell abläuft. Das Redesign ist der Hebel, der den 5,8-fachen ROI von der Pilot-Demo trennt. Dieser Schritt ist nicht verhandelbar.
  3. 3ROI-Hypothese vor dem ersten Sprint fixieren. Definieren Sie die Zielkennzahl, den Zielwert, den Zeithorizont und die unabhängige Messmethode schriftlich. Lassen Sie diese Hypothese vom Business-Sponsor gegenzeichnen, bevor Entwicklungsbudget fließt.
  4. 4Governance als Architektur, nicht als Anhang. Definieren Sie Leitplanken, autonome versus freigabepflichtige Aktionen, Eskalationspfade und Audit-Trail bevor die erste Agenten-Logik entsteht. Governance ist die Bedingung für Skalierung, nicht ihre Bremse.
  5. 5Human-in-the-Loop bewusst platzieren. Setzen Sie menschliche Freigabepunkte dort, wo Fehlerkosten hoch und Entscheidungen schwer reversibel sind — und entfernen Sie sie dort, wo sie nur Reibung erzeugen. Pauschale Freigabe für alles macht den Agenten wertlos; pauschale Autonomie macht ihn gefährlich.
  6. 6Eng begrenzt produktiv schalten und messen. Bringen Sie den Agenten in einem klar abgegrenzten Echtbetrieb live und messen Sie gegen die vorab fixierte ROI-Hypothese. Ein produktiver, gemessener Mini-Scope schlägt jeden umfangreichen Pilot, der nie die Laborbedingungen verlässt.
  7. 7Skalierungsentscheidung datengestützt treffen. Entscheiden Sie auf Basis der gemessenen Ergebnisse, nicht auf Basis von Demo-Begeisterung, ob, wie und wohin skaliert wird. Diese Disziplin trennt eine reproduzierbare Fähigkeit von einem teuren Einmaleffekt.

Die organisatorischen Voraussetzungen hinter dem Gegenplan

Der Gegenplan funktioniert nur auf einer Organisation, die bestimmte Grundvoraussetzungen mitbringt. Diese Voraussetzungen sind exakt dieselben, die ein strukturiertes AI Readiness Assessment systematisch vermisst: eine belastbare Datenstrategie, definierte Verantwortlichkeiten für KI-Entscheidungen, eine Prozesslandschaft, die dokumentiert genug ist, um neu gestaltet zu werden, und ein Governance-Rahmen, der algorithmische Entscheidungen abdeckt.

Organisationen, die diese Voraussetzungen nicht erfüllen, sollten nicht zuerst einen Agenten bauen, sondern zuerst die Lücke schließen, die den Agenten später blockieren würde. Aus Beratungssicht ist das die wirtschaftlichste Reihenfolge: Eine vermiedene gescheiterte Agentic-Initiative kostet erfahrungsgemäß ein Vielfaches dessen, was die vorgelagerte Standortbestimmung kostet.

Besonders unterschätzt wird die Verbindung zur Delivery-Governance. Ein Agent, der in produktive Systeme schreibt, ist Software in Produktion — mit allem, was das an Test-, Release- und Monitoring-Disziplin verlangt. Organisationen mit reifer Delivery-Governance integrieren Agenten als kontrollierte Komponenten ihrer Lieferkette. Organisationen ohne diese Reife betreiben Agenten als unkontrollierte Black Boxes neben der Lieferkette — und genau dort entstehen die sichtbaren Fehler, die Projekte beenden.

Dieselbe Disziplin, die im Spec-Driven-Development-Diskurs gefordert wird — KI-Output an versionierte, prüfbare Spezifikationen binden, statt ihn frei laufen zu lassen — gilt für Agenten in Geschäftsprozessen analog. Die Spezifikation ist hier der neu gestaltete Prozess plus das Governance-Modell. Ohne diese Bindung wird der Agent zur Quelle nicht nachvollziehbarer Entscheidungen, und Nicht-Nachvollziehbarkeit ist in den meisten Organisationen ein Projekt-Killer.

Fazit: Die 40 % sind kein Schicksal, sondern eine Entscheidung

Die Gartner-Abbruchprognose wird in den nächsten zwei Jahren von vielen als Beleg gegen Agentic AI zitiert werden. Diese Lesart ist falsch. Die Prognose ist kein Argument gegen Agenten — sie ist ein Argument gegen unvorbereitete Agenten. Die parallele McKinsey-Zahl beweist, dass außergewöhnliche Ergebnisse erreichbar sind, sobald die drei strukturellen Ursachen adressiert werden.

Die Trennlinie zwischen den 40 und den 60 Prozent verläuft nicht durch die Technologie. Sie verläuft durch drei Entscheidungen, die jede Organisation vor dem ersten Sprint selbst in der Hand hat: ob der Prozess neu gestaltet wird, ob Governance Architektur statt Anhang ist und ob ROI-Metriken vor dem Start feststehen. Unsere Empfehlung an IT-Führungskräfte ist deshalb unaufgeregt und konkret: Investieren Sie die ersten Wochen eines Agentic-Vorhabens nicht in Modelle, sondern in diese drei Entscheidungen. Genau dort entscheidet sich, auf welcher Seite der Prognose Ihr Projekt landet.

Die wichtigsten Erkenntnisse

  • Gartner erwartet KI-Agenten in rund 40 % der Enterprise-Anwendungen bis Ende 2026 — und die Einstellung von über 40 % der Agentic-AI-Projekte bis Ende 2027. Beide Zahlen messen dasselbe Phänomen.
  • Agentic-Projekte scheitern an drei strukturellen Ursachen: fehlendes Prozess-Redesign, fehlende Governance-Architektur und fehlende ROI-Metriken — nicht an Modellqualität.
  • McKinseys 5,8× ROI in 14 Monaten entsteht ausschließlich bei Prozess-Redesign plus belastbarem Governance-Modell. Die Bedingung ist die eigentliche Nachricht.
  • Ein ehrlicher Reifegrad-Check pro Use Case zeigt vor dem Budget, ob ein Projekt statistisch zur 40-Prozent-Gruppe gehört.
  • Der Gegenplan ist sequenziell: scharfer Scope, Prozess-Redesign, fixierte ROI-Hypothese, Governance als Architektur, bewusster Human-in-the-Loop, gemessener Mini-Scope, datengestützte Skalierung.
  • Die organisatorischen Voraussetzungen für Erfolg sind identisch mit denen, die ein AI Readiness Assessment und reife Delivery-Governance vermessen.

Häufig gestellte Fragen

Nein. Die Prognose ist kein Argument gegen Agentic AI, sondern gegen unvorbereitete Einführung. Die parallele Adoptionsprognose und die McKinsey-ROI-Zahl zeigen, dass eine Minderheit außergewöhnliche Ergebnisse erzielt. Wer wartet, verliert den Lerneffekt; wer unvorbereitet startet, landet in der Abbruchgruppe. Die richtige Antwort ist nicht Warten, sondern vorbereiteter Start mit scharfem Scope, Prozess-Redesign und definierter ROI-Metrik.

Dokumentation ist die Mindestvoraussetzung, nicht das Ziel. Prozess-Redesign bedeutet, den Zielprozess so zu modellieren, wie er mit einem fähigen Agenten aussähe — nicht den heutigen manuellen Ablauf eins zu eins zu automatisieren. Genau dieser Schritt trennt laut McKinsey-Datenlage die Implementierungen mit 5,8-fachem ROI von den Pilot-Demos. Wer den Prozess unverändert lässt, automatisiert die bestehende Dysfunktion nur schneller.

Ein echter Agent trifft eigenständig Entscheidungen über Handlungssequenzen, nutzt Werkzeuge und passt sein Vorgehen an Kontext und Zwischenergebnisse an. Regelbasierte Automatisierung mit einem KI-Etikett folgt dagegen einem fixen, vorab definierten Ablauf. Die Prüffrage: Würde sich das Verhalten ändern, wenn sich Eingangslage oder Zwischenergebnis ändern? Falls nein, ist es Automatisierung mit Marketing-Label — mit entsprechend überzeichnetem Wertversprechen.

Drei Elemente sind nicht verhandelbar: erstens eine klare Trennung zwischen autonom ausführbaren und freigabepflichtigen Aktionen, zweitens definierte Eskalationspfade für Ausnahmen und Fehler, drittens ein lückenloser Audit-Trail jeder Agenten-Entscheidung. Ohne diese drei führt der erste sichtbare Fehler typischerweise zum sofortigen Projektstopp aus Risikoerwägungen — meist bevor die Investition sich rechnen konnte.

Eine belastbare ROI-Metrik benennt vier Dinge schriftlich und vor dem ersten Sprint: die konkrete Zielkennzahl, den angestrebten Zielwert, den Zeithorizont und eine vom Projektteam unabhängige Messmethode. Beispielhafte Form: „Kennzahl X verbessert sich um Y Prozent innerhalb von Z Monaten, gemessen durch eine neutrale Instanz." Selbstgemessener Erfolg überzeugt kein Steering Committee und blockiert Folge-Investitionen.

In den meisten Fällen ja. Die organisatorischen Voraussetzungen für erfolgreiche Agenten — belastbare Datenstrategie, definierte KI-Verantwortlichkeiten, dokumentierte Prozesslandschaft, Governance-Rahmen — sind exakt die Dimensionen, die ein strukturiertes AI Readiness Assessment vermisst. Eine vermiedene gescheiterte Agentic-Initiative kostet erfahrungsgemäß ein Vielfaches der vorgelagerten Standortbestimmung. Das Assessment ist die wirtschaftlichste Reihenfolge.

Ein Agent, der in produktive Systeme schreibt, ist Software in Produktion und unterliegt damit denselben Anforderungen an Test-, Release- und Monitoring-Disziplin. Organisationen mit reifer Delivery-Governance integrieren Agenten als kontrollierte Komponenten ihrer Lieferkette. Fehlt diese Reife, laufen Agenten als unkontrollierte Black Boxes — und genau dort entstehen die sichtbaren Fehler, die Projekte vorzeitig beenden.

Agentic AIAI AgentsAI ROIKI-ProjekteAI GovernanceGartner

Bereit für Ihr Assessment?

Nutzen Sie unsere interaktiven Templates, um den Reifegrad Ihrer IT-Organisation zu messen — mit automatischen Scores, KI-Empfehlungen und professionellen PDF-Reports.