Eine gemeinsame Studie von OpenAI und der Georgia Tech schätzt die weltweiten Schäden durch KI-Halluzinationen im Jahr 2024 auf rund 67 Milliarden US-Dollar. Halluzinationen – also Antworten, die plausibel klingen, aber faktisch falsch sind – entstehen nicht aus bösem Willen, sondern aus der Art, wie Sprachmodelle funktionieren: Sie berechnen, welches Wort statistisch als nächstes kommt, ohne zu prüfen, ob das Ergebnis stimmt.
Für Unternehmen, die KI-Agenten einsetzen wollen, ist diese Zahl kein Argument gegen die Technologie. Sie ist ein Argument für Vorbereitung. Denn die entscheidende Frage ist nicht, ob KI-Agenten Fehler machen – das tun sie. Die Frage ist, wie sich diese Fehler auf ein beherrschbares Maß reduzieren lassen.
Was KI-Agenten heute leisten
Ein KI-Agent ist ein System, das eigenständig Aufgaben bearbeitet – nicht nach starren Regeln, sondern auf Basis von Kontext und Zusammenhängen. Er kann Kundenanfragen analysieren und die richtige Leistung zuordnen, Informationen aus verschiedenen Quellen zusammenführen, Entwürfe für Dokumente erstellen oder mehrstufige Prozesse vorbereiten.
Die Stärke liegt in der Fähigkeit, Sprache zu verstehen und mit strukturierten Daten zu verknüpfen. Stellen Sie sich einen Kunden vor, der per E-Mail nach einem Beratungsangebot fragt, aber eine Leistung beschreibt, die in Ihrem Unternehmen anders heißt. Ein regelbasierter Chatbot scheitert an der abweichenden Formulierung. Ein KI-Agent erkennt die Absicht, ordnet sie der richtigen Leistung zu und kann eine passende Antwort vorbereiten – vorausgesetzt, er hat Zugriff auf ein strukturiertes Leistungsmodell mit Beschreibungen, Synonymen und Verknüpfungen.
Ähnlich funktioniert es bei internen Aufgaben. Ein Agent kann einem neuen Mitarbeiter erklären, wie ein bestimmter Prozess abläuft – nicht weil er den Prozess „erlebt“ hat, sondern weil der Prozess als Datensatz vorliegt: mit Schritten, Zuständigkeiten und Abhängigkeiten. Er kann Angebotsentwürfe erstellen, weil er weiß, welche Leistungen kombinierbar sind und welche Tonalität zur Marke passt.
Wo die Grenzen liegen
KI-Agenten treffen keine Entscheidungen im menschlichen Sinne. Sie haben kein Urteilsvermögen, keine Erfahrung und keine Verantwortung. Was sie können, ist Muster erkennen, Wahrscheinlichkeiten berechnen und auf dieser Basis Vorschläge machen. Was sie nicht können, ist einschätzen, ob ein Vorschlag im konkreten Fall angemessen ist.
Das zeigt sich besonders deutlich beim Thema Halluzinationen. Je nach Anwendungsfall schwankt die Zuverlässigkeit desselben KI-Modells zwischen 35 und 98,5 Prozent. Der Unterschied hängt nicht vom Modell ab, sondern von der Qualität der Daten, auf die es zugreift. Ein Agent, der auf allgemeines Weltwissen zurückgreifen muss, halluziniert häufiger als einer, der auf eine sauber strukturierte Wissensbasis zugreift und nur innerhalb dieser Grenzen antwortet.
Für Unternehmen bedeutet das: KI-Agenten sind keine Ersatzmitarbeiter, die man einschaltet und sich selbst überlässt. Sie sind Werkzeuge, die innerhalb definierter Grenzen arbeiten – und deren Ergebnisse geprüft werden müssen, besonders in sensiblen Bereichen. Die Anwaltskanzlei, die KI-generierte Gerichtszitate nicht überprüfte und dafür sanktioniert wurde, ist kein Einzelfall, sondern ein Muster: Wer KI ohne Kontrollmechanismen einsetzt, riskiert Fehler mit realen Konsequenzen.
Warum die Datengrundlage den Unterschied macht
Die Studie von OpenAI und Georgia Tech identifiziert eine zentrale Ursache für Halluzinationen: Sprachmodelle werden darauf trainiert, immer eine Antwort zu geben – auch wenn sie unsicher sind. Sie raten lieber, als zuzugeben, dass sie etwas nicht wissen.
In der Praxis lässt sich dieses Problem deutlich reduzieren, indem man dem Agenten eine klare Wissensbasis gibt und seine Antworten auf diese Basis beschränkt. Statt auf das gesamte Weltwissen eines Sprachmodells zuzugreifen, arbeitet der Agent nur mit den Daten des Unternehmens – dem Digitalen Zwilling. Er kennt die Leistungen, die Prozesse, die Zuständigkeiten und die Markenwerte. Und wenn eine Frage außerhalb dieses Rahmens liegt, signalisiert er das, statt eine Antwort zu erfinden.
Dieses Prinzip – im Fachjargon Retrieval-Augmented Generation (RAG) genannt – ist kein theoretisches Konzept, sondern gelebte Praxis in gut aufgesetzten KI-Projekten. Die Qualität der Ergebnisse hängt direkt von der Qualität der Datenstruktur ab. Ein Agent, der auf widersprüchliche Informationen zugreift, produziert widersprüchliche Antworten. Ein Agent, der auf eine Single Source of Truth zugreift, liefert konsistente Ergebnisse.
Realistische Erwartungen statt Technologie-Hype
Die Boston Consulting Group hat eine Formel geprägt, die den Punkt trifft: 70 Prozent des KI-Erfolgs hängen an Menschen und Prozessen, 20 Prozent an Technologie, 10 Prozent an Algorithmen. KI-Agenten sind leistungsfähige Werkzeuge – aber sie lösen keine Strukturprobleme. Sie machen Strukturprobleme sichtbar.
Wer seine Leistungen nicht sauber beschrieben hat, wird das durch falsche Agenten-Antworten merken. Wer seine Prozesse nicht dokumentiert hat, wird merken, dass der Agent sie nicht abbilden kann. Wer seine Markenwerte nicht definiert hat, wird merken, dass der Agent in einer Tonalität kommuniziert, die nicht zum Unternehmen passt.
Die richtige Erwartung an KI-Agenten ist deshalb nicht, dass sie alles können – sondern dass sie genau das können, was man ihnen an strukturiertem Wissen zur Verfügung stellt. Nicht mehr, aber auch nicht weniger.
