Sprachmodelle glänzen oft in komplexen Aufgaben – und scheitern an simplen Fragen. Salesforce AI Research will diese „erratische Intelligenz“ bändigen. Mit eVerse entsteht ein Simulationsframework, das KI-Agenten messbar zuverlässiger machen soll.
Adesso und Salesforce präsentierten bei der Agentforce World Tour in Düsseldorf ihre „Agentic Enterprise Fabrics“-Initiative.
(Bild: Adesso SE)
KI-Agenten und Chatbots geben mitunter inkorrekte Antworten, reagieren aber uneinsichtig gegenüber Kritik. Um solches Verhalten frühzeitig aufzudecken, hat Salesforce AI Research ein Simulationsframework vorgestellt, das Fähigkeiten und Konsistenz von Agenten durch synthetische Daten, realistische Belastungstests und Reinforcement Learning optimieren soll. Das Testen können Partner als Service anbieten.
Dass für dieses Testframework überhaupt eine Notwendigkeit besteht, die Partner ausnutzen können, zeigt die tägliche Erfahrung von Nutzern, die einen Chatbot bedienen oder KI-Agenten einsetzen. Die Ergebnisse sind meist durchwachsen und erfordern durchweg eine Prüfung durch Menschen.
Auch wenn KI-Modelle immer ausgefeilter werden, besteht nämlich eine merkwürdige Herausforderung weiter: Systeme, die Mathematik auf Doktoratsniveau lösen können, scheitern an überraschend einfachen Aufgaben. Fragt man ein führendes Sprachmodell das berühmte Rätsel „Wo kommt Weihnachten vor Thanksgiving?“, antwortet es korrekt: „Im Wörterbuch“ – weil alphabetisch „C“ (für Christmas) vor „T“ steht.
Vertauscht man die Wörter jedoch – fragt also: „Wo kommt Thanksgiving vor Weihnachten?“ – erklärt dasselbe Modell selbstbewusst: „Im Wörterbuch komme Thanksgiving alphabetisch vor Christmas (Weihnachten).“ Dieses Phänomen, das KI-Forscher „erratische Intelligenz“ (jagged intelligence) nennen, zeigt scharfe Gipfel an Brillanz neben unerwarteten Tälern der Schwäche.
Für Unternehmen ist diese Inkonsistenz allerdings kein theoretisches Problem, denn sie ist operativ relevant. Wenn KI-Agenten Kundendienstgespräche führen, Verkaufsprozesse abwickeln oder die Abrechnung im Gesundheitswesen unterstützen, erzeugt erratische Intelligenz reale Geschäftsrisiken. Ein Agent kann komplexe, mehrstufige Aufgaben einen Moment lang perfekt meistern – und im nächsten Moment bei einer einfachen Anfrage stolpern. Diese Unvorhersehbarkeit ist ein Ausschlusskriterium für Unternehmen, in denen Zuverlässigkeit ebenso wichtig ist wie Leistungsfähigkeit.
Eine neue Testmethodik
Bei Salesforce AI Research wurde nun eine Methodik entwickelt, um diese Risiken zu mindern. Mit eVerse hat Salesforce ein Unternehmens-Simulationsframework vorgestellt, das KI-Agenten wie Spitzensportler trainiert. Es optimiere sie sowohl auf Fähigkeiten als auch auf Konsistenz (siehe die Abbildung der Matrix) durch drei miteinander verbundene Schritte: Synthetisieren, Messen und Trainieren (Abbildung). Das Framework ist keine Theorie, sondern befindet sich bereits im Einsatz.
Silvio Savarese hat es in seinem Blog vorgestellt. Er ist Executive Vice President und Chief Scientist von Salesforce AI Research sowie Adjunct Faculty für Informatik an der Stanford University, wo er bis Winter 2021 als Associate Professor mit Lehrauftrag tätig war. Im Folgenden werden seine Ausführungen zusammengefasst.
Salesforce eVerse soll die Leistung von Chatbots und Agenten durch Trainieren des Modells, Synthetisieren seiner Daten und das Messen der Testergebnisse optimieren.
(Bild: Salesforce)
Schritt 1: Synthetisieren
Um erstklassige KI-Agenten zu entwickeln, braucht es erstklassige Trainingsumgebungen. So wie Formel-1-Fahrer Tausende Stunden in hochentwickelten Simulatoren verbringen, bevor sie in Monaco antreten, benötigen Unternehmens-KI-Agenten realistische Übungsumgebungen, die die Komplexität echter Geschäftsabläufe widerspiegeln.
Da Vertrauen bei Salesforce oberste Priorität hat, hat Savareses Team einen Trainingsansatz entwickelt, der echte Kundendaten niemals gefährdet. „Unsere jüngste Forschungsarbeit CRMArena-Pro ist ein gutes Beispiel dafür. Sie schafft vollständig synthetische Trainingsumgebungen mit realistischen Kundendaten, mehrstufigen Workflows und den Randfällen, die Geschäftsprozesse unberechenbar machen.“ Agenten lernen in Umgebungen, die echten Unternehmenssystemen ähneln – während Firmen- und Kundendaten privat, sicher und vollständig unberührt bleiben.
Schritt 2: Messen
Synthetisierung von Daten allein reicht nicht aus. Forscher müssen die Leistung von Agenten rigoros über die für Unternehmen wichtigsten Szenarien hinweg messen. Dazu gehört eine der laut Savarese kritischsten – und schwierigsten – Modalitäten: Sprachinteraktionen.
Sprachgespräche bringen Komplexitätsebenen mit sich, die bei textbasierten Tests nicht auftreten: Hintergrundgeräusche, unterschiedliche Akzente, Übersetzungsfehler, schlechte Verbindungen, mehrere Sprecher. eVerse simuliert diese realistischen Sprachinteraktionen und erzeugt synthetische Telefongespräche, die bemerkenswert menschlich klingen – und Agenten in umfassenden Unternehmensszenarien testen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Diese Messinfrastruktur arbeitet im Hintergrund im gesamten Salesforce-Ökosystem. „So haben wir die Voice-Funktionen von Agentforce vor dem Launch validiert – mit Tausenden synthetischer Gespräche, um sicherzustellen, dass Agenten reale Komplexität mit hoher Leistungsfähigkeit und unerschütterlicher Konsistenz bewältigen“, berichtet der Forscher.
Schritt 3: Trainieren
Nachdem die Messung Leistungsdefizite aufgedeckt hat, schließt die eVerse-Trainingsengine diese durch Reinforcement Learning, das von menschlicher Expertise geleitet wird. Unsere Forschung zeigt beeindruckende Verbesserungen: 69 Prozent bessere Leistung bei Unternehmenstasks (von 19 Prozent auf 88 Prozent Erfolgsrate). Derzeit testen die Forscher eVerse gemeinsam mit Kunden. „Ein Beispiel ist UCSF Health, wo wir mit Fachexperten zusammenarbeiten, um KI zu trainieren und zu optimieren, die die komplizierte Abrechnung im Gesundheitswesen vereinfachen und verbessern soll.“ Näheres dazu gleich.
Savarese weiter: „Dieser kontinuierliche Kreislauf – Umgebungen synthetisieren, Leistung messen, Lücken trainieren – verwandelt Agenten von generischen Sprachmodellen in unternehmensspezifisch optimierte Systeme, die bereit für den Produktionseinsatz sind.“
Erprobung an der Uniklinik von San Francisco
„Bei verantwortungsvollem Einsatz glauben wir, dass KI unseren Teams helfen kann, einen der komplexesten Bereiche des Gesundheitswesens zu vereinfachen – und ein Abrechnungserlebnis zu schaffen, das nahtloser wirkt und wirklich patientenzentriert ist“, sagt Dr. Sara Murray, VP & Chief Health AI Officer an der Uniklinik von San Francisco (UCSF Health, https://www.ucsfhealth.org, eine der zehn besten Kliniken der USA.
Das eVerse-Framework wird in einem Pilotprojekt an der Uniklinik von San Francisco erprobt. Das Forscherteam arbeitet mit klinischen Experten zusammen, um die KI-Agenten zu trainieren und zu verfeinern. Im Mittelpunkt des Projekts steht das Abrechnungswesen – ein Fachbereich, in dem Zuverlässigkeit und Genauigkeit nicht leicht zu erzielen, aber rigorose Vorgaben sind.
„Die Lernmaschine“, so Savarese, „lernt fortwährend aus der menschlichen Rückkopplung im Kontext und dem Ablauf der real verrichteten Arbeit.“ Das System verstärkt korrektes Verhalten und passt sich mit der Zeit komplexeren Szenarien an. „Erste Ergebnisse zeigen eine 70-prozentige Beibehaltungsquote angewandter Lerninhalte und über 60 Prozent Verallgemeinerung in neuen Fällen. Das demonstriert messbaren Fortschritt in Richtung einer robusten und vertrauenswürdigen Automatisierung.“
„Unsere Partnerschaft mit UCSF Health demonstriert, wie sich angewandte Wissenschaft direkt in Wertschöpfung für Kunden ummünzen lässt“, sagt Savarese. „Es beweist zudem, dass, wenn man Agenten in Umgebungen trainiert, die die Komplexität der realen Welt widerspiegeln, sie zuverlässig arbeiten, wenn es darauf ankommt.“
Der Weg zur Enterprise General Intelligence
Savarese weiter: „Diese Arbeit führt unsere Vision dessen weiter, was wir Enterprise General Intelligence (EGI) nennen: KI, die für geschäftliche Anwendungen optimiert ist und sowohl bei der Leistungsfähigkeit als auch bei der Konsistenz glänzt. Während Consumer-KI breite, allgemeine Fähigkeiten priorisiert, verlangt Enterprise-KI zuverlässige Leistung in spezifischen, komplexen, mehrstufigen Workflows – in denen Inkonsistenz ein echtes Geschäftsrisiko darstellt.“
eVerse adressiere diese Herausforderung, indem Agenten entlang beider Dimensionen gleichzeitig weiterentwickelt werden. Generische LLM-Agenten schneiden in Geschäftskontexten unterdurchschnittlich ab: hohe Fähigkeit, aber geringe Konsistenz – das „Wunderkind-Problem“: brillant, wenn es funktioniert, aber unzuverlässig, wenn es darauf ankommt. eVerse-trainierte Agenten erreichen in der Matrix (s. Abb.) das „Champion-Quadrant“: hohe Leistungsfähigkeit kombiniert mit hoher Konsistenz – also genau das, was Unternehmen benötigen.
Diese Matrix zeigt vier Verhaltensweisen von Chatbots bzw. Agenten, bemessen nach den Vorgaben „Fähigkeit“ (capability) und „Beständigkeit“ (consistency). Daraus ergeben sich die Profile „Generalist“, „Arbeitspferd“, „Wunderkind“ (prodigy) und „Champion“.
(Bild: Salesforce)
Agenten-Initiative bei Adesso
Vor diesem Hintergrund hat das deutsche SystemhausAdesso eine neue Kompetenz-Unit „Agentic Enterprise“ eingerichtet. Diese soll Unternehmen dabei unterstützen, „Salesforce-KI-Agenten gewinnbringend einzusetzen und eine effiziente Zusammenarbeit zwischen Mitarbeitern und KI-Agenten zu ermöglichen“, so Benedikt Bonnmann, Mitglied des Vorstands der Adesso SE. Im Mittelpunkt stehe die intelligente Verbindung bestehender IT-Architekturen mit innovativen Technologien, die Nutzung vorhandener Unternehmensdaten, die Leistungsfähigkeit moderner Sprachmodelle (LLMs) sowie ein Verständnis für Unternehmensprozesse und Change-Management.
Die neue Unit richtet sich an Kunden in Deutschland, Österreich und der Schweiz. Zum Start liege der Fokus auf den Branchen Manufacturing Industry, Financial Services und Life Sciences. Kunden profitierten dabei in allen Bereichen: Die technologischen Portfolios der Salesforce-Plattform – mit Agentforce und Data360 im Zentrum – würden „mit der breiten Technologie- und Integrationskompetenz sowie dem tiefen Branchenwissen von Adesso vereint“.
Großes Potenzial
„Der Einsatz einer solchen Testumgebung ist für uns absolut vorstellbar, denn auch bei ‚klassischen‘ Projekten führt kein Weg ums Testen herum“, sagt Niclas Breit, Head of Marketing beim deutschen Lösungshaus Salesfive. „Für unsere Kunden im (gehobenen) Mittelstand und Enterprise-Segment ist das möglicherweise sogar eine strategische Notwendigkeit, denn manuelle Tests skalieren bei dieser Unternehmensgröße nicht mehr. Das Risiko für Fehler im Live-Betrieb ist zu hoch.“
Breit zählt weitere Vorteile auf: „Für eVerse spricht vor allem die Risikominimierung. KI-Agenten verhalten sich nämlich nicht deterministisch. Sie können halluzinieren oder unerwartet reagieren. In einer Simulation interagieren sie hingegen mit synthetischen Profilen statt echten Menschen. So könnten Probleme identifiziert werden, bevor ein Schaden entsteht.“
Auch der Aspekt der Sicherheit spielt für Breit eine Rolle. „Ein weiterer Punkt ist die Erkennung von Leistungslücken. KI-Modelle lösen oft komplexe Aufgaben gut, scheitern aber an einfachen Dingen. Simulationen machen diese Grenzen sichtbar. Zudem ist der Datenschutz ein Argument. Da wir mit synthetischen Daten testen, bleiben echte Kundendaten unberührt – und das ist gerade im DACH-Raum entscheidend.“
Das Wettbewerbsgebot
Silvio Savareses Resümee: „Die Organisationen, die in der Agenten-Ära der KI führen werden, sind nicht zwangsläufig diejenigen mit den fortschrittlichsten Modellen, sondern jene, die früh erkannt haben, dass Exzellenz in der Enterprise-KI anspruchsvolle Trainingsumgebungen erfordert, die die Lücke zwischen Simulation und Realität schließen.“
Diese Forschungsarbeit mache KI-Agenten wirklich unternehmensbereit: vertrauenswürdig, zuverlässig und in der Geschäftslogik verankert. Die Zukunft gehöre Agenten, die in Umgebungen trainiert wurden, die Millionen realistischer Geschäftsszenarien simulieren, von Domänenexperten validiert und durch reale Rückmeldungen kontinuierlich verbessert werden.